AI 모델 개발: 기법

ㅁ 기법

ㅇ 정의:

ㅇ 특징:

ㅇ 적합한 경우:

ㅇ 시험 함정:

ㅇ 시험 대비 “패턴 보기” 예시:

================================

1. Test-time Compute

ㅇ 정의:
모델 학습이 완료된 후, 추론 시점(test-time)에 더 많은 연산 자원이나 추가 단계를 투입하여 성능을 향상시키는 기법.

ㅇ 특징:
– 학습 파라미터는 고정되어 있으나, 추론 시 연산량을 늘려 더 정밀한 결과를 얻음
– 예: 빔 서치 폭 확장, 반복 추론, 앙상블 inference
– 실시간성보다 정확성이 중요한 경우 유리

ㅇ 적합한 경우:
– 제한된 데이터로 학습했지만 추론 시 자원이 충분한 경우
– 오답 비용이 큰 의사결정 시스템

ㅇ 시험 함정:
– 학습 단계에서 연산량을 늘리는 것과 혼동하기 쉬움 (이는 training-time compute)
– Test-time compute는 모델 구조 변경이 아닌 추론 과정 변경임

ㅇ 시험 대비 “패턴 보기” 예시:
O: “추론 시 빔 서치 폭을 늘려 정확도를 향상시키는 것은 Test-time Compute의 예이다.”
X: “Test-time Compute는 학습 시 더 많은 데이터를 사용하는 것을 의미한다.”

================================

2. Self-consistency

ㅇ 정의:
추론 시 동일한 입력에 대해 여러 reasoning 경로를 생성하고, 다수결이나 통계적 방법으로 최종 답을 결정하는 기법.

ㅇ 특징:
– Chain-of-Thought(CoT)와 함께 사용되는 경우 많음
– 비결정적 샘플링(nucleus sampling, temperature 조정) 활용
– 다양한 사고 경로를 탐색하여 오류를 줄임

ㅇ 적합한 경우:
– 복잡한 수리/논리 문제
– 단일 reasoning 경로의 신뢰도가 낮은 경우

ㅇ 시험 함정:
– 단순 앙상블과 혼동 가능 (Self-consistency는 reasoning 경로 다양화에 초점)
– deterministic decoding(예: greedy search)와는 상반된 개념

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Self-consistency는 여러 reasoning 경로를 생성하여 다수결로 최종 답을 결정한다.”
X: “Self-consistency는 항상 동일한 reasoning 경로를 사용한다.”

================================

3. Chain-of-Thought Prompting

ㅇ 정의:
모델이 문제 해결 과정을 단계별로 명시적으로 서술하도록 유도하는 프롬프트 기법.

ㅇ 특징:
– 복잡한 추론 문제에서 중간 단계 노출
– reasoning transparency 향상
– zero-shot, few-shot CoT 방식 존재

ㅇ 적합한 경우:
– 수학, 논리, 다단계 추론 문제
– 모델의 중간 추론 과정을 검증해야 하는 경우

ㅇ 시험 함정:
– 단순히 길게 답변하는 것과 혼동하지 않기
– CoT는 reasoning step-by-step을 명시적으로 유도하는 것

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Chain-of-Thought Prompting은 모델이 단계별 reasoning을 서술하게 한다.”
X: “Chain-of-Thought Prompting은 답변을 무조건 짧게 만들도록 한다.”

ㅁ 추가 학습 내용

[학습 정리]

1. Test-time Compute 관련 기법 비교
– Adaptive Computation Time(ACT): 입력별로 필요한 연산량을 동적으로 조절하는 방식. 복잡한 입력에는 더 많은 연산, 단순한 입력에는 적은 연산을 할당.
– Early Exit: 모델의 중간 계층에서 충분히 확신이 생기면 추론을 조기 종료. 속도와 자원 절약에 유리하나, 정확도 저하 가능성 존재.
– 비교 포인트: ACT는 연산량을 세밀하게 조절, Early Exit는 결정 시점을 앞당겨 속도를 높임. 둘 다 효율성을 목표로 하지만 적용 방식과 제어 단위가 다름.

2. Self-consistency의 수학적 근거
– 다수결 투표(Majority Voting)의 확률적 정확도 향상: 개별 추론의 정확도가 p > 0.5일 때, 독립된 n번의 추론을 수행하고 다수결로 결정하면 전체 정확도는 개별 정확도보다 높아짐.
– 확률 계산: 이항분포를 이용해 과반수 이상이 정답일 확률을 계산. n이 커질수록 정확도 상승 폭이 커짐.

3. Chain-of-Thought(CoT) vs. Tree-of-Thought(ToT) vs. Graph-of-Thought(GoT)
– CoT: 단일 경로로 단계적 추론 과정을 명시.
– ToT: 여러 추론 경로를 분기 형태로 탐색, 각 경로를 평가하며 최적 경로 선택.
– GoT: 추론 단계를 그래프 구조로 표현, 경로 간 상호 참조와 재결합 가능.
– 차이점: 구조와 탐색 범위. CoT는 선형, ToT는 분기형, GoT는 네트워크형.

4. 실제 적용 사례
– OpenAI GPT 시리즈에서 Self-consistency를 활용해 수학 문제 해결 성능 향상. 예: 단일 CoT 대비 여러 CoT 경로 생성 후 다수결 선택 시 정확도 상승 보고됨.

5. 추론 최적화 기법의 trade-off 분석
– 정확도: Self-consistency, ToT, GoT는 경로 확장으로 정확도 향상 가능.
– 속도: Early Exit, ACT는 속도 향상 가능.
– 자원 소모: 경로 확장 기법은 자원 소모 증가, 조기 종료/연산 조절 기법은 자원 절약.
– 선택 시 고려: 응용 분야의 실시간성 요구, 하드웨어 자원, 정확도 목표.

6. 성능 변화 수치/벤치마크 숙지
– 각 기법 적용 시의 벤치마크 결과(예: 정확도 %, 처리 시간, GPU 사용량) 숙지 필요.
– 시험 대비: 구체적 수치와 비교표 형태로 암기.

[시험 대비 체크리스트]

– ACT와 Early Exit의 정의, 동작 원리, 장단점 구분 가능 여부
– Self-consistency의 확률적 근거와 이항분포 계산식 설명 가능 여부
– CoT, ToT, GoT의 구조적 차이와 적용 상황 설명 가능 여부
– OpenAI GPT 시리즈에서 Self-consistency 적용 사례와 성능 변화 수치 숙지 여부
– 정확도, 속도, 자원 소모 간의 trade-off 분석 가능 여부
– 각 기법의 벤치마크 결과(정확도 %, 시간, 자원 사용량) 암기 여부
– 기법별 최적 적용 시나리오 제시 가능 여부

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*