AI 모델 개발: 기법 – Test-time Compute
ㅁ 기법
ㅇ 정의:
모델이 학습을 마친 후, 실제 추론 시점에서 추가 연산 자원(CPU/GPU 메모리, 연산량)을 활용하여 예측 성능을 향상시키는 방법.
ㅇ 특징:
– 학습 단계가 아닌 추론 단계에서만 추가 연산을 투입.
– 동일한 모델 파라미터를 사용하더라도 추론 시 연산량을 늘려 성능 개선 가능.
– 예: 다중 샘플링, 앙상블, 빔 서치 확장, iterative refinement.
ㅇ 적합한 경우:
– 실시간성이 덜 중요한 배치 처리 환경.
– 모델 재학습이 어려운 상황에서 성능 개선이 필요할 때.
– 제한된 데이터셋에 대해 높은 정확도가 요구될 때.
ㅇ 시험 함정:
– 학습 시 compute 증가와 혼동할 수 있음.
– Test-time augmentation과 개념적으로 유사하지만, augmentation은 입력 변형 중심이라는 점이 다름.
– 모델 구조 변경 없이도 가능하다는 점을 간과하기 쉬움.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “추론 단계에서 연산량을 늘려 정확도를 향상시키는 기법이다.”
X: “학습 단계에서 연산량을 늘려 정확도를 향상시키는 기법이다.”
X: “Test-time Compute는 반드시 입력 데이터를 변형하는 방식이다.”
ㅁ 추가 학습 내용
Test-time Compute는 추론 시 추가 연산을 수행하는 과정으로, 메모리 사용량과 지연 시간이 증가할 수 있어 실시간 서비스에서는 성능과 자원 사용의 균형을 고려한 trade-off 분석이 필요하다.
관련 기법으로는 Test-time Augmentation(TTA), Test-time Adaptation(TTAd), Test-time Optimization(TTO)이 있으며, 대형 언어 모델에서는 sampling temperature 조절, top-k/top-p sampling, beam size 조정 등이 Test-time Compute 조절의 예시가 된다.
시험에서는 추론 시 연산량 증가와 학습 시 연산량 증가를 구분하는 문제, 그리고 추론 최적화와 모델 경량화의 차이를 묻는 문제가 자주 출제된다.
최근 연구에서는 Test-time Compute를 동적으로 조절하는 Adaptive Inference 기법이 제안되고 있으며, 이는 연산 효율성과 성능을 동시에 고려하는 방법이다.