AI 모델 개발: 토큰 관리 – Extended Context Window
ㅁ 토큰 관리
ㅇ 정의:
– Extended Context Window는 기존 모델의 기본 컨텍스트 윈도우 크기보다 더 많은 토큰을 처리할 수 있도록 확장한 기능으로, 긴 문서나 대화 이력을 한 번에 모델에 입력할 수 있게 함.
ㅇ 특징:
– 수천~수만 토큰까지 확장 가능 (예: 8K → 32K, 100K 이상)
– 긴 문맥 유지에 유리하나, 토큰 수 증가에 따라 처리 속도와 비용이 증가
– 모델이 긴 입력에서 중요한 정보를 선택적으로 활용해야 하므로 요약/검색과 함께 사용되는 경우 많음
ㅇ 적합한 경우:
– 법률 문서, 연구 논문, 기술 매뉴얼 등 장문 분석
– 고객 상담 기록 전체를 기반으로 한 응답 생성
– 복잡한 스토리라인 유지가 필요한 창작물 생성
ㅇ 시험 함정:
– Extended Context Window가 항상 모델의 기억력을 무한히 확장하는 것은 아님 (모델은 여전히 주의집중 메커니즘 한계 존재)
– 토큰 수가 많아도 중요 정보가 앞부분에 있으면 뒷부분 정보가 무시될 수 있음
– ‘긴 문맥 = 항상 더 좋은 성능’이라는 단정은 X
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Extended Context Window는 더 많은 토큰을 처리할 수 있도록 모델의 입력 길이를 확장한다.”
– X: “Extended Context Window는 모델이 모든 입력 내용을 100% 완벽하게 기억하게 한다.”
– O: “Extended Context Window 사용 시 처리 비용이 증가할 수 있다.”
– X: “Extended Context Window는 처리 속도에 영향을 주지 않는다.”
ㅁ 추가 학습 내용
Extended Context Window는 다음과 같은 핵심 사항을 이해해야 한다.
첫째, 구현 방식은 두 가지로 나뉜다. 일부 모델은 아키텍처 변경 없이 RoPE(회전 위치 임베딩) 스케일링이나 ALiBi(Attention with Linear Biases)와 같은 기법으로 윈도우를 확장하며, 다른 경우에는 파라미터를 재학습하여 지원한다.
둘째, 한계로는 긴 문맥에서도 모델의 attention이 균등하게 분배되지 않아 중요한 정보가 누락될 수 있다는 점이 있다.
셋째, 비용과 성능의 트레이드오프가 존재한다. 토큰 수가 증가하면 메모리 사용량과 응답 지연이 늘어나므로, Retrieval-Augmented Generation(RAG)이나 슬라이딩 윈도우 기법과 함께 사용하는 것이 효율적이다.
넷째, 평가 방법으로는 긴 문서 질의응답(QA)이나 장문 요약 테스트를 통해 실제 성능을 검증한다.
다섯째, 시험에서는 Extended Context Window와 Long-Term Memory(외부 메모리 저장 방식)을 혼동하도록 하는 함정 문제가 자주 출제되므로 구분이 필요하다.