AI 모델 개발: 토큰 관리 – Sliding Attention

ㅁ 토큰 관리

ㅇ 정의:
토큰 관리란 대규모 언어 모델(LLM)에서 입력과 출력에 사용되는 토큰 수를 효율적으로 조절하여 컨텍스트 윈도우 한계를 초과하지 않도록 하는 기법을 의미한다.

ㅇ 특징:
– 모델 입력에 포함되는 텍스트를 토큰 단위로 계산하여 관리
– 불필요한 과거 대화나 문맥을 제거하거나 요약
– 컨텍스트 윈도우 크기에 따라 전략이 달라짐

ㅇ 적합한 경우:
– 장문의 대화나 문서 처리 시
– 메모리 사용량과 응답 속도를 최적화해야 하는 경우

ㅇ 시험 함정:
– 토큰 수 계산 시 공백, 특수문자도 토큰으로 포함될 수 있음
– 컨텍스트 윈도우 크기는 모델마다 다르므로 절대값으로 외우면 안 됨

ㅇ 시험 대비 “패턴 보기” 예시:
O: “토큰 관리는 컨텍스트 윈도우 한계를 고려한 입력 조정 기법이다.”
X: “토큰 관리는 항상 문장 단위로만 관리한다.”

================================

1. Sliding Attention

ㅇ 정의:
Sliding Attention은 긴 시퀀스를 처리할 때 전체 시퀀스를 한 번에 주목하지 않고, 일정한 크기의 윈도우를 슬라이딩하며 해당 구간에만 어텐션을 적용하는 기법이다.

ㅇ 특징:
– 메모리 사용량 감소
– 국소적 문맥 집중
– 긴 문서 처리에 유리하지만, 먼 거리 의존성은 일부 손실 가능

ㅇ 적합한 경우:
– 긴 텍스트나 스트리밍 데이터 처리
– 제한된 GPU 메모리 환경

ㅇ 시험 함정:
– Sliding Attention이 모든 장거리 의존성을 보존한다고 오해
– 윈도우 크기를 크게 하면 메모리 절감 효과가 줄어듦

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Sliding Attention은 윈도우 단위로 어텐션을 적용하여 메모리를 절감한다.”
X: “Sliding Attention은 전체 시퀀스를 항상 한 번에 처리한다.”

ㅁ 추가 학습 내용

Sliding Attention은 Transformer 구조에서 긴 문서 처리에 적합하도록 변형된 기법으로, Longformer, BigBird 등의 모델에 적용된다.
시험에서는 Sliding Attention과 Local Attention, Global Attention의 차이를 묻거나, 윈도우 크기를 조정했을 때의 성능과 메모리 사용량 간의 트레이드오프를 물을 수 있다.
Sliding Attention은 시퀀스 길이에 비례하여 연산량이 줄어드는 구조적 장점을 가지지만, 윈도우 경계에서 정보 손실이 발생할 수 있다. 이를 보완하기 위해 Overlapping Window 기법을 함께 사용할 수 있다는 점도 중요하다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*