모델: 시퀀스 처리 –

ㅁ 시퀀스 처리

ㅇ 정의:
입력 시퀀스의 맨 앞에 추가되는 특수 토큰으로, 주로 문장 전체의 의미를 대표하는 벡터를 생성하기 위해 사용됨. BERT 계열 모델에서 분류 작업 시 이 토큰의 출력 벡터를 활용함.

ㅇ 특징:
– 항상 시퀀스의 시작 위치에 위치함
– 모델이 문장 전체를 요약한 정보를 이 위치의 벡터에 담도록 학습됨
– 분류, 회귀, 문장 관계 판단 등 다양한 다운스트림 작업에 활용 가능

ㅇ 적합한 경우:
– 문장 단위 분류 작업(감정 분석, 스팸 탐지 등)
– 문장 간 관계 판단(NLI, QA 등)

ㅇ 시험 함정:
– [CLS] 토큰이 문장 의미를 ‘자동으로’ 담는 것이 아니라, 학습 과정에서 해당 역할이 부여됨
– 모든 모델이 [CLS] 토큰을 사용하는 것은 아님 (예: GPT 계열은 사용하지 않음)
– [CLS] 토큰의 위치는 항상 맨 앞이며, 중간이나 끝에 두지 않음

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “BERT에서 [CLS] 토큰은 문장 전체 표현을 위해 입력 시퀀스의 처음에 추가된다.”
– X: “[CLS] 토큰은 항상 문장 끝에 추가되어 문장 요약을 수행한다.”

ㅁ 추가 학습 내용

[CLS] 토큰은 Transformer 기반 인코더 모델에서 주로 사용되며, 디코더 중심의 언어모델(GPT 등)에서는 사용되지 않는다. [CLS] 벡터는 단순히 첫 번째 토큰의 임베딩이 아니라, 모든 self-attention 레이어를 거친 최종 hidden state이다. 시험에서는 [CLS] 토큰의 용도와 문장 내 위치, 그리고 [SEP], [PAD] 등의 다른 특수 토큰과의 차이를 비교하는 문제가 출제될 수 있으므로 각 토큰의 역할과 특징을 구분해 학습해야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*