데이터 전처리: 특수 토큰
ㅁ 특수 토큰
ㅇ 정의:
자연어 처리(NLP)에서 문장의 시작, 끝, 패딩, 미지정 단어 등을 표시하기 위해 사용하는 예약된 토큰.
ㅇ 특징:
모델 학습 시 문장의 구조를 명확히 하고, 길이 맞춤, 어휘 사전 외 단어 처리 등 특정 목적에 맞게 사용됨.
ㅇ 적합한 경우:
시퀀스-투-시퀀스(seq2seq) 모델, 번역기, 챗봇, 음성인식 등 문장 경계나 고정 길이 입력이 필요한 경우.
ㅇ 시험 함정:
토큰의 기능을 혼동하거나, 모델 입력/출력 모두에 필요한지 여부를 잘못 이해하는 경우. 예를 들어
ㅇ 시험 대비 “패턴 보기” 예시:
O: “
X: “
================================
1.
ㅇ 정의:
Start Of Sentence의 약자로, 문장의 시작을 나타내는 특수 토큰.
ㅇ 특징:
주로 디코더 입력의 첫 위치에 배치되어 문장 생성을 시작하게 함.
ㅇ 적합한 경우:
기계 번역, 텍스트 생성 등 생성 시작점을 명시해야 하는 경우.
ㅇ 시험 함정:
모든 NLP 모델에 필요한 것은 아님. 인코더 전용 모델에서는 사용하지 않을 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “
X: “
================================
2.
ㅇ 정의:
End Of Sentence의 약자로, 문장의 끝을 나타내는 특수 토큰.
ㅇ 특징:
모델이 출력 생성을 종료할 시점을 판단하는 기준.
ㅇ 적합한 경우:
생성형 모델에서 출력 길이가 가변적인 경우.
ㅇ 시험 함정:
ㅇ 시험 대비 “패턴 보기” 예시:
O: “
X: “
================================
3.
ㅇ 정의:
Padding을 의미하며, 문장 길이를 맞추기 위해 추가하는 특수 토큰.
ㅇ 특징:
실제 의미가 없으며, 모델 학습 시 무시되도록 마스크 처리.
ㅇ 적합한 경우:
배치 학습 시 길이가 다른 문장을 동일 길이로 맞출 때.
ㅇ 시험 함정:
ㅇ 시험 대비 “패턴 보기” 예시:
O: “
X: “
================================
4.
ㅇ 정의:
Unknown의 약자로, 어휘 사전에 없는 단어를 대체하는 특수 토큰.
ㅇ 특징:
희귀 단어, 오타, 미등록 단어 처리에 사용.
ㅇ 적합한 경우:
사전 크기를 제한하거나 미지의 단어가 많은 데이터셋에서.
ㅇ 시험 함정:
ㅇ 시험 대비 “패턴 보기” 예시:
O: “
X: “
ㅁ 추가 학습 내용
특수 토큰은 모델 구조와 학습 방식에 따라 위치, 사용 시점, 필요 여부가 달라진다.
Transformer 기반 인코더-디코더 구조에서는
BERT와 같은 인코더 전용 모델은 [CLS], [SEP] 등 다른 특수 토큰을 사용한다.
시험에서는 각 토큰의 역할과 사용 위치를 혼동시키는 문제나, 특정 토큰 없이도 동작 가능한 모델 구조를 묻는 함정 문제가 자주 출제된다.