데이터 전처리: 특수 토큰

ㅁ 특수 토큰

ㅇ 정의:
자연어 처리(NLP)에서 문장의 시작, 끝, 패딩, 미지정 단어 등을 표시하기 위해 사용하는 예약된 토큰.

ㅇ 특징:
모델 학습 시 문장의 구조를 명확히 하고, 길이 맞춤, 어휘 사전 외 단어 처리 등 특정 목적에 맞게 사용됨.

ㅇ 적합한 경우:
시퀀스-투-시퀀스(seq2seq) 모델, 번역기, 챗봇, 음성인식 등 문장 경계나 고정 길이 입력이 필요한 경우.

ㅇ 시험 함정:
토큰의 기능을 혼동하거나, 모델 입력/출력 모두에 필요한지 여부를 잘못 이해하는 경우. 예를 들어 는 입력에만 쓰인다고 단정하는 오류.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “ 토큰은 배치 내 문장 길이를 맞추기 위해 사용된다.”
X: “ 토큰은 반드시 모든 단어를 대체한다.”

================================

1.

ㅇ 정의:
Start Of Sentence의 약자로, 문장의 시작을 나타내는 특수 토큰.

ㅇ 특징:
주로 디코더 입력의 첫 위치에 배치되어 문장 생성을 시작하게 함.

ㅇ 적합한 경우:
기계 번역, 텍스트 생성 등 생성 시작점을 명시해야 하는 경우.

ㅇ 시험 함정:
모든 NLP 모델에 필요한 것은 아님. 인코더 전용 모델에서는 사용하지 않을 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “ 토큰은 디코더가 첫 단어를 예측할 수 있도록 한다.”
X: “ 토큰은 항상 출력 마지막에 위치한다.”

================================

2.

ㅇ 정의:
End Of Sentence의 약자로, 문장의 끝을 나타내는 특수 토큰.

ㅇ 특징:
모델이 출력 생성을 종료할 시점을 판단하는 기준.

ㅇ 적합한 경우:
생성형 모델에서 출력 길이가 가변적인 경우.

ㅇ 시험 함정:
가 없으면 모델이 무한히 토큰을 생성할 수 있다는 점을 간과.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “ 토큰은 출력 종료 신호로 사용된다.”
X: “ 토큰은 입력 시퀀스의 시작을 알린다.”

================================

3.

ㅇ 정의:
Padding을 의미하며, 문장 길이를 맞추기 위해 추가하는 특수 토큰.

ㅇ 특징:
실제 의미가 없으며, 모델 학습 시 무시되도록 마스크 처리.

ㅇ 적합한 경우:
배치 학습 시 길이가 다른 문장을 동일 길이로 맞출 때.

ㅇ 시험 함정:
토큰을 학습에 그대로 포함시키면 불필요한 오차 발생.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “ 토큰은 길이 정규화를 위해 사용된다.”
X: “ 토큰은 문장 의미를 보강한다.”

================================

4.

ㅇ 정의:
Unknown의 약자로, 어휘 사전에 없는 단어를 대체하는 특수 토큰.

ㅇ 특징:
희귀 단어, 오타, 미등록 단어 처리에 사용.

ㅇ 적합한 경우:
사전 크기를 제한하거나 미지의 단어가 많은 데이터셋에서.

ㅇ 시험 함정:
토큰이 많으면 의미 손실이 커지고 모델 성능 저하 가능.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “ 토큰은 사전에 없는 단어를 대체한다.”
X: “ 토큰은 모든 단어를 무작위로 변환한다.”

ㅁ 추가 학습 내용

특수 토큰은 모델 구조와 학습 방식에 따라 위치, 사용 시점, 필요 여부가 달라진다.
Transformer 기반 인코더-디코더 구조에서는 토큰이 주로 디코더 측에서만 필요하다.
BERT와 같은 인코더 전용 모델은 [CLS], [SEP] 등 다른 특수 토큰을 사용한다.
토큰은 시퀀스 길이를 맞추기 위해 사용하며, 손실 계산 시에는 마스킹 처리해야 한다.
토큰은 어휘에 없는 단어를 대체하는 용도로 사용되지만, 서브워드 토크나이저(BPE, WordPiece)를 사용하면 등장 빈도가 줄어든다.
시험에서는 각 토큰의 역할과 사용 위치를 혼동시키는 문제나, 특정 토큰 없이도 동작 가능한 모델 구조를 묻는 함정 문제가 자주 출제된다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*