데이터 전처리: 특수 토큰

By - meet
Posted on 2025년 08월 31일
Posted in AI 이론

데이터 전처리: 특수 토큰

ㅁ 특수 토큰

ㅇ 정의:
자연어 처리(NLP)에서 문장의 시작, 끝, 패딩, 미지정 단어 등을 표시하기 위해 사용하는 예약된 토큰.

ㅇ 특징:
모델 학습 시 문장의 구조를 명확히 하고, 길이 맞춤, 어휘 사전 외 단어 처리 등 특정 목적에 맞게 사용됨.

ㅇ 적합한 경우:
시퀀스-투-시퀀스(seq2seq) 모델, 번역기, 챗봇, 음성인식 등 문장 경계나 고정 길이 입력이 필요한 경우.

ㅇ 시험 함정:
토큰의 기능을 혼동하거나, 모델 입력/출력 모두에 필요한지 여부를 잘못 이해하는 경우. 예를 들어 는 입력에만 쓰인다고 단정하는 오류.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “ 토큰은 배치 내 문장 길이를 맞추기 위해 사용된다.”
X: “ 토큰은 반드시 모든 단어를 대체한다.”

================================

ㅇ 정의:
Start Of Sentence의 약자로, 문장의 시작을 나타내는 특수 토큰.

ㅇ 특징:
주로 디코더 입력의 첫 위치에 배치되어 문장 생성을 시작하게 함.

ㅇ 적합한 경우:
기계 번역, 텍스트 생성 등 생성 시작점을 명시해야 하는 경우.

ㅇ 시험 함정:
모든 NLP 모델에 필요한 것은 아님. 인코더 전용 모델에서는 사용하지 않을 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “ 토큰은 디코더가 첫 단어를 예측할 수 있도록 한다.”
X: “ 토큰은 항상 출력 마지막에 위치한다.”

================================

ㅇ 정의:
End Of Sentence의 약자로, 문장의 끝을 나타내는 특수 토큰.

ㅇ 특징:
모델이 출력 생성을 종료할 시점을 판단하는 기준.

ㅇ 적합한 경우:
생성형 모델에서 출력 길이가 가변적인 경우.

ㅇ 시험 함정:
가 없으면 모델이 무한히 토큰을 생성할 수 있다는 점을 간과.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “ 토큰은 출력 종료 신호로 사용된다.”
X: “ 토큰은 입력 시퀀스의 시작을 알린다.”

================================

ㅇ 정의:
Padding을 의미하며, 문장 길이를 맞추기 위해 추가하는 특수 토큰.

ㅇ 특징:
실제 의미가 없으며, 모델 학습 시 무시되도록 마스크 처리.

ㅇ 적합한 경우:
배치 학습 시 길이가 다른 문장을 동일 길이로 맞출 때.

ㅇ 시험 함정:
토큰을 학습에 그대로 포함시키면 불필요한 오차 발생.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “ 토큰은 길이 정규화를 위해 사용된다.”
X: “ 토큰은 문장 의미를 보강한다.”

================================

ㅇ 정의:
Unknown의 약자로, 어휘 사전에 없는 단어를 대체하는 특수 토큰.

ㅇ 특징:
희귀 단어, 오타, 미등록 단어 처리에 사용.

ㅇ 적합한 경우:
사전 크기를 제한하거나 미지의 단어가 많은 데이터셋에서.

ㅇ 시험 함정:
토큰이 많으면 의미 손실이 커지고 모델 성능 저하 가능.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “ 토큰은 사전에 없는 단어를 대체한다.”
X: “ 토큰은 모든 단어를 무작위로 변환한다.”

ㅁ 추가 학습 내용

특수 토큰은 모델 구조와 학습 방식에 따라 위치, 사용 시점, 필요 여부가 달라진다.
Transformer 기반 인코더-디코더 구조에서는 와 토큰이 주로 디코더 측에서만 필요하다.
BERT와 같은 인코더 전용 모델은 [CLS], [SEP] 등 다른 특수 토큰을 사용한다.
토큰은 시퀀스 길이를 맞추기 위해 사용하며, 손실 계산 시에는 마스킹 처리해야 한다.
토큰은 어휘에 없는 단어를 대체하는 용도로 사용되지만, 서브워드 토크나이저(BPE, WordPiece)를 사용하면 등장 빈도가 줄어든다.
시험에서는 각 토큰의 역할과 사용 위치를 혼동시키는 문제나, 특정 토큰 없이도 동작 가능한 모델 구조를 묻는 함정 문제가 자주 출제된다.

Meet AI

최신 글

최신 댓글

보관함

카테고리

데이터 전처리: 특수 토큰

Previous Article

Next Article

답글 남기기 응답 취소