모델: 시퀀스 처리
ㅁ 시퀀스 처리
ㅇ 정의:
시퀀스 데이터를 모델이 이해할 수 있도록 특수 토큰을 삽입하거나 패딩을 적용하는 기법.
ㅇ 특징:
– 자연어 처리(NLP)에서 문장의 시작과 끝, 구분, 마스크 등을 명시적으로 표시.
– 입력 길이 통일을 위해 패딩 사용.
– 미등록 단어 처리, 문장 분리, BERT 계열 모델의 마스킹 학습 등에 활용.
ㅇ 적합한 경우:
– Transformer, RNN, LSTM 기반 모델 학습.
– 문장 경계 명시, 토큰 분류, 시퀀스-투-시퀀스 번역.
ㅇ 시험 함정:
– 각 토큰의 의미와 사용 위치 혼동.
–
–
ㅇ 시험 대비 “패턴 보기” 예시:
O: “
X: “
================================
1.
ㅇ 정의:
Sequence Start Token, 시퀀스(문장)의 시작을 나타내는 특수 토큰.
ㅇ 특징:
– 디코더가 문장 생성을 시작할 위치를 알 수 있도록 함.
– 번역, 챗봇 응답 생성 등에서 첫 토큰으로 사용.
ㅇ 적합한 경우:
– Seq2Seq 모델의 디코더 입력.
– 문장 생성 태스크.
ㅇ 시험 함정:
–
ㅇ 시험 대비 “패턴 보기” 예시:
O: “
X: “
================================
2.
ㅇ 정의:
Sequence End Token, 시퀀스의 끝을 나타내는 특수 토큰.
ㅇ 특징:
– 디코더가 문장 생성을 종료할 시점을 알 수 있음.
– 출력 길이를 동적으로 조절 가능.
ㅇ 적합한 경우:
– 번역, 텍스트 생성 종료 조건.
ㅇ 시험 함정:
–
ㅇ 시험 대비 “패턴 보기” 예시:
O: “
X: “
================================
3.
ㅇ 정의:
Padding Token, 시퀀스 길이를 맞추기 위해 사용되는 채움 토큰.
ㅇ 특징:
– 실제 의미 없음.
– 마스킹 처리하여 학습에 영향 제거.
ㅇ 적합한 경우:
– 배치 처리 시 입력 길이 통일.
ㅇ 시험 함정:
– 마스킹 누락 시 성능 저하.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “
X: “
================================
4.
ㅇ 정의:
Unknown Token, 사전에 없는 단어를 대체하는 토큰.
ㅇ 특징:
– OOV(Out-Of-Vocabulary) 문제 해결.
– 의미 손실 가능성 있음.
ㅇ 적합한 경우:
– 고정된 어휘 집합을 사용하는 모델.
ㅇ 시험 함정:
–
ㅇ 시험 대비 “패턴 보기” 예시:
O: “
X: “
================================
5.
ㅇ 정의:
Classification Token, 문장 전체 의미를 대표하는 특수 토큰.
ㅇ 특징:
– BERT 등에서 문장 분류, 문장 임베딩 추출에 사용.
– 입력 시퀀스 맨 앞에 위치.
ㅇ 적합한 경우:
– 문장 분류, 유사도 계산.
ㅇ 시험 함정:
–
ㅇ 시험 대비 “패턴 보기” 예시:
O: “
X: “
================================
6.
ㅇ 정의:
Separator Token, 문장 또는 세그먼트를 구분하는 특수 토큰.
ㅇ 특징:
– BERT에서 두 문장 입력 시 구분.
– 질의응답, 문장쌍 분류에 필수.
ㅇ 적합한 경우:
– 두 개 이상의 시퀀스 입력.
ㅇ 시험 함정:
–
ㅇ 시험 대비 “패턴 보기” 예시:
O: “
X: “
================================
7.
ㅇ 정의:
Mask Token, 특정 위치의 토큰을 가리고 해당 단어를 예측하는 학습에 사용.
ㅇ 특징:
– BERT의 MLM(Masked Language Model) 학습에서 사용.
– 실제 예측 시에는 사용하지 않는 경우 많음.
ㅇ 적합한 경우:
– 마스크 언어 모델 학습.
ㅇ 시험 함정:
–
ㅇ 시험 대비 “패턴 보기” 예시:
O: “
X: “
ㅁ 추가 학습 내용
특수 토큰 정리표
토큰명 / 위치 / 역할 / 학습 시 사용 여부 / 추론 시 사용 여부