모델: 시퀀스 처리

ㅁ 시퀀스 처리

ㅇ 정의:
시퀀스 데이터를 모델이 이해할 수 있도록 특수 토큰을 삽입하거나 패딩을 적용하는 기법.

ㅇ 특징:
– 자연어 처리(NLP)에서 문장의 시작과 끝, 구분, 마스크 등을 명시적으로 표시.
– 입력 길이 통일을 위해 패딩 사용.
– 미등록 단어 처리, 문장 분리, BERT 계열 모델의 마스킹 학습 등에 활용.

ㅇ 적합한 경우:
– Transformer, RNN, LSTM 기반 모델 학습.
– 문장 경계 명시, 토큰 분류, 시퀀스-투-시퀀스 번역.

ㅇ 시험 함정:
– 각 토큰의 의미와 사용 위치 혼동.
는 학습에 영향 주지 않도록 마스크 처리 필요.
는 학습 시에만 사용되는 경우가 많음.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “는 시퀀스의 끝을 나타내는 토큰이다.”
X: “는 항상 문장의 시작을 나타낸다.”

================================

1.

ㅇ 정의:
Sequence Start Token, 시퀀스(문장)의 시작을 나타내는 특수 토큰.

ㅇ 특징:
– 디코더가 문장 생성을 시작할 위치를 알 수 있도록 함.
– 번역, 챗봇 응답 생성 등에서 첫 토큰으로 사용.

ㅇ 적합한 경우:
– Seq2Seq 모델의 디코더 입력.
– 문장 생성 태스크.

ㅇ 시험 함정:
와 혼동 주의. 는 문장 시작, 는 문장 전체 표현.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “는 디코더 입력의 첫 토큰이다.”
X: “는 문장의 끝을 표시한다.”

================================

2.

ㅇ 정의:
Sequence End Token, 시퀀스의 끝을 나타내는 특수 토큰.

ㅇ 특징:
– 디코더가 문장 생성을 종료할 시점을 알 수 있음.
– 출력 길이를 동적으로 조절 가능.

ㅇ 적합한 경우:
– 번역, 텍스트 생성 종료 조건.

ㅇ 시험 함정:
와 혼동 주의. 는 의미 있는 종료, 는 채움.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “는 모델이 출력 생성을 멈추는 기준이다.”
X: “는 항상 문장 중간에 삽입된다.”

================================

3.

ㅇ 정의:
Padding Token, 시퀀스 길이를 맞추기 위해 사용되는 채움 토큰.

ㅇ 특징:
– 실제 의미 없음.
– 마스킹 처리하여 학습에 영향 제거.

ㅇ 적합한 경우:
– 배치 처리 시 입력 길이 통일.

ㅇ 시험 함정:
– 마스킹 누락 시 성능 저하.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “는 의미 없는 채움 토큰이다.”
X: “는 문장 끝을 나타낸다.”

================================

4.

ㅇ 정의:
Unknown Token, 사전에 없는 단어를 대체하는 토큰.

ㅇ 특징:
– OOV(Out-Of-Vocabulary) 문제 해결.
– 의미 손실 가능성 있음.

ㅇ 적합한 경우:
– 고정된 어휘 집합을 사용하는 모델.

ㅇ 시험 함정:
와 혼동 금지. 는 미등록 단어 대체.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “는 사전에 없는 단어를 표시한다.”
X: “는 문장 구분에 사용된다.”

================================

5.

ㅇ 정의:
Classification Token, 문장 전체 의미를 대표하는 특수 토큰.

ㅇ 특징:
– BERT 등에서 문장 분류, 문장 임베딩 추출에 사용.
– 입력 시퀀스 맨 앞에 위치.

ㅇ 적합한 경우:
– 문장 분류, 유사도 계산.

ㅇ 시험 함정:
와 혼동 주의.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “ 토큰의 출력 벡터는 문장 전체를 대표한다.”
X: “는 문장 끝에 항상 위치한다.”

================================

6.

ㅇ 정의:
Separator Token, 문장 또는 세그먼트를 구분하는 특수 토큰.

ㅇ 특징:
– BERT에서 두 문장 입력 시 구분.
– 질의응답, 문장쌍 분류에 필수.

ㅇ 적합한 경우:
– 두 개 이상의 시퀀스 입력.

ㅇ 시험 함정:
와 혼동 금지.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “는 시퀀스 간 경계를 나타낸다.”
X: “는 미등록 단어를 표시한다.”

================================

7.

ㅇ 정의:
Mask Token, 특정 위치의 토큰을 가리고 해당 단어를 예측하는 학습에 사용.

ㅇ 특징:
– BERT의 MLM(Masked Language Model) 학습에서 사용.
– 실제 예측 시에는 사용하지 않는 경우 많음.

ㅇ 적합한 경우:
– 마스크 언어 모델 학습.

ㅇ 시험 함정:
와 혼동 금지.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “는 학습 시 특정 단어를 가린다.”
X: “는 항상 출력 시 포함된다.”

ㅁ 추가 학습 내용

특수 토큰 정리표

토큰명 / 위치 / 역할 / 학습 시 사용 여부 / 추론 시 사용 여부

/ 시퀀스 시작 / 생성 시작 신호 / 사용 / 사용

/ 시퀀스 시작 / 문장 전체 표현(분류 등) / 사용 / 사용

/ 시퀀스 내 빈 자리 / 길이 맞추기, Attention Mask로 제외 / 사용 / 사용(Attention에서 제외)

/ 시퀀스 내 마스킹 위치 / 마스크 언어 모델 학습 / 사용 / 일반적으로 사용 안 함

/ 시퀀스 내 해당 토큰 위치 / 사전에 없는 토큰 대체 / 사용 / 사용

/ 시퀀스 내 구분 위치 / 문장·문서·대화 턴 구분 / 사용 / 사용

/ 시퀀스 끝 / 시퀀스 종료 표시, beam search 종료 조건 / 사용 / 사용

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*