모델: 시퀀스 처리 –

ㅁ 시퀀스 처리

ㅇ 정의:
시퀀스 처리에서 (End Of Sequence) 토큰은 문장이나 시퀀스의 끝을 나타내는 특수 토큰으로, 모델이 더 이상 토큰을 생성하지 않아야 함을 알리는 역할을 한다.

ㅇ 특징:
– 텍스트 생성, 번역, 요약 등에서 시퀀스의 종료 시점을 명확히 구분.
– 디코더가 무한히 토큰을 생성하는 것을 방지.
– 학습 시 정답 문장의 끝에 항상 추가되어 종료 지점을 학습하게 함.

ㅇ 적합한 경우:
– 기계 번역, 챗봇 응답 생성, 텍스트 요약처럼 출력 길이가 가변적인 경우.
– 시퀀스 종료를 명시적으로 알려야 하는 언어 모델.

ㅇ 시험 함정:
를 입력 시퀀스에 넣는 경우와 출력 시퀀스에 넣는 경우를 혼동.
와 동일하게 취급하는 오류.
– 일부 모델은 없이도 max length로 종료 가능하나, 이는 의 필요성을 부정하는 것이 아님.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “ 토큰은 시퀀스 종료를 나타내며, 디코더의 출력 종료 시점 학습에 사용된다.”
– X: “ 토큰은 입력 시퀀스의 시작을 나타낸다.”
– X: “는 패딩 토큰과 동일한 기능을 한다.”

ㅁ 추가 학습 내용

토큰은 Transformer나 RNN 계열 모델에서 디코딩 종료 조건으로 사용된다. beam search나 greedy decoding 과정에서 가 등장하면 해당 후보 시퀀스는 즉시 종료된다. 시험에서는 , (Begin Of Sequence), 의 차이를 비교하는 문제가 자주 출제되므로 각 토큰의 역할과 시퀀스 내 위치를 구분해야 한다. 는 시퀀스의 시작을 알리는 토큰으로 주로 입력 시퀀스의 첫 위치에 등장하며, 는 길이를 맞추기 위해 사용되는 채움 토큰으로 실제 의미를 가지지 않는다. 일부 모델에서는 가 여러 번 등장할 수 있는데, 첫 번째 이후의 토큰은 무시된다는 점을 기억해야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*