모델: 시퀀스 처리 –

ㅁ 시퀀스 처리

1.

ㅇ 정의:
시퀀스 데이터 처리에서 문장의 시작을 나타내는 특수 토큰(Start of Sequence)으로, 모델이 입력 또는 생성 과정에서 문장의 시작점을 인식하도록 돕는다.

ㅇ 특징:
– 자연어 처리(NLP)에서 주로 사용되며, 디코더 기반 모델에서 문장 생성을 시작할 때 필수적으로 포함.
– 토큰 인덱스 값이 사전에 고정되어 있으며, 학습 시 항상 동일한 위치에서 등장.
– 번역, 요약, 챗봇 응답 생성 등에서 문장 시작을 명확히 구분.

ㅇ 적합한 경우:
– Seq2Seq 모델의 디코더 입력 시작점 설정.
– 언어 모델이 문장 경계를 명확히 학습해야 하는 경우.
– 다중 문장 처리에서 각 문장의 시작을 구분해야 하는 경우.

ㅇ 시험 함정:
토큰은 문장 시작을 의미하므로, 문장 종료를 나타내는 와 혼동하지 않도록 주의.
– 일부 모델에서는 없이도 학습이 가능하지만, 이는 성능 저하로 이어질 수 있음.
– 토큰 인덱스가 패딩 토큰()과 다르다는 점을 혼동하기 쉬움.

ㅇ 시험 대비 “패턴 보기” 예시:
O: 디코더 입력의 첫 번째 토큰으로 를 사용한다.
X: 토큰은 문장 종료를 나타낸다.
X: 는 동일한 역할을 한다.

ㅁ 추가 학습 내용

토큰은 주로 디코더 입력의 첫 위치에 삽입되며, 인코더 입력에는 포함되지 않는 경우가 많다. 는 세트로 사용되는 경우가 많으며, 모델이 문장의 경계를 학습하는 데 중요한 역할을 한다. Transformer 기반 모델에서는 토큰이 positional encoding과 결합되어 문장 시작 위치 정보를 제공한다. 시험에서는 없이도 학습이 가능하다는 함정을 넣어, 성능 저하나 문장 경계 인식 문제를 유발하는 사례를 물을 수 있다. RNN, LSTM, GRU 등 순환 신경망 기반 모델과 Transformer 모델에서의 토큰 처리 방식 차이를 이해하는 것이 유리하다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*