모델: 시퀀스 처리 –

ㅁ 시퀀스 처리

ㅇ 정의:
시퀀스 데이터(문장, 시계열 등)를 동일한 길이로 맞추기 위해 부족한 부분에 채워 넣는 특수 토큰. 주로 딥러닝 모델 입력 전처리 과정에서 사용되며, 의미 있는 정보가 아닌 자리 채움 용도로만 사용됨.

ㅇ 특징:
– 실제 데이터 의미와 무관하며, 모델이 이를 무시하도록 마스킹 처리 필요
– 토큰화 과정에서 미리 정의된 인덱스(예: 0번 또는 특정 번호)로 매핑
– 배치 학습 시 연산 효율성을 위해 모든 시퀀스를 동일 길이로 맞춤

ㅇ 적합한 경우:
– RNN, LSTM, Transformer 등 시퀀스 길이가 다른 데이터를 한 번에 처리해야 하는 경우
– 미니배치 학습 시 입력 차원 통일이 필요한 경우

ㅇ 시험 함정:
토큰이 모델 학습에 영향을 주지 않는다고 해서 완전히 무시되는 것은 아님 (마스킹 처리 필요)
토큰이 문장 의미를 바꾸는 것으로 오해하는 경우
를 혼동하는 경우

ㅇ 시험 대비 “패턴 보기” 예시:
O: “ 토큰은 시퀀스 길이를 맞추기 위해 사용되며, 모델이 이를 무시하도록 마스킹한다.”
X: “ 토큰은 문장에서 불필요한 단어를 제거하는 역할을 한다.”

ㅁ 추가 학습 내용

토큰은 시퀀스 길이를 맞추기 위해 의미 없는 자리 채움 용도로 사용되며, 모델이 학습 시 해당 위치를 무시하도록 마스킹 처리한다.
토큰은 어휘 사전에 없는 단어(OOV, Out-Of-Vocabulary)를 대체하는 용도로 사용된다.
토큰은 주로 BERT와 같은 마스크드 언어 모델에서 특정 위치의 단어를 가리고 예측하도록 하는 데 사용된다.

Transformer 기반 모델에서 attention mask 생성 시 토큰 위치는 self-attention 연산에서 다른 토큰이 그 위치를 참조하지 않도록 마스킹된다. 일반적으로 해당 위치의 attention score를 -inf로 설정하거나 0으로 만들어 softmax 결과가 0이 되도록 처리한다.

패딩 전략에는 Pre-padding(앞쪽에 채우기)과 Post-padding(뒤쪽에 채우기)이 있으며, 모델 구조나 구현 방식에 따라 선호가 다르다. 일부 RNN 계열에서는 Pre-padding이, Transformer 계열에서는 Post-padding이 더 자주 사용된다.
GPU 메모리 효율과 연산 속도 측면에서 패딩 위치와 길이는 불필요한 연산량에 직접적인 영향을 주며, 짧은 시퀀스에 맞춘 패딩 최소화가 효율을 높인다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*