모델: 시퀀스 처리 –

By - meet
Posted on 2025년 09월 01일
Posted in AI 이론

모델: 시퀀스 처리 –

ㅁ 시퀀스 처리

ㅇ 정의:
시퀀스 데이터(문장, 시계열 등)를 동일한 길이로 맞추기 위해 부족한 부분에 채워 넣는 특수 토큰. 주로 딥러닝 모델 입력 전처리 과정에서 사용되며, 의미 있는 정보가 아닌 자리 채움 용도로만 사용됨.

ㅇ 특징:
– 실제 데이터 의미와 무관하며, 모델이 이를 무시하도록 마스킹 처리 필요
– 토큰화 과정에서 미리 정의된 인덱스(예: 0번 또는 특정 번호)로 매핑
– 배치 학습 시 연산 효율성을 위해 모든 시퀀스를 동일 길이로 맞춤

ㅇ 적합한 경우:
– RNN, LSTM, Transformer 등 시퀀스 길이가 다른 데이터를 한 번에 처리해야 하는 경우
– 미니배치 학습 시 입력 차원 통일이 필요한 경우

ㅇ 시험 함정:
– 토큰이 모델 학습에 영향을 주지 않는다고 해서 완전히 무시되는 것은 아님 (마스킹 처리 필요)
– 토큰이 문장 의미를 바꾸는 것으로 오해하는 경우
– 와 를 혼동하는 경우

ㅇ 시험 대비 “패턴 보기” 예시:
O: “ 토큰은 시퀀스 길이를 맞추기 위해 사용되며, 모델이 이를 무시하도록 마스킹한다.”
X: “ 토큰은 문장에서 불필요한 단어를 제거하는 역할을 한다.”

ㅁ 추가 학습 내용

토큰은 시퀀스 길이를 맞추기 위해 의미 없는 자리 채움 용도로 사용되며, 모델이 학습 시 해당 위치를 무시하도록 마스킹 처리한다.
토큰은 어휘 사전에 없는 단어(OOV, Out-Of-Vocabulary)를 대체하는 용도로 사용된다.
토큰은 주로 BERT와 같은 마스크드 언어 모델에서 특정 위치의 단어를 가리고 예측하도록 하는 데 사용된다.

Transformer 기반 모델에서 attention mask 생성 시 토큰 위치는 self-attention 연산에서 다른 토큰이 그 위치를 참조하지 않도록 마스킹된다. 일반적으로 해당 위치의 attention score를 -inf로 설정하거나 0으로 만들어 softmax 결과가 0이 되도록 처리한다.

패딩 전략에는 Pre-padding(앞쪽에 채우기)과 Post-padding(뒤쪽에 채우기)이 있으며, 모델 구조나 구현 방식에 따라 선호가 다르다. 일부 RNN 계열에서는 Pre-padding이, Transformer 계열에서는 Post-padding이 더 자주 사용된다.
GPU 메모리 효율과 연산 속도 측면에서 패딩 위치와 길이는 불필요한 연산량에 직접적인 영향을 주며, 짧은 시퀀스에 맞춘 패딩 최소화가 효율을 높인다.

Meet AI

최신 글

최신 댓글

보관함

카테고리

모델: 시퀀스 처리 –

Previous Article

Next Article

답글 남기기 응답 취소