모델: 시퀀스 처리 –
ㅁ 시퀀스 처리
ㅇ 정의:
시퀀스 데이터(문장, 시계열 등)를 동일한 길이로 맞추기 위해 부족한 부분에 채워 넣는 특수 토큰. 주로 딥러닝 모델 입력 전처리 과정에서 사용되며, 의미 있는 정보가 아닌 자리 채움 용도로만 사용됨.
ㅇ 특징:
– 실제 데이터 의미와 무관하며, 모델이 이를 무시하도록 마스킹 처리 필요
– 토큰화 과정에서 미리 정의된 인덱스(예: 0번 또는 특정 번호)로 매핑
– 배치 학습 시 연산 효율성을 위해 모든 시퀀스를 동일 길이로 맞춤
ㅇ 적합한 경우:
– RNN, LSTM, Transformer 등 시퀀스 길이가 다른 데이터를 한 번에 처리해야 하는 경우
– 미니배치 학습 시 입력 차원 통일이 필요한 경우
ㅇ 시험 함정:
–
–
–
ㅇ 시험 대비 “패턴 보기” 예시:
O: “
X: “
ㅁ 추가 학습 내용
Transformer 기반 모델에서 attention mask 생성 시
패딩 전략에는 Pre-padding(앞쪽에
GPU 메모리 효율과 연산 속도 측면에서 패딩 위치와 길이는 불필요한 연산량에 직접적인 영향을 주며, 짧은 시퀀스에 맞춘 패딩 최소화가 효율을 높인다.