시퀀스 처리:
ㅁ 시퀀스 처리
ㅇ 정의:
시퀀스 데이터를 처리하기 위해 데이터를 일정한 길이로 맞추는 작업을 포함한 기술.
ㅇ 특징:
– 가변 길이 데이터 처리 시 필수적.
– 데이터의 일관성을 유지하며 모델 입력에 적합하게 변환.
ㅇ 적합한 경우:
– 자연어 처리에서 문장의 길이가 서로 다른 경우.
– 시계열 데이터 분석에서 입력 길이를 통일해야 하는 경우.
ㅇ 시험 함정:
– 패딩이 모델 학습에 영향을 미칠 수 있는 경우를 간과.
– 패딩을 제거하지 않고 정확도를 평가하는 실수를 할 가능성.
ㅇ 시험 대비 “패턴 보기” 예시:
O: 패딩은 시퀀스의 길이를 동일하게 맞추기 위해 사용된다.
X: 패딩은 데이터를 제거하는 과정이다.
================================
1.
ㅇ 정의:
시퀀스 데이터의 길이를 동일하게 맞추기 위해 사용되는 특수 토큰.
ㅇ 특징:
– 모델 입력의 고정 길이를 유지.
– 실제 데이터와 구분되는 값으로 설정됨.
ㅇ 적합한 경우:
– 자연어 처리에서 문장의 길이가 서로 다른 경우.
– CNN 또는 RNN 기반 모델에서 입력 크기를 통일해야 하는 경우.
ㅇ 시험 함정:
–
–
ㅇ 시험 대비 “패턴 보기” 예시:
O:
X:
ㅁ 추가 학습 내용
1.
–
2. 패딩을 제거한 후 모델 성능 평가가 필요한 이유
– 패딩은 시퀀스 길이 통일을 위해 추가된 토큰으로, 실제 데이터와는 무관합니다. 패딩이 포함된 상태에서 모델 성능을 평가하면, 모델이 패딩에 대해 잘못된 예측을 했을 때 성능이 부정확하게 측정될 수 있습니다. 따라서 패딩을 제거한 후 성능을 평가하면, 모델이 실제 데이터에 대해 얼마나 정확히 예측하는지 더 신뢰할 수 있는 결과를 얻을 수 있습니다. 이는 모델의 실제 활용 가능성을 평가하는 데 필수적입니다.
3. 시퀀스 처리에서
–
–
–
– 주요 차이점은