모델: 시퀀스 처리 –
ㅁ 시퀀스 처리
ㅇ 정의:
자연어 처리에서 모델이 학습하지 못한 단어(OOV, Out-Of-Vocabulary)를 대체하기 위해 사용하는 특수 토큰.
ㅇ 특징:
– 학습 데이터에 존재하지 않는 단어를 처리 가능하게 함.
– 단어 사전 크기를 제한하여 메모리 사용량과 연산량을 줄임.
– 모든 미등록 단어를 동일한 토큰으로 처리하므로 의미 손실이 발생할 수 있음.
ㅇ 적합한 경우:
– 사전 크기를 제한해야 하는 임베딩 모델.
– 실시간 처리 환경에서 미등록 단어가 자주 등장하는 경우.
ㅇ 시험 함정:
–
–
– 일부 모델(BPE, SentencePiece)은
ㅇ 시험 대비 “패턴 보기” 예시:
O: “
X: “
O: “
X: “
ㅁ 추가 학습 내용