모델: 시퀀스 처리 –

ㅁ 시퀀스 처리

ㅇ 정의:
자연어 처리에서 모델이 학습하지 못한 단어(OOV, Out-Of-Vocabulary)를 대체하기 위해 사용하는 특수 토큰.

ㅇ 특징:
– 학습 데이터에 존재하지 않는 단어를 처리 가능하게 함.
– 단어 사전 크기를 제한하여 메모리 사용량과 연산량을 줄임.
– 모든 미등록 단어를 동일한 토큰으로 처리하므로 의미 손실이 발생할 수 있음.

ㅇ 적합한 경우:
– 사전 크기를 제한해야 하는 임베딩 모델.
– 실시간 처리 환경에서 미등록 단어가 자주 등장하는 경우.

ㅇ 시험 함정:
토큰이 등장했다고 해서 반드시 해당 단어가 중요하지 않다는 뜻은 아님.
는 단어를 무시하는 것이 아니라 대체하는 것임.
– 일부 모델(BPE, SentencePiece)은 발생을 최소화하거나 제거할 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “ 토큰은 OOV 단어를 대체하기 위해 사용된다.”
X: “ 토큰은 불필요한 단어를 제거하기 위해 사용된다.”
O: “ 토큰은 사전 외 단어를 하나의 공통 토큰으로 처리한다.”
X: “ 토큰은 모든 단어를 임의의 토큰으로 변환한다.”

ㅁ 추가 학습 내용

토큰은 전통적인 단어 기반 토크나이저에서 필수적으로 사용되며, 어휘 사전에 없는 단어(OOV)를 처리하기 위해 존재한다. 그러나 서브워드 기반 토크나이저(BPE, WordPiece, SentencePiece)에서는 단어를 더 작은 단위로 분해하여 처리하므로 토큰의 등장 빈도가 크게 줄어든다. 시험에서는 OOV 문제 해결 방식을 비교하는 문제가 자주 출제되며, 토큰이 단어 단위 처리에서만 필요한 것처럼 보이게 하는 함정이 있을 수 있으므로 주의해야 한다. 또한 토큰은 모델의 성능에 영향을 줄 수 있으며, 이를 줄이기 위해 희귀 단어 정규화나 서브워드 분해와 같은 데이터 전처리 기법을 활용하는 방법도 숙지해야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*