모델: 시퀀스 처리 –

ㅁ 시퀀스 처리

ㅇ 정의:
– 자연어 처리(NLP)에서 입력 문장 내 특정 위치의 단어를 마스킹(masking)하여 모델이 해당 단어를 예측하도록 하는 특수 토큰.
– 주로 BERT와 같은 마스크드 언어 모델(MLM)에서 사용됨.

ㅇ 특징:
– 토큰화 과정에서 토큰이 삽입되어 해당 위치의 정보를 숨김.
– 모델은 주변 문맥(Context)을 활용하여 마스킹된 단어를 추론.
– 학습 단계에서만 사용되며, 실제 추론(inference) 시에는 일반적으로 사용되지 않음.

ㅇ 적합한 경우:
– 문맥 기반 단어 예측이 필요한 언어 모델 학습.
– 데이터 증강(Data Augmentation) 목적으로 일부 단어를 가려 학습 다양성 확보.

ㅇ 시험 함정:
토큰은 GPT 계열의 오토리그레시브(autoregressive) 모델에서는 사용하지 않음.
– 추론 단계에서 를 넣어도 정상적인 예측이 되지 않음.
는 문장 분리나 패딩 목적이 아님.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “BERT는 학습 시 입력 문장의 일부를 로 대체하여 예측하도록 훈련한다.”
– X: “GPT-2는 문장 내 단어를 로 가리고 예측한다.”
– X: “ 토큰은 문장 길이를 맞추기 위해 사용된다.”

ㅁ 추가 학습 내용

토큰은 마스크드 언어 모델(MLM) 방식의 핵심 요소로, 입력 토큰의 약 15%를 무작위로 마스킹하는 것이 일반적이다. 마스킹 시 일부는 로 대체하고, 일부는 원래 단어를 유지하며, 일부는 랜덤 단어로 대체하여 모델이 단순히 패턴만 학습하지 않도록 한다. 시험에서는 가 ‘패딩(padding)’이나 ‘문장 구분’ 용도로 쓰인다고 혼동시키는 함정 문제가 출제될 가능성이 높다. 또한 BERT와 GPT의 학습 방식 차이를 비교하는 문제에서 자주 등장한다. 는 학습 시에만 사용되며, 실제 서비스 추론 시에는 입력 문장에 포함되지 않는다는 점을 명확히 기억해야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*