AI: 사전학습/언어모델 기법/토큰/Task – MLM
ㅁ 사전학습/언어모델 기법/토큰/Task
1. MLM
ㅇ 정의:
Masked Language Model의 약자로, 입력 문장에서 일부 토큰을 [MASK] 토큰으로 가리고, 모델이 해당 가려진 토큰을 예측하도록 학습하는 언어모델 기법. BERT 계열 모델에서 대표적으로 사용됨.
ㅇ 특징:
– 입력의 양방향 문맥을 모두 활용 가능하여 문장 이해 성능이 높음.
– 전체 토큰 중 일정 비율(예: 15%)을 마스킹하여 학습.
– 마스킹된 토큰은 실제 단어로 복원하거나, 랜덤 단어로 대체하기도 함.
– 사전학습 단계에서만 사용되고, 추론 단계에서는 [MASK] 토큰을 사용하지 않음.
ㅇ 적합한 경우:
– 문장 내 단어의 의미와 관계를 깊게 이해해야 하는 자연어 이해(NLU) 작업.
– 질의응답, 문장 분류, 개체명 인식 등 문맥 기반 태스크.
ㅇ 시험 함정:
– MLM은 문장 생성보다는 이해에 특화된 기법임에도 생성형 모델과 혼동하는 경우.
– [MASK] 토큰은 학습 시에만 사용되며, 실제 서비스 시 입력에 포함되지 않음.
– GPT 계열 모델은 MLM이 아닌 autoregressive 방식 사용.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “BERT는 MLM 방식을 사용하여 양방향 문맥을 학습한다.”
– O: “MLM은 일부 토큰을 마스킹하고 이를 예측하는 사전학습 방법이다.”
– X: “MLM은 문장을 순차적으로 생성하는 데 사용된다.”
– X: “MLM은 추론 시에도 [MASK] 토큰을 입력에 포함한다.”
ㅁ 추가 학습 내용
MLM 관련 시험 빈출 포인트 정리
1. 마스킹 비율과 전략
– 전체 토큰의 약 15%를 마스킹
– 마스킹된 토큰 중 80%는 [MASK] 토큰으로 대체
– 10%는 랜덤 토큰으로 대체
– 10%는 원래 토큰을 그대로 유지
2. NSP(Next Sentence Prediction)와의 관계
– BERT 사전학습: MLM + NSP 함께 사용
– RoBERTa: NSP 제거, MLM만 사용
3. Whole Word Masking
– 서브워드 토큰화 시 단어 전체를 한 번에 마스킹하는 방식
4. Permuted Language Modeling과의 차이
– XLNet은 MLM 대신 순열 기반 학습 사용
– [MASK] 토큰 사용 문제를 회피
5. MLM의 한계
– [MASK] 토큰은 실제 추론 시 등장하지 않음
– 이로 인해 사전학습과 파인튜닝 간 불일치(mismatch) 발생 가능