AI: 사전학습/언어모델 기법/토큰/Task – MLM

By - meet
Posted on 2025년 09월 01일
Posted in AI 이론

AI: 사전학습/언어모델 기법/토큰/Task – MLM

ㅁ 사전학습/언어모델 기법/토큰/Task

1. MLM

ㅇ 정의:
Masked Language Model의 약자로, 입력 문장에서 일부 토큰을 [MASK] 토큰으로 가리고, 모델이 해당 가려진 토큰을 예측하도록 학습하는 언어모델 기법. BERT 계열 모델에서 대표적으로 사용됨.

ㅇ 특징:
– 입력의 양방향 문맥을 모두 활용 가능하여 문장 이해 성능이 높음.
– 전체 토큰 중 일정 비율(예: 15%)을 마스킹하여 학습.
– 마스킹된 토큰은 실제 단어로 복원하거나, 랜덤 단어로 대체하기도 함.
– 사전학습 단계에서만 사용되고, 추론 단계에서는 [MASK] 토큰을 사용하지 않음.

ㅇ 적합한 경우:
– 문장 내 단어의 의미와 관계를 깊게 이해해야 하는 자연어 이해(NLU) 작업.
– 질의응답, 문장 분류, 개체명 인식 등 문맥 기반 태스크.

ㅇ 시험 함정:
– MLM은 문장 생성보다는 이해에 특화된 기법임에도 생성형 모델과 혼동하는 경우.
– [MASK] 토큰은 학습 시에만 사용되며, 실제 서비스 시 입력에 포함되지 않음.
– GPT 계열 모델은 MLM이 아닌 autoregressive 방식 사용.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “BERT는 MLM 방식을 사용하여 양방향 문맥을 학습한다.”
– O: “MLM은 일부 토큰을 마스킹하고 이를 예측하는 사전학습 방법이다.”
– X: “MLM은 문장을 순차적으로 생성하는 데 사용된다.”
– X: “MLM은 추론 시에도 [MASK] 토큰을 입력에 포함한다.”

ㅁ 추가 학습 내용

MLM 관련 시험 빈출 포인트 정리

1. 마스킹 비율과 전략
– 전체 토큰의 약 15%를 마스킹
– 마스킹된 토큰 중 80%는 [MASK] 토큰으로 대체
– 10%는 랜덤 토큰으로 대체
– 10%는 원래 토큰을 그대로 유지

2. NSP(Next Sentence Prediction)와의 관계
– BERT 사전학습: MLM + NSP 함께 사용
– RoBERTa: NSP 제거, MLM만 사용

3. Whole Word Masking
– 서브워드 토큰화 시 단어 전체를 한 번에 마스킹하는 방식

4. Permuted Language Modeling과의 차이
– XLNet은 MLM 대신 순열 기반 학습 사용
– [MASK] 토큰 사용 문제를 회피

5. MLM의 한계
– [MASK] 토큰은 실제 추론 시 등장하지 않음
– 이로 인해 사전학습과 파인튜닝 간 불일치(mismatch) 발생 가능

Meet AI

최신 글

최신 댓글

보관함

카테고리

AI: 사전학습/언어모델 기법/토큰/Task – MLM

Previous Article

Next Article

답글 남기기 응답 취소