AI: 사전학습/언어모델 기법/토큰/Task – Dynamic masking
ㅁ 사전학습/언어모델 기법/토큰/Task
ㅇ 정의:
– Dynamic masking은 언어모델 사전학습 시 입력 토큰의 마스킹 위치를 학습 과정에서 매번 다르게 설정하는 기법으로, 동일한 문장이라도 반복 학습 시 다른 토큰이 마스킹되어 모델이 다양한 문맥 예측 능력을 학습하도록 한다.
ㅇ 특징:
– 고정 마스킹(static masking)과 달리 학습 데이터의 다양성을 높임.
– 마스킹 패턴이 반복되지 않아 overfitting을 방지.
– BERT, RoBERTa 등의 MLM(Masked Language Model) 학습에서 주로 활용됨.
ㅇ 적합한 경우:
– 대규모 코퍼스에서 문맥 이해 능력을 극대화하려는 경우.
– 문장 내 다양한 토큰 예측 훈련이 필요한 경우.
ㅇ 시험 함정:
– Static masking과 혼동하여 “마스킹 패턴이 고정된다”라고 오답 유도.
– Next Sentence Prediction(NSP)와 혼동하여 문장 연결성 학습 기법으로 잘못 설명.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Dynamic masking은 동일 문장에서 학습 시마다 다른 토큰을 마스킹한다.”
– X: “Dynamic masking은 학습 전 한 번만 마스킹 위치를 정한다.”
ㅁ 추가 학습 내용
Dynamic masking은 RoBERTa에서 NSP 제거와 함께 성능 향상에 기여한 핵심 요소로, Static masking에 비해 데이터 효율성을 높인다. 마스킹 비율은 일반적으로 15%이며, 학습 과정에서 마스킹할 토큰의 선택이 매번 랜덤하게 이루어진다. 이는 데이터 증강(data augmentation)의 한 형태로 볼 수 있으며, Transformer 기반 모델의 일반화 성능 향상에 도움을 준다.