사전학습/언어모델 기법/토큰/Task: MLM

By - meet
Posted on 2025년 07월 25일
Posted in AI 이론

사전학습/언어모델 기법/토큰/Task: MLM

ㅁ 사전학습/언어모델 기법/토큰/Task

ㅇ 정의:
사전 학습된 언어 모델에서 특정 토큰을 마스킹하고, 모델이 이를 예측하도록 학습시키는 기법.

ㅇ 특징:
– 전체 문맥을 고려하여 마스킹된 단어를 예측.
– 대규모 데이터셋에서 효과적으로 학습 가능.
– 문맥 이해와 언어 생성 능력을 동시에 향상시킴.

ㅇ 적합한 경우:
– 자연어 처리(NLP) 작업에서 문맥 이해가 중요한 경우.
– 문장 내 단어의 의미를 추론해야 하는 경우.
– 사전 학습된 모델을 다양한 NLP 작업에 활용하려는 경우.

ㅇ 시험 함정:
– MLM과 다른 사전 학습 기법(예: NSP, CLM)과 혼동할 가능성.
– 마스킹 비율과 그 영향을 잘못 이해하는 경우.
– 문맥 기반 예측과 단순 단어 예측을 동일하게 보는 오류.

ㅇ 시험 대비 “패턴 보기” 예시:
1. “MLM은 문맥 없이 단어를 예측하는 기법이다.” (X)
2. “MLM은 문맥을 고려하여 마스킹된 단어를 예측한다.” (O)
3. “MLM은 마스킹된 토큰을 예측하기 위해 전체 문장을 재구성한다.” (X)
4. “MLM은 마스킹된 토큰을 예측하기 위해 문맥 정보를 활용한다.” (O)

================================

ㅁ 추가 학습 내용

MLM(Masked Language Model) 기법의 성능 향상을 위해 조정할 수 있는 주요 하이퍼파라미터는 다음과 같습니다:

1. **마스킹 비율**: 텍스트에서 토큰을 마스킹하는 비율로, 일반적으로 15% 정도가 사용됩니다. 마스킹 비율이 너무 낮으면 모델이 충분히 학습되지 않을 수 있고, 너무 높으면 문맥 정보를 잃을 가능성이 있습니다. 적절한 마스킹 비율을 설정하는 것이 모델 성능에 중요한 영향을 미칩니다.

2. **데이터 크기**: 학습 데이터의 양은 모델의 성능에 큰 영향을 미칩니다. 데이터가 많을수록 모델이 다양한 문맥과 언어 패턴을 학습할 수 있습니다. 그러나 데이터가 너무 많으면 학습 시간이 길어질 수 있으므로 하드웨어와 시간 제약을 고려해야 합니다.

MLM과 다른 사전 학습 기법의 비교:

1. **MLM vs. CLM(Causal Language Model)**:
– MLM은 입력 문장에서 일부 토큰을 마스킹하고, 이를 예측하면서 양방향 문맥을 학습합니다. 따라서 문장의 앞뒤 정보를 모두 활용할 수 있습니다.
– CLM은 문장의 앞쪽 정보만 사용해 다음 단어를 예측합니다. 이로 인해 CLM은 양방향 문맥을 학습하지 못하지만, 시퀀스 생성 작업에는 더 적합합니다.

2. **MLM vs. NSP(Next Sentence Prediction)**:
– MLM은 단일 문장 내의 단어 예측에 초점을 맞추는 반면, NSP는 두 문장이 주어졌을 때, 두 문장이 논리적으로 연결되는지 여부를 판단하는 데 중점을 둡니다.
– BERT와 같은 모델은 NSP와 MLM을 결합하여 문장 수준과 단어 수준의 관계를 모두 학습합니다.

3. **MLM vs. DAE(Denoising Autoencoder)**:
– MLM은 입력 문장 일부를 마스킹하고 이를 복원하는 방식으로 학습합니다.
– DAE는 입력 문장 전체를 노이즈가 추가된 형태로 변형한 뒤, 원래 문장을 복원하는 방식으로 학습합니다. DAE는 더 다양한 노이즈 유형(삭제, 삽입, 순서 변경 등)을 처리할 수 있습니다.

MLM의 강점은 양방향 문맥을 학습할 수 있다는 점이며, 이는 문장 이해와 같은 작업에 매우 유리합니다. 하지만 특정 작업에 따라 다른 사전 학습 기법이 더 적합할 수 있으므로, 기법의 특성과 사용 목적을 명확히 이해하는 것이 중요합니다.

Meet AI

최신 글

최신 댓글

보관함

카테고리

사전학습/언어모델 기법/토큰/Task: MLM

Previous Article

Next Article

답글 남기기 응답 취소