AI: 사전학습/언어모델 기법/토큰/Task

By - meet
Posted on 2025년 08월 31일
Posted in AI 이론

AI: 사전학습/언어모델 기법/토큰/Task

ㅁ 사전학습/언어모델 기법/토큰/Task

1. Dynamic masking

ㅇ 정의:
– 사전학습 시 마스킹 위치를 고정하지 않고 학습 배치마다 무작위로 변경하는 기법.

ㅇ 특징:
– 동일한 문장이라도 학습 시마다 다른 토큰이 마스킹됨.
– 데이터 다양성을 높여 모델의 일반화 성능 향상.

ㅇ 적합한 경우:
– 대규모 코퍼스에서 다양한 문맥 패턴 학습이 필요한 경우.

ㅇ 시험 함정:
– Static masking과 혼동하는 경우.
– Dynamic은 한 번만 마스크 위치를 정하는 것이 아님.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Dynamic masking은 동일 문장도 반복 학습 시 마스크 위치가 달라진다.”
– X: “Dynamic masking은 최초 한 번만 마스크 위치를 무작위로 정한다.”

================================

2. Span Masking

ㅇ 정의:
– 연속된 토큰 구간(Span)을 선택해 한 번에 마스킹하는 기법.

ㅇ 특징:
– 개별 단어가 아닌 구간 단위로 문맥 이해를 요구.
– T5 등에서 사용.

ㅇ 적합한 경우:
– 연속된 구간의 의미 복원 능력이 중요한 경우.

ㅇ 시험 함정:
– 개별 토큰 마스킹과 혼동.
– Span 길이가 항상 동일하다고 착각.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Span Masking은 연속된 토큰 단위를 마스킹한다.”
– X: “Span Masking은 항상 한 단어만 마스킹한다.”

================================

3. MLM

ㅇ 정의:
– Masked Language Model. 입력 문장의 일부 토큰을 마스킹하고 이를 예측하도록 학습하는 언어 모델 기법.

ㅇ 특징:
– BERT의 핵심 학습 방식.
– 양방향 문맥 정보 사용.

ㅇ 적합한 경우:
– 문장 내 단어 예측, 문맥 이해가 필요한 자연어 처리.

ㅇ 시험 함정:
– GPT 등 Autoregressive 모델과 혼동.
– MLM은 문장 생성이 아니라 토큰 복원에 초점.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “MLM은 입력의 일부 토큰을 [MASK]로 대체하고 이를 예측한다.”
– X: “MLM은 다음 단어를 순차적으로 예측한다.”

================================

4. NSP

ㅇ 정의:
– Next Sentence Prediction. 두 문장이 연속되는 관계인지 예측하는 사전학습 태스크.

ㅇ 특징:
– 문장 간 관계 이해를 학습.
– BERT 원본에서 사용.

ㅇ 적합한 경우:
– 질의응답, 문서 연결성 판단.

ㅇ 시험 함정:
– SOP(Sentence Order Prediction)와 혼동.
– NSP는 문장 순서뿐 아니라 연속성 여부를 판단.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “NSP는 두 문장이 실제 연속인지 여부를 예측한다.”
– X: “NSP는 항상 두 문장이 같은 문서에서 왔다고 가정한다.”

================================

5. Text Infilling

ㅇ 정의:
– 문장에서 연속된 구간을 제거하고 해당 부분을 채우도록 학습하는 방식.

ㅇ 특징:
– Span Masking과 유사하나, 제거된 부분의 길이가 가변적.
– T5, BART 등에서 사용.

ㅇ 적합한 경우:
– 불완전한 문장 복원, 생성 모델 학습.

ㅇ 시험 함정:
– 단순 토큰 마스킹과 혼동.
– 항상 고정 길이 마스킹이라고 착각.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Text Infilling은 문장에서 가변 길이 구간을 비우고 채우도록 학습한다.”
– X: “Text Infilling은 반드시 한 단어만 마스킹한다.”

================================

6. Document Rotation

ㅇ 정의:
– 문서의 시작 위치를 임의로 변경하여 학습하는 데이터 증강 기법.

ㅇ 특징:
– 문서의 선형 순서 의존도를 낮추고 전반적 문맥 이해 강화.

ㅇ 적합한 경우:
– 긴 문서에서 위치 불변적 의미 학습.

ㅇ 시험 함정:
– 문장 순서 섞기와 혼동.
– Rotation은 순서를 무작위로 섞는 것이 아니라 시작점을 이동.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Document Rotation은 문서 시작점을 이동시켜 학습한다.”
– X: “Document Rotation은 모든 문장 순서를 무작위로 섞는다.”

ㅁ 추가 학습 내용

Dynamic Masking vs Static Masking 비교
– Dynamic Masking: 학습 시 매번 다른 토큰을 마스킹, 데이터 다양성 확보
– Static Masking: 사전에 마스킹 위치를 고정, 모든 학습에서 동일한 마스킹 사용

Span Masking vs Text Infilling 비교
– Span Masking: 연속된 토큰 구간(Span)을 마스킹, 구간 길이 고정 또는 설정 가능
– Text Infilling: 연속된 토큰 구간을 마스킹하되 구간 길이가 가변적, 예측 시 빈칸 채우기 방식

MLM vs Autoregressive LM
– MLM(Masked Language Model): 양방향 문맥 사용, 마스킹된 토큰 예측 (예: BERT)
– Autoregressive LM: 단방향 문맥 사용, 다음 토큰을 순차적으로 예측 (예: GPT)

NSP vs SOP
– NSP(Next Sentence Prediction): 두 문장이 연속인지 여부 예측
– SOP(Sentence Order Prediction): 두 문장이 연속임은 보장, 순서가 올바른지 예측

Document Rotation
– 문서 내 문장 순서를 회전시키는 데이터 증강 기법
– 비교 대상: Sentence Shuffling(문장 순서 무작위 변경), Back Translation(번역 후 역번역으로 데이터 변형)

대표 모델과 사용 기법
– BERT: Static Masking, MLM, NSP
– RoBERTa: Dynamic Masking, MLM (NSP 제거)
– T5: Span Masking(Text Infilling), Encoder-Decoder 구조
– BART: Text Infilling, Sentence Shuffling, Document Rotation
– ALBERT: SOP, Parameter Sharing

Meet AI

최신 글

최신 댓글

보관함

카테고리

AI: 사전학습/언어모델 기법/토큰/Task

Previous Article

Next Article

답글 남기기 응답 취소