AI: 사전학습/언어모델 기법/토큰/Task – Span Masking

ㅁ 사전학습/언어모델 기법/토큰/Task

ㅇ 정의:
문장에서 연속된 여러 토큰(Span)을 선택하여 마스킹하고, 모델이 해당 구간을 예측하도록 학습시키는 기법. 단어 단위뿐 아니라 구나 문장 일부를 통으로 가리기 때문에 문맥 이해와 긴 의존성 학습에 유리하다.

ㅇ 특징:
– 단일 토큰 마스킹보다 더 긴 문맥 단위 예측이 가능
– Span 길이는 고정 또는 확률분포 기반으로 랜덤 설정 가능
– T5(Text-to-Text Transfer Transformer) 등에서 대표적으로 사용
– 문장의 의미적 일관성을 학습하는 데 효과적

ㅇ 적합한 경우:
– 문맥 이해가 중요한 QA, Summarization, Translation 사전학습
– 긴 거리 의존성을 학습해야 하는 언어모델

ㅇ 시험 함정:
– 단어 하나만 마스킹하는 BERT의 MLM과 혼동하기 쉬움
– Span Masking은 반드시 연속된 토큰 범위를 마스킹한다는 점을 놓치기 쉬움
– ‘Span’을 랜덤하게 흩뿌려 마스킹하는 방식은 Span Masking이 아님 (이는 Random Token Masking)

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “T5 모델은 연속된 토큰 구간을 마스킹하는 Span Masking을 사용한다.”
– X: “Span Masking은 개별 토큰을 비연속적으로 마스킹하는 방식이다.”

ㅁ 추가 학습 내용

추가 학습 내용 정리

1. Span Masking에서 Span 길이 분포 설정 방법과 이유
– Span 길이는 일반적으로 확률 분포를 따라 결정하며, Poisson 분포가 자주 사용됨
– Poisson 분포를 사용하면 짧은 Span이 자주 선택되지만 가끔 긴 Span도 포함되어 다양한 길이의 마스킹 가능
– 이는 모델이 연속된 토큰 단위의 의미 구조를 학습하도록 돕고, 단일 토큰 마스킹보다 문맥 이해에 유리함

2. Span Masking, Sentence Masking, Phrase Masking의 차이
– Span Masking: 연속된 토큰(길이 다양)을 하나의 단위로 마스킹
– Sentence Masking: 전체 문장을 통째로 마스킹
– Phrase Masking: 문법적 또는 의미적으로 완결된 구(phrase)를 단위로 마스킹
– Span Masking은 길이와 위치가 유연하며, Sentence/ Phrase Masking은 구조적 단위에 초점

3. Span Masking이 Downstream Task 성능에 미치는 영향 사례
– T5에서 Span Masking을 적용한 결과, 기계 번역·질의응답·문서 요약 등 다양한 NLP 과제에서 성능 향상
– 연속된 텍스트 단위의 마스킹이 문맥 이해와 복원 능력을 강화하여 추론·생성 과제에 긍정적 영향

4. Span 기반 마스킹을 사용하는 모델들의 차별점
– T5: Poisson 분포 기반 Span Masking, Text-to-Text 프레임워크
– SpanBERT: 연속된 토큰 마스킹과 함께 Span 경계 예측(span boundary objective) 추가 학습
– MASS: 연속된 시퀀스 마스킹 후 시퀀스-투-시퀀스 복원 학습
– 각 모델은 마스킹 대상 선택 방식과 복원 목표 설계에서 차별화

5. Span Masking 적용 시 마스킹 비율과 학습 안정성 고려사항
– 마스킹 비율이 너무 높으면 문맥 정보 부족으로 학습 불안정
– 너무 낮으면 모델이 복원 과제를 쉽게 해결해 학습 효과 감소
– 일반적으로 전체 토큰의 15~30% 정도를 마스킹하며, Span 길이 분포와 함께 조정
– 학습 초기에는 짧은 Span과 낮은 마스킹 비율을 사용하고, 점진적으로 난이도를 높이는 방법도 활용 가능

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*