AI: 사전학습/언어모델 기법/토큰/Task – Text Infilling

ㅁ 사전학습/언어모델 기법/토큰/Task

ㅇ 정의:
문장 내 일부 연속된 토큰 구간을 마스킹하고, 모델이 해당 공백을 채우도록 학습시키는 언어모델 사전학습 기법. 단어 단위뿐 아니라 문장 일부를 통째로 예측하게 하여 문맥 이해 능력을 강화한다.

ㅇ 특징:
– 연속된 토큰 블록 단위 마스킹
– 시작/끝 위치를 포함한 문맥 기반 예측
– BERT의 Masked Language Model과 유사하지만, 단일 토큰이 아닌 연속 구간을 예측
– T5(Text-To-Text Transfer Transformer) 등에서 활용

ㅇ 적합한 경우:
– 문장 중간에 누락된 구간 복원
– 문맥 기반 생성 능력 강화
– 데이터에 문장 일부가 누락되거나 불완전한 경우

ㅇ 시험 함정:
– 단일 토큰 예측(Masked LM)과 혼동
– Autoregressive LM(왼→오른쪽 예측)과 차이 구분 필요
– ‘단어’가 아닌 ‘연속된 토큰 구간’ 마스킹이라는 점을 놓치기 쉬움

ㅇ 시험 대비 “패턴 보기” 예시:
O: “연속된 토큰 구간을 마스킹하여 문맥 기반 복원 학습을 수행한다.”
X: “항상 하나의 단어만 마스킹하여 예측한다.”
X: “왼쪽에서 오른쪽으로만 순차적으로 예측한다.”

ㅁ 추가 학습 내용

Text Infilling은 T5, BART와 같이 양방향 컨텍스트를 활용하는 모델에서 주로 사용된다. 마스킹된 구간의 길이가 가변적인 것이 특징이며, 시험에서는 Span Corruption이라는 용어로 출제될 수 있다. 입력 시 마스킹된 구간은 와 같은 특별 토큰으로 치환되고, 모델은 해당 토큰에 대응하는 내용을 생성한다. Autoregressive 모델에서는 일반적으로 Text Infilling이 직접 적용되지 않지만, Prefix-LM 구조를 변형하여 구현하는 사례가 있으며, 이는 응용 문제로 나올 수 있다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*