AI: 사전학습/언어모델 기법/토큰/Task – Text Infilling
ㅁ 사전학습/언어모델 기법/토큰/Task
ㅇ 정의:
문장 내 일부 연속된 토큰 구간을 마스킹하고, 모델이 해당 공백을 채우도록 학습시키는 언어모델 사전학습 기법. 단어 단위뿐 아니라 문장 일부를 통째로 예측하게 하여 문맥 이해 능력을 강화한다.
ㅇ 특징:
– 연속된 토큰 블록 단위 마스킹
– 시작/끝 위치를 포함한 문맥 기반 예측
– BERT의 Masked Language Model과 유사하지만, 단일 토큰이 아닌 연속 구간을 예측
– T5(Text-To-Text Transfer Transformer) 등에서 활용
ㅇ 적합한 경우:
– 문장 중간에 누락된 구간 복원
– 문맥 기반 생성 능력 강화
– 데이터에 문장 일부가 누락되거나 불완전한 경우
ㅇ 시험 함정:
– 단일 토큰 예측(Masked LM)과 혼동
– Autoregressive LM(왼→오른쪽 예측)과 차이 구분 필요
– ‘단어’가 아닌 ‘연속된 토큰 구간’ 마스킹이라는 점을 놓치기 쉬움
ㅇ 시험 대비 “패턴 보기” 예시:
O: “연속된 토큰 구간을 마스킹하여 문맥 기반 복원 학습을 수행한다.”
X: “항상 하나의 단어만 마스킹하여 예측한다.”
X: “왼쪽에서 오른쪽으로만 순차적으로 예측한다.”
ㅁ 추가 학습 내용
Text Infilling은 T5, BART와 같이 양방향 컨텍스트를 활용하는 모델에서 주로 사용된다. 마스킹된 구간의 길이가 가변적인 것이 특징이며, 시험에서는 Span Corruption이라는 용어로 출제될 수 있다. 입력 시 마스킹된 구간은