AI: 사전학습/언어모델 기법/토큰/Task – NSP
ㅁ 사전학습/언어모델 기법/토큰/Task
1. NSP
ㅇ 정의:
Next Sentence Prediction의 약자로, BERT 등의 사전학습에서 두 문장이 연속되는지 여부를 예측하는 이진 분류 태스크.
ㅇ 특징:
– 입력으로 두 문장을 [SEP] 토큰으로 구분하여 제공.
– 50%는 실제 연속 문장, 50%는 랜덤 문장 조합.
– 문맥 이해와 문장 간 관계 학습에 도움.
– BERT pre-training의 두 번째 목표(첫 번째는 MLM)로 사용됨.
ㅇ 적합한 경우:
– 문서 내 문장 순서 이해가 중요한 QA, 자연어 추론(NLI) 등.
– 문맥 기반 검색, 문서 연결성 판단.
ㅇ 시험 함정:
– NSP는 모든 최신 모델에서 사용되는 것이 아님. RoBERTa 등은 NSP를 제거하고 성능 향상을 달성.
– NSP는 문장 간 관계를 학습하지만, 문장 내부 의미 파악만으로도 높은 성능을 내는 경우가 있어 불필요할 수 있음.
– ‘NSP는 MLM보다 중요하다’ → X (BERT에서는 MLM과 병행하지만, MLM이 핵심)
ㅇ 시험 대비 “패턴 보기” 예시:
– “BERT의 사전학습 목표에는 MLM과 NSP가 있다.” → O
– “NSP는 항상 최신 언어모델에서 필수적으로 사용된다.” → X
– “NSP는 두 문장이 연속되는지 여부를 예측하는 태스크이다.” → O
– “NSP는 단어 마스킹을 통한 예측 기법이다.” → X
ㅁ 추가 학습 내용
NSP(Next Sentence Prediction)는 BERT에서 문장 간 관계를 학습하여 문맥 이해를 강화하기 위해 도입된 기법이다.
목적은 두 문장이 연속된 문장인지 여부를 예측하는 것으로, 이를 통해 문장 간 의미적 연결성을 모델이 학습하도록 한다.
한계로는 데이터셋 구성 방식이 단순해 실제 문맥 이해에 기여도가 낮을 수 있으며, 특정 작업에서는 불필요한 경우가 있다는 점이 있다.
후속 연구인 RoBERTa, ALBERT 등에서는 NSP를 제거하거나 변형하였는데, ALBERT에서는 NSP 대신 SOP(Sentence Order Prediction)를 도입하였다.
SOP는 두 문장의 순서를 뒤바꾸어 예측하게 함으로써, 단순히 랜덤 문장을 붙이는 NSP보다 더 정밀하게 문맥과 순서 정보를 학습할 수 있다.
구현 측면에서 NSP는 [CLS] 토큰의 출력 벡터를 사용하여 이진 분류를 수행한다.