AI: 오해 및 정정
ㅁ 오해 및 정정
1. BERT NSP 오용
ㅇ 정의:
– BERT의 Next Sentence Prediction(NSP) 목적을 잘못 이해하거나 불필요하게 사용하는 경우를 의미.
– NSP는 두 문장이 연속인지 여부를 예측하는 사전학습 태스크.
ㅇ 특징:
– NSP는 문장 간 관계 학습에 도움을 주지만, 문장 내 토큰 이해와 직접적 관련은 적음.
– 일부 연구에서 NSP를 제거해도 성능 저하가 거의 없음을 보고.
ㅇ 적합한 경우:
– 문장 순서나 문맥 연결성이 중요한 QA, 대화 시스템 등.
ㅇ 시험 함정:
– “BERT는 NSP가 필수이며 제거 시 항상 성능이 떨어진다” → X
– “RoBERTa는 NSP를 사용하지 않는다” → O
ㅇ 시험 대비 “패턴 보기” 예시:
– O: NSP는 문장 간 관계 학습을 위해 설계되었다.
– X: NSP는 토큰 임베딩 품질 향상에 직접적 기여를 한다.
2. RoBERTa 동적 마스킹
ㅇ 정의:
– RoBERTa에서 학습 시 마스크 위치를 매번 다르게 설정하는 방식.
ㅇ 특징:
– 동일한 문장이라도 학습 시마다 다른 토큰이 마스킹됨.
– 데이터 다양성과 일반화 성능 향상.
ㅇ 적합한 경우:
– 대규모 데이터에서 마스크 다양성이 모델 이해도를 높일 때.
ㅇ 시험 함정:
– “RoBERTa는 정적 마스킹을 사용한다” → X
– “BERT는 학습 전 마스크 위치를 고정한다” → O
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 동적 마스킹은 학습 시마다 마스크 위치를 변경한다.
– X: 동적 마스킹은 추론 시에도 마스크 위치를 변경한다.
3. ELECTRA Token-level 판별
ㅇ 정의:
– ELECTRA가 사전학습에서 각 토큰이 원래 토큰인지 생성기(generator)가 만든 가짜 토큰인지 판별하는 방식.
ㅇ 특징:
– 토큰 단위의 판별 태스크를 통해 더 효율적인 학습 가능.
– 모든 입력 토큰에서 학습 신호를 얻음.
ㅇ 적합한 경우:
– 학습 자원이 제한되고, 빠른 수렴이 필요한 환경.
ㅇ 시험 함정:
– “ELECTRA는 문장 단위로 진위 여부를 판별한다” → X
– “ELECTRA는 토큰 단위로 진위 여부를 판별한다” → O
ㅇ 시험 대비 “패턴 보기” 예시:
– O: ELECTRA는 토큰 단위로 진위 여부를 예측한다.
– X: ELECTRA는 NSP를 사용하여 문장 관계를 학습한다.
ㅁ 추가 학습 내용
BERT의 NSP(Next Sentence Prediction) 오용과 관련해서는 NSP를 제거했을 때의 성능 변화가 태스크별로 다르며, 특히 문장 간 관계가 필요 없는 태스크에서는 NSP가 불필요할 수 있음을 명확히 이해해야 한다.
RoBERTa의 동적 마스킹 기법에서는 마스크 비율 조정과 학습 데이터 확장(더 긴 학습 시간, 더 많은 데이터 사용) 전략이 결합되어 성능 향상에 기여했다는 점을 함께 기억해야 한다.
ELECTRA의 Token-level 판별 학습에서는 생성기와 판별기의 구조를 이해하고, 생성기의 출력 품질이 판별기 학습에 미치는 영향, 즉 너무 쉬운 부정 예시(too easy negatives)나 너무 어려운 부정 예시(too hard negatives) 문제가 성능에 어떤 영향을 주는지 숙지하는 것이 중요하다.