데이터 전처리: 텍스트 증강 – 역번역
ㅁ 텍스트 증강
ㅇ 정의:
텍스트 데이터를 다양한 방법으로 변형하여 학습 데이터의 다양성과 일반화 성능을 높이는 기법. 문장 구조, 단어, 의미를 유지하거나 변형하여 새로운 학습 샘플을 생성.
ㅇ 특징:
– 데이터 불균형 해소 및 과적합 방지에 효과적
– 자연어 처리(NLP) 모델의 성능 개선
– 의미 보존과 문법적 자연스러움이 중요
ㅇ 적합한 경우:
– 학습 데이터가 적거나 특정 클래스 데이터가 부족한 경우
– 모델이 특정 표현에 과적합하는 경우
ㅇ 시험 함정:
– 모든 증강 기법이 모든 NLP 태스크에 적합한 것은 아님
– 의미 왜곡이 발생할 수 있음
ㅇ 시험 대비 “패턴 보기” 예시:
O: 텍스트 증강은 데이터 불균형 해소에 도움을 줄 수 있다.
X: 텍스트 증강은 항상 원본 의미를 100% 유지한다.
================================
1. 역번역
ㅇ 정의:
원본 문장을 다른 언어로 번역한 뒤, 다시 원래 언어로 번역하여 새로운 문장을 생성하는 텍스트 증강 기법.
ㅇ 특징:
– 원문의 의미를 크게 변경하지 않으면서 문장 표현을 다양화
– 번역 과정에서 문장 구조와 어휘가 자연스럽게 변형됨
– 기계 번역 품질에 따라 결과 품질이 좌우됨
ㅇ 적합한 경우:
– 데이터셋의 문장 표현 다양성이 부족한 경우
– 의미 보존이 중요한 NLP 태스크(예: 감성 분석, 질의응답)
ㅇ 시험 함정:
– 번역 품질이 낮으면 의미 왜곡 가능성 존재
– 전문 용어, 고유명사 번역 시 오류 가능
– 다국어 번역 모델의 성능에 따라 결과 편차 발생
ㅇ 시험 대비 “패턴 보기” 예시:
O: 역번역은 기계 번역을 활용하여 문장 표현을 다양화하는 방법이다.
X: 역번역은 원문을 단순히 단어 순서만 바꾸는 기법이다.
ㅁ 추가 학습 내용
역번역 품질 향상을 위해서는 중간 언어 선택이 중요하다. 영어를 중간 언어로 사용할 경우 번역 품질이 비교적 안정적인 경우가 많다.
역번역은 데이터 증강뿐 아니라 데이터 노이즈 제거, 문장 정제에도 활용될 수 있다.
Google Translate, DeepL API 등 다양한 번역 API를 사용할 수 있다.
최근에는 대규모 언어모델(LLM)을 활용한 의미 기반 역번역 기법이 연구되고 있으며, 이는 단순 번역 기반보다 더 자연스러운 문장 생성을 가능하게 한다.