데이터 전처리: 텍스트 증강 – 동의어 교체
ㅁ 텍스트 증강
ㅇ 정의:
텍스트 데이터의 다양성을 확보하고 모델의 일반화 성능을 향상시키기 위해 원본 문장의 일부 단어를 의미가 같은 동의어로 치환하는 기법.
ㅇ 특징:
– 데이터 수집에 비용이 많이 들거나 데이터 편향이 있는 경우 효과적임.
– 간단한 규칙 기반 또는 워드 임베딩/언어모델 기반으로 구현 가능.
– 문맥에 맞지 않는 동의어 선택 시 오히려 데이터 품질이 저하될 수 있음.
ㅇ 적합한 경우:
– 텍스트 분류, 감성 분석 등 단어 수준 변형이 의미를 크게 훼손하지 않는 NLP 과제.
– 학습 데이터가 부족하거나 특정 클래스의 데이터가 현저히 적을 때.
ㅇ 시험 함정:
– 동의어 교체가 항상 문맥적으로 적합하다고 생각하는 경우 오답.
– 모든 NLP 태스크에 무조건 성능 향상이 있다고 단정하는 경우 오답.
– 기계 번역, 질의응답 등 문맥 보존이 중요한 경우에는 성능 저하 가능.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “데이터 부족 시, 의미를 유지하면서 단어를 치환하는 텍스트 증강 기법이다.”
X: “동의어 교체는 모든 NLP 작업에서 항상 성능을 향상시킨다.”
ㅁ 추가 학습 내용
동의어 교체를 위한 대표적인 도구에는 영어의 WordNet, 한국어의 Open Korean WordNet, KorLex 등이 있다. 최근에는 BERT, GPT와 같은 대규모 언어모델을 활용하여 문맥에 맞는 동의어를 예측하는 방식이 주목받고 있다. 시험에서는 동의어 교체, 역번역(Back Translation), 무작위 삽입(Random Insertion)의 정의와 차이점을 구분하는 문제가 자주 출제된다. 동의어 교체는 데이터 편향을 완화하는 데 도움이 될 수 있으나, 부적절한 동의어 선택은 레이블 노이즈를 발생시켜 모델 성능을 저하시킬 수 있다.