데이터 전처리: 텍스트 증강

ㅁ 텍스트 증강

ㅇ 정의:
텍스트 데이터를 인위적으로 변형·생성하여 데이터셋의 크기와 다양성을 늘리는 기법. 주로 데이터 부족 문제를 해결하고 모델의 일반화 성능을 향상시키는 데 사용됨.

ㅇ 특징:
– 원본 데이터의 의미를 유지하되 형태를 변형하여 학습 다양성 확보
– 데이터 편향 완화, 오버피팅 방지 효과
– 자연어 처리(NLP) 모델 성능 향상에 기여
– 잘못된 증강은 노이즈 증가 및 성능 저하 초래

ㅇ 적합한 경우:
– 학습 데이터가 부족하거나 불균형할 때
– 다양한 문장 구조, 어휘 사용을 학습시키고자 할 때
– 테스트 환경과 유사한 변형 데이터를 사전에 학습시키고자 할 때

ㅇ 시험 함정:
– “데이터 증강 = 무조건 성능 향상”은 X → 잘못된 증강은 오히려 성능 저하
– 텍스트 증강은 이미지·음성 데이터에도 동일하게 적용된다고 함정 제시 O, 하지만 세부 기법은 다름
– 원본 의미 보존 여부를 확인하는 문항에서 일부 기법은 의미 변형 가능성 있음

ㅇ 시험 대비 “패턴 보기” 예시:
O: “역번역은 원문 의미를 유지하면서 문장 구조를 다양화할 수 있다.”
X: “동의어 교체는 항상 원문의 의미를 완벽히 보존한다.”

================================

1. 역번역

ㅇ 정의:
텍스트를 다른 언어로 번역한 뒤 다시 원어로 번역하여 새로운 문장을 생성하는 증강 기법.

ㅇ 특징:
– 의미를 크게 훼손하지 않으면서 문장 표현을 다양화
– 다국어 번역 모델 또는 API 필요
– 번역 품질에 따라 결과 품질 좌우

ㅇ 적합한 경우:
– 동일 의미의 다양한 표현을 확보하고자 할 때
– 번역 모델 또는 서비스 접근이 가능한 환경

ㅇ 시험 함정:
– “역번역은 항상 원문과 동일한 의미를 생성한다”는 X → 번역 품질에 따라 의미 변형 가능
– 언어쌍 선택이 결과 품질에 영향을 미친다는 점 간과

ㅇ 시험 대비 “패턴 보기” 예시:
O: “역번역은 의미 보존과 다양성 향상을 동시에 기대할 수 있다.”
X: “역번역은 번역 과정에 의존하지 않는다.”

================================

2. 동의어 교체

ㅇ 정의:
문장에서 특정 단어를 의미가 유사한 다른 단어(동의어)로 치환하는 기법.

ㅇ 특징:
– 간단하고 빠르게 적용 가능
– 단어 수준의 다양성 제공
– 적절하지 않은 동의어 선택 시 의미 왜곡 가능

ㅇ 적합한 경우:
– 빠른 데이터셋 확장이 필요할 때
– 단어 수준 의미 변형이 허용되는 과제

ㅇ 시험 함정:
– 모든 동의어가 문맥에 적합하다고 단정하는 문항 주의
– 형태소 분석 없이 무작위 치환 시 문법 오류 가능

ㅇ 시험 대비 “패턴 보기” 예시:
O: “동의어 교체는 단어 수준에서 문장 다양성을 높인다.”
X: “동의어 교체는 원문의 문맥을 항상 보존한다.”

================================

3. 랜덤 삽입

ㅇ 정의:
문장 내 무작위 위치에 새로운 단어나 구를 삽입하는 기법.

ㅇ 특징:
– 새로운 맥락 생성 가능
– 과도한 삽입은 문장 품질 저하
– 의미적 일관성 유지 어려울 수 있음

ㅇ 적합한 경우:
– 모델이 불규칙한 입력에도 강건성을 갖도록 학습시키고자 할 때
– 문장 구조의 다양성이 필요한 경우

ㅇ 시험 함정:
– 무작위 삽입이 항상 긍정적인 효과를 준다고 단정하는 문항 주의
– 의미 왜곡 가능성을 무시하는 설명 주의

ㅇ 시험 대비 “패턴 보기” 예시:
O: “랜덤 삽입은 데이터 다양성을 높일 수 있다.”
X: “랜덤 삽입은 문장의 의미를 절대 변경하지 않는다.”

================================

4. 데이터 마스킹

ㅇ 정의:
문장의 일부 단어나 구를 마스킹 토큰(예: [MASK])으로 대체하여 모델이 해당 부분을 예측하도록 하는 기법.

ㅇ 특징:
– 마스킹된 부분 복원 학습을 통해 문맥 이해 능력 강화
– BERT 등 마스크드 언어모델 학습에서 필수적
– 과도한 마스킹은 정보 손실로 학습 효율 저하

ㅇ 적합한 경우:
– 문맥 기반 단어 예측 능력 향상 목적
– 사전 학습(Pre-training) 데이터 생성

ㅇ 시험 함정:
– “데이터 마스킹은 데이터 보안 목적만 있다”는 X → NLP 학습 목적에서도 널리 사용
– 마스킹 비율이 높을수록 항상 성능이 향상된다고 단정하는 문항 주의

ㅇ 시험 대비 “패턴 보기” 예시:
O: “데이터 마스킹은 문맥 이해를 위한 사전 학습에 활용된다.”
X: “데이터 마스킹은 의미 변형 없이 항상 원문을 유지한다.”

================================

다음 단계로, 원하시면 제가 각 세부 용어별로 **실제 기출 변형 문제**도 만들어 드릴까요?
이렇게 하면 단순 암기보다 시험 대비 효과가 높아집니다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*