데이터 전처리: 텍스트 증강 – 랜덤 삽입
ㅁ 텍스트 증강
ㅇ 정의:
텍스트 데이터의 다양성을 높이기 위해 기존 문장에 무작위로 단어를 삽입하는 기법. 주로 데이터 부족 문제를 완화하고 모델의 일반화 성능을 향상시키기 위해 사용됨.
ㅇ 특징:
– 원본 의미를 크게 훼손하지 않는 범위에서 단어를 추가
– 삽입 단어는 주로 동의어 사전, 빈도 기반 단어 리스트, 또는 사전 학습된 임베딩에서 선택
– 간단하고 빠르게 구현 가능
– 과도한 삽입 시 문장 품질 저하 가능
ㅇ 적합한 경우:
– 텍스트 데이터셋이 작아 과적합 위험이 높은 경우
– 자연어 처리 모델 학습 시 데이터 다양성이 필요한 경우
– 감성 분석, 분류, 의도 인식 등에서 일반화 성능을 높이고자 할 때
ㅇ 시험 함정:
– 무작위 삽입이 항상 성능 향상으로 이어지는 것은 아님
– 의미 왜곡 가능성 간과
– 단어 삽입 위치를 완전히 랜덤하게만 선택하는 것으로 오해
ㅇ 시험 대비 “패턴 보기” 예시:
O: 랜덤 삽입은 문장 내 임의 위치에 의미를 크게 훼손하지 않는 단어를 추가하는 텍스트 증강 기법이다.
X: 랜덤 삽입은 항상 모델 성능을 향상시키며, 단어 삽입 위치는 문장의 앞부분에만 선택한다.
ㅁ 추가 학습 내용
랜덤 삽입(Random Insertion)은 EDA(Easy Data Augmentation) 기법 중 하나로, 랜덤 삭제(Random Deletion), 랜덤 스왑(Random Swap), 동의어 교체(Synonym Replacement)와 함께 자주 출제된다.
시험에서는 삽입할 단어의 선택 기준으로 동의어 사전, WordNet, 임베딩 유사도 등을 활용하는 방법과 삽입 횟수를 제어하는 방식이 함께 물어볼 수 있다.
삽입 위치는 무작위로 선택하되 문법적 어색함을 최소화하기 위해 품사 태깅 기반 삽입 전략을 사용하는 것이 실무에서 중요하며, 단순 무작위 삽입과의 차이를 구분할 필요가 있다.
랜덤 삽입은 데이터 증강 시 과적합 방지뿐 아니라 불균형 데이터셋의 클래스별 샘플 수를 맞추는 용도로도 활용 가능하다.