데이터 전처리: 표형 데이터 증강 – 언더샘플링
ㅁ 표형 데이터 증강
ㅇ 정의:
표형 데이터 증강은 표 형태(행과 열 구조)의 데이터를 인위적으로 변형·생성하여 학습 데이터의 다양성과 균형을 확보하는 기법이다.
ㅇ 특징:
– 주로 데이터 불균형 문제를 해결하기 위해 사용된다.
– 원본 데이터의 구조와 통계적 특성을 유지하면서 새로운 데이터셋을 만든다.
– 과적합 방지와 모델 일반화 성능 향상에 도움을 준다.
ㅇ 적합한 경우:
– 범주형/수치형 데이터가 혼합된 표형 데이터셋에서 클래스 불균형이 심한 경우
– 데이터 수집 비용이 높거나 추가 수집이 어려운 경우
ㅇ 시험 함정:
– 이미지/음성 데이터 증강 기법과 혼동하여 표형 데이터 증강 기법을 잘못 선택하는 경우
– 단순 복제(oversampling)와 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: “표형 데이터 증강은 데이터의 구조를 유지하면서 불균형을 완화할 수 있다.”
X: “표형 데이터 증강은 이미지 회전, 반전 등의 기법을 주로 사용한다.”
================================
1. 언더샘플링
ㅇ 정의:
다수 클래스의 데이터 수를 줄여 클래스 간 데이터 균형을 맞추는 데이터 증강 기법이다.
ㅇ 특징:
– 불균형 데이터셋에서 다수 클래스의 표본을 무작위 또는 전략적으로 제거한다.
– 데이터 양이 줄어들어 학습 속도가 빨라질 수 있으나 정보 손실 위험이 있다.
– 대표적인 방법으로 Random Undersampling, Tomek Links, NearMiss 등이 있다.
ㅇ 적합한 경우:
– 다수 클래스 데이터가 지나치게 많아 학습 편향이 심한 경우
– 데이터 수집이 용이하고 일부 데이터 손실이 모델 성능에 큰 영향을 주지 않는 경우
ㅇ 시험 함정:
– 언더샘플링은 항상 성능을 향상시킨다고 착각하는 경우
– 오버샘플링과 언더샘플링의 차이를 혼동하는 경우
ㅇ 시험 대비 “패턴 보기” 예시:
O: “언더샘플링은 다수 클래스 데이터를 줄여 클래스 균형을 맞춘다.”
X: “언더샘플링은 소수 클래스 데이터를 복제하여 균형을 맞춘다.”
ㅁ 추가 학습 내용
언더샘플링의 변형 기법은 다음과 같다.
Random Undersampling은 구현이 간단하지만 중요한 데이터가 손실될 수 있다.
Tomek Links는 클래스 경계에 위치한 샘플 쌍을 제거하여 데이터 분리를 명확히 한다.
NearMiss는 소수 클래스와의 거리를 기준으로 다수 클래스 샘플을 선택하여 보다 정교하게 샘플링한다.
시험에서는 언더샘플링과 오버샘플링의 비교, 그리고 SMOTE와 같은 합성 샘플 생성 기법과의 차이를 묻는 문제가 자주 출제된다.
표형 데이터 증강 시 발생할 수 있는 부작용으로는 데이터 누락, 정보 손실, 데이터 분포 왜곡이 있으며, 이를 완화하기 위해 반복 교차검증을 활용하거나 데이터 분할 시 주의하는 전략이 필요하다.