데이터 전처리: 표형 데이터 증강 – 랜덤 오버샘플링
ㅁ 표형 데이터 증강
ㅇ 정의:
표형 데이터 증강은 표 형태(tabular)의 데이터셋에서 데이터 수를 늘려 모델의 학습 성능을 향상시키는 기법으로, 주로 불균형 데이터 문제를 해결하기 위해 사용됨.
ㅇ 특징:
– 데이터의 행(row)을 인위적으로 생성하거나 복제
– 클래스 불균형(Class Imbalance) 해소 목적
– 원본 데이터의 통계적 특성을 유지하는 것이 중요
ㅇ 적합한 경우:
– 분류 문제에서 소수 클래스 데이터가 매우 적을 때
– 데이터 수집이 어렵거나 비용이 많이 드는 경우
ㅇ 시험 함정:
– 증강 데이터가 원본 데이터와 너무 유사하면 과적합(overfitting) 위험
– 증강 후 데이터 분포가 왜곡될 수 있음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “표형 데이터 증강은 클래스 불균형 문제 해결에 활용된다.”
X: “표형 데이터 증강은 항상 모델의 일반화 성능을 향상시킨다.”
================================
1. 랜덤 오버샘플링
ㅇ 정의:
소수 클래스의 데이터를 단순 복제하여 데이터셋 내 클래스 비율을 맞추는 기법.
ㅇ 특징:
– 구현이 간단하며 빠름
– 원본 소수 클래스 데이터를 무작위로 반복 선택하여 복제
– 새로운 정보는 추가되지 않음
ㅇ 적합한 경우:
– 데이터 양이 적고 클래스 불균형이 심한 경우
– 모델이 소수 클래스의 패턴을 거의 학습하지 못하는 경우
ㅇ 시험 함정:
– 과적합 발생 가능성 높음 (같은 데이터 반복 학습)
– 데이터의 다양성 증가 효과 없음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “랜덤 오버샘플링은 소수 클래스 데이터를 복제하여 클래스 비율을 조정한다.”
X: “랜덤 오버샘플링은 새로운 데이터를 생성하여 데이터 다양성을 높인다.”
ㅁ 추가 학습 내용
랜덤 오버샘플링은 소수 클래스 데이터를 단순 복제하여 데이터 불균형을 해소하는 방법이지만, 과적합 위험과 데이터 다양성 부족의 단점이 있다.
SMOTE는 소수 클래스 데이터 간의 거리를 기반으로 새로운 합성 데이터를 생성하여 단순 복제 대신 데이터 다양성을 확보한다.
ADASYN은 SMOTE와 유사하지만, 분류가 어려운 소수 클래스 샘플에 더 많은 합성 데이터를 생성하는 방식으로 데이터 분포를 조정한다.
랜덤 오버샘플링의 단점을 보완하기 위해 언더샘플링과 혼합한 기법이 있으며, 대표적으로 SMOTEENN과 SMOTETomek이 있다.
표형 데이터 증강 시에는 데이터 누수 방지, 증강 후 데이터 분포 확인, 모델 학습 전 데이터 셔플링이 중요하다.