데이터: 해결 기법 – Random Undersampling
ㅁ 해결 기법
1. Random Undersampling
ㅇ 정의:
다수 클래스의 데이터 샘플을 무작위로 제거하여 클래스 간 데이터 수를 균형 맞추는 기법.
ㅇ 특징:
– 구현이 간단하고 빠름.
– 데이터 양이 줄어들어 학습 속도가 빨라짐.
– 정보 손실이 발생할 수 있음.
– 불균형 비율이 큰 경우 성능 저하 가능.
ㅇ 적합한 경우:
– 데이터가 매우 많아 일부 손실이 모델 성능에 큰 영향을 주지 않는 경우.
– 빠른 프로토타입 테스트가 필요한 경우.
ㅇ 시험 함정:
– Random Undersampling은 항상 성능을 향상시키는 것이 아님(O).
– 데이터 손실이 없으므로 정보 보존에 유리하다(X).
– 소수 클래스 데이터를 늘리는 기법이다(X).
ㅇ 시험 대비 “패턴 보기” 예시:
– “다수 클래스 샘플을 줄여 클래스 비율을 맞춘다” → O
– “데이터의 모든 정보를 보존하면서 클래스 불균형을 해결한다” → X
– “데이터 양이 줄어 학습 속도가 빨라질 수 있다” → O
ㅁ 추가 학습 내용
언더샘플링 기법에는 Random Undersampling 외에도 Tomek Links, NearMiss 등이 있으며, 이들은 단순 무작위 제거보다 더 정교하게 불필요한 샘플을 제거하여 정보 손실을 최소화한다. 언더샘플링 시에는 데이터 분포 왜곡 가능성이 있으므로 교차검증을 통해 모델의 일반화 성능을 반드시 확인해야 한다. 시험에서는 언더샘플링과 오버샘플링(SMOTE, ADASYN 등)의 차이점과 각 기법의 장단점을 비교하는 문제가 자주 출제되므로 함께 학습하는 것이 중요하다.