데이터: 해결 기법 – Random Oversampling

ㅁ 해결 기법

1. Random Oversampling

ㅇ 정의:
소수 클래스(minority class)의 데이터를 무작위로 복제하여 클래스 간 데이터 비율을 맞추는 기법.

ㅇ 특징:
– 간단하고 빠르게 구현 가능
– 데이터 손실 없이 클래스 균형 조정 가능
– 동일한 데이터 복제로 인해 과적합(overfitting) 위험 증가

ㅇ 적합한 경우:
– 데이터 양이 적고, 소수 클래스의 정보 손실을 최소화해야 하는 경우
– 모델이 다소 과적합되더라도 재현율(recall) 향상이 중요한 경우

ㅇ 시험 함정:
– “데이터를 무작위로 생성”이라고 설명하면 틀림 (기존 데이터 복제임)
– “과적합 위험이 없다” → X (복제로 인한 과적합 가능성 있음)
– “항상 성능이 향상된다” → X (데이터 분포 왜곡 가능)

ㅇ 시험 대비 “패턴 보기” 예시:
– O: 소수 클래스 데이터를 복제하여 데이터 비율을 맞춘다.
– X: 소수 클래스 데이터를 새로운 값으로 합성하여 생성한다.
– O: 과적합 위험이 존재할 수 있다.
– X: 모든 경우에 정확도가 향상된다.

ㅁ 추가 학습 내용

오버샘플링 기법에는 단순히 소수 클래스 데이터를 무작위로 복제하는 Random Oversampling 외에도, 합성 데이터를 생성하는 방식이 있다. 대표적으로 SMOTE(Synthetic Minority Over-sampling Technique)는 소수 클래스 데이터 포인트들 사이의 feature 공간에서 새로운 합성 샘플을 만들어내고, ADASYN(Adaptive Synthetic Sampling)은 분류가 어려운 소수 클래스 샘플 주변에서 더 많은 합성 데이터를 생성하여 학습을 돕는다.

오버샘플링은 소수 클래스의 데이터 양을 늘려 데이터 불균형을 완화하는 방법이고, 언더샘플링은 다수 클래스의 데이터를 줄여 균형을 맞추는 방법이다. 오버샘플링은 정보 손실이 적지만 과적합 위험이 있고, 언더샘플링은 학습 데이터가 줄어들어 정보 손실이 발생할 수 있다.

데이터 불균형은 모델 평가 지표에 영향을 미친다. 정확도(Accuracy)는 불균형 데이터에서 왜곡될 수 있으며, 재현율(Recall)과 F1-score는 소수 클래스의 성능을 더 잘 반영한다. ROC-AUC는 클래스 불균형에도 비교적 안정적이지만, 극심한 불균형에서는 PR-AUC(Precision-Recall AUC)가 소수 클래스 성능을 평가하는 데 더 유용하다.

무작위 복제(Random Oversampling)는 기존 소수 클래스 샘플을 그대로 복제하는 것이고, 합성 데이터 생성(SMOTE, ADASYN 등)은 기존 데이터를 기반으로 새로운 데이터 포인트를 만들어내는 것이다. 예를 들어, 무작위 복제는 동일한 데이터가 여러 번 반복되지만, SMOTE는 두 소수 클래스 샘플 사이에 새로운 점을 생성하여 데이터 다양성을 높인다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*