해결 기법: Random Oversampling

ㅁ 해결 기법

ㅇ 정의:
클래스 불균형 문제를 해결하기 위해 소수 클래스 데이터를 복제하여 데이터셋의 균형을 맞추는 기법.

ㅇ 특징:
– 소수 클래스의 데이터 비율을 증가시켜 모델이 해당 클래스를 더 잘 학습하도록 유도.
– 데이터의 다양성이 부족해질 수 있으며, 과적합 문제가 발생할 가능성이 있음.
– 간단하며 구현이 쉬운 방법.

ㅇ 적합한 경우:
– 소수 클래스의 데이터가 극도로 적은 경우.
– 데이터셋의 크기를 증가시켜 모델 성능을 개선하고자 할 때.

ㅇ 시험 함정:
– Random Oversampling을 사용할 때 데이터의 다양성이 부족해질 수 있다는 점을 간과.
– 과적합 문제를 해결하지 않고 결과를 과대평가.

ㅇ 시험 대비 “패턴 보기” 예시:
1. Random Oversampling은 소수 클래스의 데이터를 복제하여 데이터셋을 균형 있게 만든다. (O)
2. Random Oversampling은 새로운 데이터를 생성하여 데이터 다양성을 증가시킨다. (X)

1.1 SMOTE

ㅇ 정의:
Synthetic Minority Over-sampling Technique으로, 소수 클래스의 데이터를 복제하는 대신 새로운 데이터를 생성하는 기법.

ㅇ 특징:
– K-최근접 이웃(KNN)을 사용하여 소수 클래스의 데이터 주변에서 새로운 데이터를 생성.
– 데이터 다양성을 증가시킬 수 있음.
– 구현이 복잡하며, 데이터 분포를 왜곡할 가능성이 있음.

ㅇ 적합한 경우:
– 소수 클래스의 데이터가 적지만 데이터 다양성이 중요한 경우.
– 데이터셋의 불균형을 해결하면서 과적합을 방지하고자 할 때.

ㅇ 시험 함정:
– SMOTE가 데이터 다양성을 증가시키지만 데이터의 원래 분포를 왜곡할 수 있다는 점을 간과.
– SMOTE가 모든 상황에서 효과적이라고 잘못 이해.

ㅇ 시험 대비 “패턴 보기” 예시:
1. SMOTE는 소수 클래스 데이터를 복제하지 않고 새로운 데이터를 생성한다. (O)
2. SMOTE는 데이터 분포를 항상 유지한다. (X)

ㅁ 추가 학습 내용

클래스 불균형 문제를 해결하기 위한 다양한 기법들을 정리합니다. 아래는 Random Oversampling과 SMOTE 외에 추가적으로 학습할 수 있는 기법들입니다.

1. ADASYN (Adaptive Synthetic Sampling):
– SMOTE의 확장된 기법으로, 데이터를 생성하는 방식에 차이가 있습니다.
– ADASYN은 소수 클래스의 샘플 중에서도 더 어려운(즉, 다수 클래스와 경계가 가까운) 샘플에 대해 더 많은 데이터를 생성합니다.
– 이를 통해 모델이 학습하기 어려운 영역에 초점을 맞추어 성능을 개선할 수 있도록 돕습니다.

2. Cluster-based Oversampling:
– 소수 클래스 데이터를 클러스터링하여 각 클러스터의 중심점을 기준으로 새로운 데이터를 생성합니다.
– 데이터의 분포를 보다 잘 반영할 수 있도록 설계된 방법으로, 단순히 기존 데이터를 복제하거나 무작위로 생성하는 방식보다 더 구조적인 접근법입니다.

Oversampling 기법과 함께 활용되는 Undersampling 기법도 클래스 불균형 문제를 해결하는 데 중요한 역할을 합니다. 아래는 대표적인 Undersampling 기법들입니다.

1. Random Undersampling:
– 다수 클래스에서 무작위로 데이터를 제거하여 클래스 간의 균형을 맞추는 방법입니다.
– 간단하고 효율적이지만, 중요한 데이터를 잃을 가능성이 있어 모델 성능에 부정적인 영향을 미칠 수 있습니다.

2. Tomek Links:
– Tomek Links는 두 클래스 간의 경계에 위치한 샘플 쌍을 식별하여 이를 제거하는 방식입니다.
– 경계에 있는 데이터가 제거되면서 클래스 간의 분리가 더 명확해지고, 데이터의 품질이 향상됩니다.
– 다수 클래스의 데이터만 제거하거나, 양쪽 데이터를 모두 제거하는 방식으로 사용할 수 있습니다.

이와 같은 Oversampling과 Undersampling 기법들을 조합하여 사용하면 클래스 불균형 문제를 보다 효과적으로 해결할 수 있습니다. 각 기법의 특성과 데이터셋의 특성을 고려하여 적절한 방법을 선택하는 것이 중요합니다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*