표형 데이터 증강: SMOTE
ㅁ 표형 데이터 증강
ㅇ 정의:
표형 데이터 증강은 표 형태의 구조화된 데이터를 대상으로 증강 기법을 적용하여 데이터셋의 다양성과 크기를 증가시키는 기술입니다.
ㅇ 특징:
– 기존 데이터의 분포를 유지하면서 새로운 데이터를 생성함.
– 데이터 불균형 문제를 완화할 수 있음.
– 통계적 왜곡을 최소화하는 것이 중요함.
ㅇ 적합한 경우:
– 데이터 불균형이 심각한 분류 문제에서 사용.
– 표형 데이터의 크기가 적어 모델 학습에 한계가 있는 경우.
ㅇ 시험 함정:
– 데이터 증강 기법이 항상 성능을 향상시키는 것은 아님.
– 과적합(overfitting) 가능성을 간과할 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 표형 데이터 증강은 데이터 불균형 문제를 해결하는 데 유용하다.
– X: 표형 데이터 증강은 모든 데이터셋에서 성능을 향상시킨다.
================================
1. SMOTE
ㅇ 정의:
SMOTE(Synthetic Minority Over-sampling Technique)는 소수 클래스 데이터를 기반으로 새로운 합성 데이터를 생성하여 데이터 불균형 문제를 해결하는 기법입니다.
ㅇ 특징:
– 소수 클래스 데이터 간의 선형 간격을 활용하여 합성 데이터를 생성.
– 데이터셋의 분포를 유지하면서 데이터 양을 증가시킴.
– 이상치(outlier)가 포함된 경우 부정확한 데이터가 생성될 수 있음.
ㅇ 적합한 경우:
– 소수 클래스 데이터가 충분히 존재하지만 불균형이 심한 경우.
– 분류 모델의 성능 향상이 필요한 경우.
ㅇ 시험 함정:
– SMOTE가 항상 모델 성능을 향상시키는 것은 아님.
– 이상치가 많은 데이터에 적용 시, 성능이 저하될 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: SMOTE는 소수 클래스 데이터를 기반으로 합성 데이터를 생성한다.
– X: SMOTE는 다수 클래스 데이터를 제거하여 데이터 균형을 맞춘다.
ㅁ 추가 학습 내용
1. SMOTE 변형 기법과의 차이점 및 활용 사례:
– **SMOTE (Synthetic Minority Over-sampling Technique)**: 소수 클래스 데이터를 증강하기 위해 기존 데이터 포인트 간의 선형 결합으로 새로운 데이터를 생성하는 기법이다. 그러나 단순한 선형 결합 방식은 데이터 경계 부분에서의 정밀도가 떨어질 수 있다.
– **Borderline-SMOTE**: 소수 클래스 데이터 중에서 다수 클래스와 경계에 있는 데이터를 중심으로 새로운 데이터를 생성한다. 이 방법은 경계 근처의 데이터를 강조함으로써 분류기의 성능을 개선할 수 있다. 활용 사례로는 의료 데이터에서 경계에 가까운 환자 데이터를 효과적으로 증강하여 진단 정확도를 높이는 데 사용된다.
– **ADASYN (Adaptive Synthetic Sampling)**: 소수 클래스의 데이터 중에서 분포가 불균형한 영역에 더 많은 데이터를 생성하는 방식이다. 즉, 소수 클래스 데이터 중에서도 밀도가 낮은 영역을 우선적으로 증강하여 학습 데이터의 균형을 맞춘다. 활용 사례로는 금융 사기 탐지에서 소수 클래스의 다양한 패턴을 학습하기 위해 사용된다.
2. SMOTE 적용 시 데이터 분포 왜곡을 방지하기 위한 전략:
– **이상치 처리**: SMOTE를 적용하기 전에 이상치를 탐지하고 제거하거나 처리해야 한다. 이상치가 포함된 상태에서 SMOTE를 적용하면 비정상적인 데이터가 증강되어 모델 성능에 악영향을 미칠 수 있다. 이상치 탐지 방법으로는 IQR(Interquartile Range), Z-Score, 또는 밀도 기반 기법(DBSCAN 등)을 사용할 수 있다.
– **클러스터링 기반 SMOTE**: 데이터를 클러스터링한 후 각 클러스터 내에서 SMOTE를 적용하면 데이터 분포 왜곡을 줄일 수 있다. 이 방법은 데이터의 지역적 구조를 유지하면서 증강을 수행할 수 있다.
– **혼합 기법**: SMOTE와 언더샘플링을 적절히 조합하여 데이터의 균형을 맞추는 방법이다. 예를 들어, 다수 클래스 데이터를 일부 제거하고 소수 클래스 데이터를 증강하면 전체 데이터 분포를 더 균형 있게 유지할 수 있다.
– **모델 성능 평가**: SMOTE 적용 후, 데이터 분포가 왜곡되었는지 확인하기 위해 시각화(예: PCA, t-SNE) 또는 성능 지표(Precision, Recall, F1-Score 등)를 활용하여 모델의 학습 결과를 평가해야 한다.
위 내용을 바탕으로 SMOTE와 변형 기법을 비교하고 데이터 증강 과정에서 발생할 수 있는 문제를 방지하는 방법을 학습하면, 불균형 데이터 처리와 모델 성능 개선에 효과적으로 대응할 수 있다.