데이터 증강: Synthetic Minority Oversampling
ㅁ 데이터 증강
ㅇ 정의:
데이터 증강은 기존 데이터를 변형하거나 새로운 데이터를 생성하여 데이터셋의 다양성과 크기를 증가시키는 기법이다.
ㅇ 특징:
– 데이터 불균형 문제를 해결하기 위해 사용됨.
– 기존 데이터의 품질을 유지하면서도 학습 성능을 향상시킬 수 있음.
– 이미지, 텍스트, 오디오 등 다양한 데이터 유형에 적용 가능.
ㅇ 적합한 경우:
– 데이터셋이 작거나 특정 클래스의 데이터가 부족한 경우.
– 모델의 과적합(overfitting)을 방지하고 일반화를 높이고자 할 때.
ㅇ 시험 함정:
– 데이터 증강이 항상 성능 향상을 보장하지 않음.
– 잘못된 증강 기법 사용 시 데이터 왜곡 가능성.
ㅇ 시험 대비 “패턴 보기” 예시:
O: 데이터 증강은 데이터 불균형 문제를 해결하기 위한 효과적인 방법이다.
X: 데이터 증강은 항상 데이터 품질을 저하시킨다.
================================
1. Synthetic Minority Oversampling
ㅇ 정의:
Synthetic Minority Oversampling은 소수 클래스 데이터를 증강하기 위해 기존 데이터의 특징을 기반으로 새로운 데이터를 생성하는 기법이다.
ㅇ 특징:
– 소수 클래스 데이터를 증폭시켜 데이터 불균형 문제를 해결.
– 기존 데이터의 패턴을 유지하며 새로운 데이터를 생성.
– 주로 SMOTE(Synthetic Minority Over-sampling Technique) 알고리즘이 사용됨.
ㅇ 적합한 경우:
– 클래스 간 데이터 비율이 크게 차이나는 경우.
– 소수 클래스의 데이터가 부족하여 학습 성능이 저하되는 경우.
ㅇ 시험 함정:
– 소수 클래스 데이터가 가진 노이즈까지 증폭될 가능성.
– 데이터 증강 후 모델의 과적합 가능성 증가.
ㅇ 시험 대비 “패턴 보기” 예시:
O: Synthetic Minority Oversampling은 소수 클래스 데이터를 증폭시켜 데이터 불균형 문제를 해결한다.
X: Synthetic Minority Oversampling은 다수 클래스 데이터를 줄이는 방식이다.
ㅁ 추가 학습 내용
Synthetic Minority Oversampling과 관련된 학습 내용을 다음과 같이 정리할 수 있습니다:
1. Synthetic Minority Oversampling 기법:
– SMOTE(Synthetic Minority Oversampling Technique)는 소수 클래스 데이터의 샘플 사이에 새로운 데이터를 합성하여 데이터 불균형 문제를 해결하는 방법입니다.
– 이 기법은 단순히 데이터를 복제하는 것이 아니라, 두 데이터 점 사이의 선형 간격을 기준으로 새로운 데이터를 생성합니다.
2. SMOTE의 변형 기법:
– ADASYN(Adaptive Synthetic Sampling)은 SMOTE의 변형된 방법으로, 데이터 불균형 문제를 해결하기 위해 설계되었습니다.
– ADASYN은 소수 클래스 내의 샘플 중에서도 분포가 적은 영역이나 학습이 어려운 영역에 더 많은 새로운 데이터를 생성합니다. 이를 통해 모델이 학습하기 어려운 사례를 보완하고, 학습 성능을 향상시키는 것을 목표로 합니다.
3. 데이터 증강의 한계점:
– 증강된 데이터가 원본 데이터의 분포를 왜곡할 가능성이 있습니다. 이는 모델이 실제 데이터와는 다른 분포를 학습하게 만들어 일반화 성능을 저하시킬 수 있습니다.
– 특히, 원본 데이터가 비선형적이거나 복잡한 구조를 가지고 있을 경우, 증강된 데이터가 이러한 특성을 제대로 반영하지 못할 위험이 있습니다.
– 따라서 데이터 증강을 사용할 때는 원본 데이터의 특성과 분포를 충분히 고려하고, 증강 데이터가 원본 데이터의 특성을 왜곡하지 않도록 신중히 설계해야 합니다.