표형 데이터 증강: 언더샘플링
ㅁ 표형 데이터 증강
ㅇ 정의:
표형 데이터 증강은 표 형태의 데이터셋에서 데이터의 다양성을 인위적으로 증가시키는 기법을 말한다. 이는 모델의 일반화 성능을 높이고 과적합을 방지하기 위한 목적으로 사용된다.
ㅇ 특징:
– 데이터의 불균형 문제를 해결하는 데 주로 사용됨.
– 원본 데이터의 구조를 유지하면서 변형을 가함.
– 데이터의 양을 줄이거나 늘리는 다양한 방법을 포함.
ㅇ 적합한 경우:
– 데이터셋이 불균형하여 특정 클래스의 샘플이 과소 또는 과대 대표되는 경우.
– 모델이 특정 클래스에 대해 편향된 학습을 하는 경우.
ㅇ 시험 함정:
– 데이터 증강 기법이 모든 데이터셋에 효과적인 것은 아님.
– 데이터의 변형이 원본 데이터의 품질을 저하시킬 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: 표형 데이터 증강은 데이터 불균형 문제를 해결하기 위한 방법 중 하나이다.
X: 표형 데이터 증강은 항상 데이터 품질을 높인다.
================================
1. 언더샘플링
ㅇ 정의:
언더샘플링은 데이터셋에서 다수 클래스의 샘플 수를 줄여 클래스 간의 균형을 맞추는 기법이다.
ㅇ 특징:
– 데이터셋의 크기가 줄어들기 때문에 처리 속도가 빨라질 수 있음.
– 다수 클래스의 중요한 정보가 손실될 위험이 있음.
– 데이터 불균형 문제를 해결하는 데 효과적일 수 있음.
ㅇ 적합한 경우:
– 데이터셋이 매우 크고 다수 클래스의 샘플이 과도하게 많은 경우.
– 소수 클래스의 샘플이 충분히 중요한 정보를 포함하고 있는 경우.
ㅇ 시험 함정:
– 데이터셋 크기를 줄이는 모든 기법이 언더샘플링은 아님.
– 소수 클래스의 품질이 낮다면 언더샘플링이 오히려 성능을 저하시킬 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: 언더샘플링은 다수 클래스의 데이터를 줄여 데이터 불균형 문제를 해결한다.
X: 언더샘플링은 항상 데이터 품질을 높인다.
================================
ㅁ 추가 학습 내용
1. 언더샘플링의 대표적인 기법은 랜덤 언더샘플링과 클러스터링 기반 언더샘플링이다.
– 랜덤 언더샘플링은 다수 클래스에서 무작위로 데이터를 선택하여 샘플의 크기를 줄이는 방식이다. 이 방법은 구현이 쉽고 빠르지만, 중요한 데이터가 손실될 가능성이 있다.
– 클러스터링 기반 언더샘플링은 데이터를 군집화하여 각 군집에서 대표 샘플을 선택하는 방식이다. 이 방법은 데이터의 구조를 고려하여 샘플을 선택하기 때문에 랜덤 방식보다 중요한 정보를 유지할 가능성이 높다.
2. 언더샘플링의 단점은 중요한 정보가 손실될 수 있다는 점이다. 특히, 다수 클래스에서 데이터를 제거하는 과정에서 주요 패턴이나 특징이 사라질 위험이 있다. 이를 보완하기 위해 언더샘플링 기법과 오버샘플링 기법을 병행하여 사용하는 사례가 많다. 예를 들어, 다수 클래스는 언더샘플링을 통해 크기를 줄이고, 소수 클래스는 오버샘플링을 통해 데이터를 늘리는 방식으로 데이터 균형을 맞출 수 있다.
3. 데이터 불균형 문제를 해결하기 위한 대안으로 SMOTE(Synthetic Minority Over-sampling Technique)와 같은 오버샘플링 기법이 있다. SMOTE는 소수 클래스의 새로운 샘플을 생성하는 방식으로, 기존 데이터의 근접 이웃을 기반으로 새로운 데이터를 합성한다. 이는 단순 복제 방식보다 더 다양한 데이터를 생성할 수 있어 모델의 일반화 성능을 높이는 데 유리하다. 언더샘플링과 비교했을 때, SMOTE는 소수 클래스의 데이터 손실 없이 균형을 맞출 수 있다는 장점이 있다. 하지만 SMOTE를 사용할 경우, 생성된 데이터가 실제 데이터와 다를 수 있다는 점을 고려해야 한다.