데이터 전처리: 표형 데이터 증강

ㅁ 표형 데이터 증강

ㅇ 정의: 표 형태(tabular)의 구조화된 데이터셋에서 클래스 불균형 문제를 해소하거나 데이터 다양성을 확보하기 위해 기존 데이터로부터 새로운 샘플을 생성하거나 기존 샘플을 재활용하는 기법.

ㅇ 특징: 수치형/범주형 데이터 모두에 적용 가능하나, 각 기법별로 생성 방식과 데이터 분포 보존 정도가 다름. 모델의 과적합 방지와 일반화 성능 향상이 목적.

ㅇ 적합한 경우: 분류 문제에서 소수 클래스 데이터가 현저히 부족한 경우, 데이터 수집 비용이 높거나 시간이 오래 걸리는 경우.

ㅇ 시험 함정: 이미지/음성 증강과 혼동, 데이터 누수(leakage) 위험 간과, 범주형 데이터 처리 시 인코딩 순서 문제.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “소수 클래스 데이터를 합성하여 데이터 불균형을 완화한다.”
X: “SMOTE는 기존 데이터를 그대로 복제하는 방식이다.”

================================

1. SMOTE

ㅇ 정의: Synthetic Minority Over-sampling Technique의 약자로, 소수 클래스 샘플과 그 주변 k개의 최근접 이웃 데이터를 이용해 새로운 합성 샘플을 생성하는 방법.

ㅇ 특징: 단순 복제가 아니라 선형 보간(interpolation) 방식으로 데이터를 생성, 데이터 분포를 비교적 잘 보존. 연속형 변수에 적합.

ㅇ 적합한 경우: 수치형 특성이 주를 이루는 데이터셋에서 소수 클래스 데이터 수를 늘릴 때.

ㅇ 시험 함정: 범주형 변수 처리 시 직접 적용 불가, 과적합 가능성 존재, 다중 클래스 불균형 처리 시 단계적 적용 필요.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “SMOTE는 k-NN을 활용하여 소수 클래스 샘플 사이에서 새로운 데이터를 합성한다.”
X: “SMOTE는 데이터의 평균값을 이용해 샘플을 만든다.”

================================

2. ADASYN

ㅇ 정의: Adaptive Synthetic Sampling의 약자로, SMOTE를 기반으로 하되, 분류 경계 근처의 어려운 샘플을 더 많이 생성하는 기법.

ㅇ 특징: 학습이 어려운 영역의 소수 클래스 데이터를 집중적으로 보강, 데이터 분포의 불균형을 더 정교하게 완화.

ㅇ 적합한 경우: 경계 근처의 소수 클래스 데이터가 중요한 분류 문제, 불균형 비율이 심한 경우.

ㅇ 시험 함정: 노이즈 데이터도 생성될 수 있음, 복잡한 경계에서 과적합 가능성.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “ADASYN은 분류가 어려운 영역에서 샘플을 더 많이 생성한다.”
X: “ADASYN은 모든 소수 클래스 데이터에 동일한 비율로 샘플을 생성한다.”

================================

3. 랜덤 오버샘플링

ㅇ 정의: 소수 클래스의 기존 샘플을 무작위로 복제하여 데이터 수를 늘리는 방법.

ㅇ 특징: 구현이 간단하고 빠르나, 데이터 중복으로 인해 과적합 위험이 높음. 데이터 분포 변화 없음.

ㅇ 적합한 경우: 빠른 프로토타입 모델링, 데이터 수가 극도로 적을 때.

ㅇ 시험 함정: 단순 복제가 데이터 다양성을 확보하지 못함, 모델 성능 향상에 한계.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “랜덤 오버샘플링은 소수 클래스 데이터를 무작위로 복제한다.”
X: “랜덤 오버샘플링은 새로운 합성 데이터를 생성한다.”

================================

4. 언더샘플링

ㅇ 정의: 다수 클래스의 데이터 일부를 제거하여 클래스 간 데이터 수를 맞추는 방법.

ㅇ 특징: 데이터 수 감소로 학습 속도는 빨라지나, 정보 손실 가능성이 높음. 불균형 완화 효과 즉시.

ㅇ 적합한 경우: 다수 클래스 데이터가 매우 많아 계산 리소스 절감이 필요한 경우.

ㅇ 시험 함정: 중요한 정보가 손실되어 모델 성능 저하 가능, 데이터가 적을 경우 부적합.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “언더샘플링은 다수 클래스 데이터를 줄여 클래스 비율을 맞춘다.”
X: “언더샘플링은 소수 클래스 데이터를 늘리는 방법이다.”

최신 글