데이터 전처리: 표형 데이터 증강 – SMOTE

ㅁ 표형 데이터 증강

ㅇ 정의:
표형 데이터 증강은 표 형태의 구조화된 데이터에서 데이터의 양과 다양성을 늘리기 위해 기존 데이터를 변형, 합성, 생성하는 기법을 말한다.

ㅇ 특징:
– 수치형, 범주형, 혼합형 데이터 모두에 적용 가능
– 데이터 불균형 문제를 완화하는 데 자주 사용
– 원본 데이터의 통계적 특성을 유지하는 것이 중요

ㅇ 적합한 경우:
– 클래스 불균형이 심한 분류 문제
– 데이터 수집이 어렵거나 비용이 많이 드는 경우

ㅇ 시험 함정:
– 이미지나 텍스트 증강과 혼동하여 설명하는 경우
– 범주형 데이터 증강 시 단순 복제와 혼동

ㅇ 시험 대비 “패턴 보기” 예시:
O: “표형 데이터에서 클래스 불균형 해소를 위해 합성 데이터를 생성하는 방법이다.”
X: “이미지 회전, 반전 등의 변환을 적용하는 방법이다.”

================================

1. SMOTE

ㅇ 정의:
SMOTE(Synthetic Minority Over-sampling Technique)는 소수 클래스 샘플 사이의 거리를 기반으로 새로운 합성 샘플을 생성하여 데이터 불균형을 해소하는 기법이다.

ㅇ 특징:
– K-최근접이웃(KNN) 기반으로 소수 클래스 샘플을 선형 보간하여 새로운 샘플 생성
– 단순 복제 방식보다 과적합 위험이 낮음
– 수치형 변수에 적합하며, 범주형 변수에는 변형 필요

ㅇ 적합한 경우:
– 소수 클래스 데이터가 매우 적어 모델 학습이 어려운 경우
– 수치형 데이터 중심의 분류 문제

ㅇ 시험 함정:
– 단순 오버샘플링과 구분하지 못하는 경우
– 다수 클래스 데이터에도 무작정 적용한다고 생각하는 경우
– 범주형 데이터에 바로 적용 가능하다고 오해하는 경우

ㅇ 시험 대비 “패턴 보기” 예시:
O: “SMOTE는 소수 클래스 샘플 사이의 거리를 바탕으로 새로운 합성 데이터를 생성한다.”
X: “SMOTE는 원본 소수 클래스 데이터를 단순 복제하여 개수를 늘린다.”

ㅁ 추가 학습 내용

SMOTE의 변형 기법은 시험에 자주 출제되므로 함께 학습해야 한다. 주요 변형 기법으로는 다음이 있다.
– Borderline-SMOTE: 경계 근처의 샘플만 증강하는 방법
– SMOTEENN: SMOTE로 데이터 증강 후 편집 최근접이웃(ENN) 기법으로 잡음을 제거하는 방법
– SMOTETomek: SMOTE로 데이터 증강 후 Tomek Link를 제거하여 클래스 간 경계를 명확히 하는 방법

SMOTE 적용 시 고려해야 할 사항은 다음과 같다.
– K 값 선택이 성능에 영향을 미침
– 과적합 방지를 위한 전략 필요
– 고차원 데이터에서의 한계 존재
– 범주형 변수 처리 방법 숙지 필요 (예: SMOTENC 사용)

시험 포인트로는 SMOTE가 주로 분류 문제에서 사용되며 회귀 문제에는 적합하지 않다는 점, 합성 데이터 생성 시 원본 데이터의 분포를 유지하려는 원리를 이해하고 있어야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*