데이터 전처리: 표형 데이터 증강 – ADASYN

ㅁ 표형 데이터 증강

ㅇ 정의:
표형 데이터 증강은 표 형태(행과 열 구조)의 데이터셋에서 데이터 불균형 문제를 해결하거나 모델 일반화를 향상시키기 위해 기존 데이터를 변형하거나 새로운 데이터를 생성하는 기법이다.

ㅇ 특징:
– 주로 클래스 불균형이 심한 분류 문제에서 사용됨
– 원본 데이터의 통계적 특성을 유지하면서 새로운 샘플 생성
– 과적합 방지를 위해 무작위성(randomness)을 포함

ㅇ 적합한 경우:
– 소수 클래스의 데이터 수가 부족한 경우
– 표형 데이터 기반의 분류 모델 학습 시

ㅇ 시험 함정:
– 이미지 증강 기법과 혼동해서 설명하는 경우
– 단순 복제(oversampling)와 혼동하는 경우

ㅇ 시험 대비 “패턴 보기” 예시:
O: “표형 데이터에서 소수 클래스 표본을 합성하여 불균형을 완화하는 방법이다.”
X: “표형 데이터 증강은 이미지 회전, 크롭 등의 기법을 사용한다.”

================================

1. ADASYN

ㅇ 정의:
ADASYN(Adaptive Synthetic Sampling)은 소수 클래스 데이터의 분포를 고려하여, 분류가 어려운 영역에 더 많은 합성 데이터를 생성하는 데이터 증강 기법이다.

ㅇ 특징:
– 소수 클래스 중에서도 분류 경계 근처의 샘플에 가중치를 두어 합성 데이터 생성
– 적응형 방식으로 데이터 불균형 완화
– SMOTE 기법을 확장한 형태

ㅇ 적합한 경우:
– 클래스 불균형이 심하고, 경계 영역의 학습이 중요한 경우
– 표형 데이터 기반의 이진 또는 다중 분류 문제

ㅇ 시험 함정:
– SMOTE와 동일하게 모든 소수 클래스 샘플에 균등하게 데이터를 생성한다고 오해
– ADASYN이 데이터 불균형 비율을 자동으로 완전히 맞춘다고 착각

ㅇ 시험 대비 “패턴 보기” 예시:
O: “ADASYN은 분류가 어려운 소수 클래스 샘플에 더 많은 합성 데이터를 생성한다.”
X: “ADASYN은 모든 소수 클래스 샘플에 동일한 수의 합성 데이터를 생성한다.”

ㅁ 추가 학습 내용

ADASYN은 데이터 불균형 문제를 해결하기 위한 대표적인 표형 데이터 증강 기법으로, K-최근접이웃(KNN)을 기반으로 소수 클래스 샘플 주변의 다수 클래스 비율을 계산하여 합성 데이터 생성 비율을 조정한다. SMOTE와의 차이점은, SMOTE는 모든 소수 클래스 샘플에 대해 균등하게 합성 데이터를 생성하는 반면, ADASYN은 분류가 어려운 샘플, 즉 다수 클래스와 인접한 소수 클래스 샘플에 더 많은 데이터를 생성한다는 점이다. 주요 파라미터로는 β(합성 데이터 생성 비율)와 K(이웃 수)가 있으며, 데이터 분포 왜곡 가능성이 존재하므로 이를 방지하기 위해 K 값 조정, 데이터 정규화 등의 방법을 활용해야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*