표형 데이터 증강: ADASYN
ㅁ 표형 데이터 증강
ㅇ 정의:
표형 데이터 증강은 테이블 형식 데이터를 대상으로 데이터의 양을 늘리거나 변형하여 모델 학습에 적합한 데이터를 생성하는 방법을 의미한다.
ㅇ 특징:
– 데이터의 구조와 관계를 유지하면서 증강.
– 주로 불균형 데이터 문제를 해결하기 위해 사용.
– 특정 알고리즘이나 도구를 활용하여 증강.
ㅇ 적합한 경우:
– 데이터가 불균형하여 모델 성능이 저하되는 경우.
– 데이터의 특성을 유지하면서 새로운 데이터를 생성해야 하는 경우.
ㅇ 시험 함정:
– 증강된 데이터가 원본 데이터와 지나치게 유사하면 오히려 과적합을 초래할 수 있다.
– 데이터 증강 과정에서 데이터의 본래 의미가 왜곡될 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 표형 데이터 증강은 데이터의 구조를 유지하며 증강한다.
– X: 표형 데이터 증강은 데이터의 구조를 무시하고 증강한다.
================================
1. ADASYN
ㅇ 정의:
ADASYN(Adaptive Synthetic Sampling)은 불균형 데이터셋에서 소수 클래스의 샘플을 증강하여 데이터 균형을 맞추는 기법이다.
ㅇ 특징:
– 소수 클래스의 샘플 주위에서 새로운 데이터를 생성.
– 데이터의 분포를 고려하여 증강.
– 소수 클래스에 대해 더 많은 데이터를 생성함으로써 모델 성능을 향상시킴.
ㅇ 적합한 경우:
– 소수 클래스와 다수 클래스 간의 데이터 비율이 극단적으로 불균형한 경우.
– 소수 클래스의 데이터가 부족하여 모델이 학습에 어려움을 겪는 경우.
ㅇ 시험 함정:
– 생성된 데이터가 기존 데이터와 지나치게 유사하면 과적합을 초래할 수 있다.
– 소수 클래스의 데이터가 너무 적으면 ADASYN의 효과가 제한적일 수 있다.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: ADASYN은 소수 클래스 주위에서 새로운 데이터를 생성한다.
– X: ADASYN은 다수 클래스의 데이터를 증강한다.
================================
ㅁ 추가 학습 내용
ADASYN과 SMOTE는 모두 데이터 불균형 문제를 해결하기 위해 사용되는 오버샘플링 기법이다. ADASYN은 데이터의 분포에 따라 샘플을 생성하며, SMOTE는 주어진 소수 클래스 샘플의 근처에 새로운 데이터를 생성한다. ADASYN은 소수 클래스 내에서도 더 어려운 샘플에 집중해 새로운 데이터를 생성하는 반면, SMOTE는 모든 소수 클래스 샘플에 균일하게 접근한다.
ADASYN의 작동 원리는 다음과 같다:
1. 소수 클래스의 각 샘플에 대해 가까운 다수 클래스 샘플과의 거리를 계산한다.
2. 각 샘플의 복잡도를 기준으로 새로운 데이터를 생성할 필요성을 결정한다.
3. 더 많은 어려운 샘플 주변에서 새로운 데이터를 생성하여 모델의 학습을 돕는다.
SMOTE의 작동 원리는 다음과 같다:
1. 소수 클래스 샘플의 k-최근접 이웃을 찾는다.
2. 이웃 샘플과 기존 샘플 간의 선형 결합을 통해 새로운 데이터를 생성한다.
3. 새로 생성된 데이터는 기존 샘플과 유사한 특성을 가진다.
ADASYN과 SMOTE의 차이점은 다음과 같다:
– ADASYN은 소수 클래스의 어려운 샘플에 집중해 데이터를 생성하며, 데이터 불균형을 해결하는 동시에 학습의 품질을 높이는 데 초점을 둔다.
– SMOTE는 모든 소수 클래스 샘플에 대해 균일하게 데이터를 생성하며, 단순히 데이터 불균형을 완화하는 데 초점을 둔다.
사후 검증 절차는 ADASYN이나 SMOTE를 사용한 후 생성된 데이터가 모델 학습에 적합한지 확인하는 과정이다. 이를 위해 생성된 샘플의 품질을 평가하거나, 모델의 성능을 비교하는 방법을 사용할 수 있다. 예를 들어, 교차 검증을 통해 모델의 일반화 성능을 확인하거나, 데이터의 분포를 시각화하여 품질을 검증할 수 있다.
시험 대비를 위해 ADASYN과 SMOTE의 작동 방식, 차이점, 그리고 사후 검증 절차를 명확히 이해하고, 이를 설명할 수 있도록 준비하는 것이 중요하다.