이상치 처리: Z-Score
ㅁ 이상치 처리
ㅇ 정의:
데이터셋에서 통계적으로 정상 범위를 벗어난 값을 식별하고 처리하는 과정.
ㅇ 특징:
– 이상치는 분석 결과에 큰 영향을 미칠 수 있음.
– 이상치 처리 방법에는 제거, 대체, 변환 등이 있음.
ㅇ 적합한 경우:
– 데이터의 분포를 왜곡시키는 극단값이 존재할 때.
– 모델 성능을 저하시킬 수 있는 이상값을 처리해야 할 때.
ㅇ 시험 함정:
– 모든 이상치가 제거 대상이 되는 것은 아님.
– 이상치가 중요한 패턴이나 정보를 나타내는 경우도 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 이상치는 모델 성능에 영향을 줄 수 있으므로 적절히 처리해야 한다.
– X: 이상치는 항상 제거해야 한다.
================================
1. Z-Score
ㅇ 정의:
데이터가 평균으로부터 얼마나 떨어져 있는지를 표준 편차 단위로 나타내는 값.
ㅇ 특징:
– Z-Score가 특정 임계값(예: ±3)을 초과하면 이상치로 간주.
– 데이터가 정규분포를 따를 때 효과적.
ㅇ 적합한 경우:
– 데이터가 정규분포를 따르는 경우.
– 이상치를 정량적으로 식별하고자 할 때.
ㅇ 시험 함정:
– Z-Score는 정규분포를 가정하므로, 비정규분포 데이터에 적용 시 왜곡 가능.
– 임계값 설정이 분석 목적에 따라 달라질 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: Z-Score는 데이터의 평균과 표준 편차를 기준으로 이상치를 식별한다.
– X: Z-Score는 모든 데이터 분포에서 효과적으로 이상치를 탐지한다.
ㅁ 추가 학습 내용
이상치를 처리하는 다양한 방법과 그 비교 및 Z-Score를 사용할 때의 주의점에 대해 학습 내용을 정리합니다.
1. 이상치를 처리하는 방법:
– **Z-Score**: 데이터가 정규분포를 따른다고 가정하고 평균과 표준편차를 이용해 이상치를 판단합니다. 일반적으로 Z-Score가 특정 임계값(예: ±3)을 초과하면 이상치로 간주합니다.
– **IQR (Interquartile Range)**: 데이터의 1사분위수(Q1)와 3사분위수(Q3)를 사용하여 이상치를 판단합니다. 일반적으로 IQR 범위의 1.5배를 초과하거나 미달하는 데이터를 이상치로 간주합니다. 정규분포를 가정하지 않으므로 다양한 데이터셋에 적용 가능합니다.
– **DBSCAN (Density-Based Spatial Clustering of Applications with Noise)**: 밀도 기반 클러스터링 알고리즘으로 밀도가 낮은 데이터 포인트를 이상치로 간주합니다. 특히 다차원 데이터에서 효과적이며 이상치뿐만 아니라 데이터의 군집도 파악할 수 있습니다.
– **기타 방법**: 머신러닝 기반 이상치 탐지(예: Isolation Forest, One-Class SVM)도 사용되며, 데이터의 특성과 목적에 따라 적합한 방법을 선택해야 합니다.
2. Z-Score를 사용할 때의 주의점:
– Z-Score는 데이터가 정규분포를 따를 때 가장 효과적입니다. 정규분포가 아닌 데이터셋에 적용할 경우, 이상치 탐지 결과가 왜곡될 수 있습니다.
– 정규분포가 아닌 데이터셋에 Z-Score를 적용하려면 데이터 변환이 필요할 수 있습니다. 예를 들어, 로그 변환, 제곱근 변환 등을 통해 데이터 분포를 정규화할 수 있습니다.
– 표준화 과정을 통해 데이터의 평균을 0, 표준편차를 1로 조정하면 Z-Score의 계산이 더 정확해질 수 있습니다.
3. 비교 및 선택 기준:
– 데이터의 분포: Z-Score는 정규분포 데이터에 적합하며, IQR은 분포에 관계없이 사용할 수 있습니다.
– 데이터의 차원: DBSCAN은 다차원 데이터에서 효과적이며, Z-Score와 IQR은 주로 단일 변수에 적용됩니다.
– 데이터의 크기: IQR은 계산이 간단하여 작은 데이터셋에 적합하며, DBSCAN은 대규모 데이터셋에서도 활용 가능합니다.
– 목적: Z-Score와 IQR은 이상치 탐지에 초점이 맞춰져 있으나, DBSCAN은 클러스터링과 이상치 탐지를 동시에 수행합니다.
이상치를 처리하는 방법을 선택할 때 데이터의 특성과 분석 목표를 고려하여 적합한 방법을 사용하는 것이 중요합니다.