데이터 전처리: 이상치 탐지 기법 – Mahalanobis Distance
ㅁ 이상치 탐지 기법
1. Mahalanobis Distance
ㅇ 정의:
다변량 데이터에서 각 관측치가 평균으로부터 얼마나 떨어져 있는지를 공분산을 고려하여 측정하는 거리 기반 이상치 탐지 기법.
ㅇ 특징:
– 변수 간 상관관계를 반영하여 거리 계산
– 차원 수가 많아도 적용 가능하지만, 공분산 행렬이 비가역이면 계산 불가
– 데이터가 다변량 정규분포를 따른다는 가정이 있음
ㅇ 적합한 경우:
– 변수 간 상관성이 높은 데이터셋
– 다변량 정규분포에 가까운 데이터
– 이상치가 평균에서 멀리 떨어져 있는 경우
ㅇ 시험 함정:
– 단변량 데이터에는 적합하지 않음
– 공분산 행렬이 특이행렬(singular)일 경우 계산 불가
– 정규성 가정이 깨지면 정확도가 떨어짐
ㅇ 시험 대비 “패턴 보기” 예시:
O: “변수 간 상관관계를 고려한 거리 측정 방법”
O: “다변량 정규분포 가정 하에서 평균으로부터의 거리를 계산”
X: “변수 간 상관관계를 무시하고 유클리드 거리로 계산”
X: “단변량 데이터에만 적용 가능”
ㅁ 추가 학습 내용
Mahalanobis Distance는 통계적 이상치 탐지에서 Hotelling의 T² 통계량과 밀접한 관련이 있으며, 임계값 설정 시 카이제곱(χ²) 분포를 활용한다. p차원 데이터의 경우 Mahalanobis Distance의 제곱값은 자유도 p인 χ² 분포를 따른다. 실제 적용 시에는 공분산 행렬 추정의 안정성을 위해 정규화, 차원 축소(PCA)와 함께 사용되는 경우가 많다. 시험에서는 공분산 행렬이 특이행렬일 경우의 대처 방법으로 정규화, Ridge 정규화, 차원 축소 기법이 출제될 수 있다.