이상치 탐지 기법: Mahalanobis Distance
ㅁ 이상치 탐지 기법
ㅇ 정의:
데이터셋 내에서 정상적인 데이터와 동떨어진 데이터를 식별하기 위한 방법론의 집합.
ㅇ 특징:
– 데이터의 분포와 특성을 기반으로 비정상적인 데이터를 탐지.
– 다양한 통계적, 기계 학습 기반 방법을 포함.
ㅇ 적합한 경우:
– 데이터 분석 전 이상치 제거가 필요한 경우.
– 모델 학습 전에 데이터 품질을 높이고자 할 때.
ㅇ 시험 함정:
– 이상치 탐지 기법의 선택 기준을 묻는 질문에서 데이터 특성에 맞지 않는 기법을 선택하도록 유도.
– 탐지 기법의 장단점을 혼동하게 하는 문제 출제.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “이상치 탐지 기법은 데이터의 특성에 따라 다르게 적용된다.”
– X: “이상치 탐지 기법은 모든 데이터셋에 동일하게 적용된다.”
================================
1. Mahalanobis Distance
ㅇ 정의:
Mahalanobis Distance는 데이터 포인트와 평균 간의 다차원 거리로, 공분산을 고려하여 이상치를 탐지하는 기법.
ㅇ 특징:
– 데이터의 분산과 공분산을 반영하여 거리 계산.
– 변수 간 상관관계를 고려하여 이상치 식별에 효과적.
ㅇ 적합한 경우:
– 다변량 정규분포를 가정할 수 있는 데이터셋.
– 변수 간 상관관계가 강한 데이터.
ㅇ 시험 함정:
– Mahalanobis Distance가 모든 데이터셋에 적합하다는 잘못된 가정을 유도.
– 공분산 행렬 계산의 중요성을 간과하게 만드는 문제 출제.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Mahalanobis Distance는 변수 간 상관관계를 고려하여 이상치를 탐지한다.”
– X: “Mahalanobis Distance는 변수 간 상관관계가 없는 데이터셋에 적합하다.”
================================
ㅁ 추가 학습 내용
Mahalanobis Distance는 데이터 간의 거리를 계산하는 방법으로, 데이터의 분포를 고려하여 측정합니다. 이를 계산하기 위해 다음의 주요 과정을 이해해야 합니다:
1. **계산 과정**:
– Mahalanobis Distance는 특정 점 x와 데이터 집단의 평균 μ 간의 거리를 공분산 행렬을 사용하여 측정합니다.
– 계산 공식은 다음과 같습니다:
D² = (x – μ)ᵀ * Σ⁻¹ * (x – μ)
여기서 x는 관측값, μ는 데이터 집단의 평균 벡터, Σ는 데이터 집단의 공분산 행렬입니다.
2. **공분산 행렬의 역할**:
– 공분산 행렬은 데이터의 분산과 변수 간의 상관관계를 나타냅니다.
– Mahalanobis Distance는 공분산 행렬을 통해 데이터의 방향성과 스케일을 반영하여 거리 계산을 수행합니다.
– 공분산 행렬이 비가역적(역행렬을 구할 수 없는 상태)이면 Mahalanobis Distance를 계산할 수 없습니다. 이는 공분산 행렬이 퇴화하거나 데이터 차원보다 샘플 수가 적은 경우 발생할 수 있습니다.
3. **Mahalanobis Distance와 유사한 기법 비교**:
– **Z-Score**: 데이터의 평균과 표준편차를 사용하여 데이터의 상대적 위치를 계산하며, 각 변수별로 독립적으로 계산됩니다. Mahalanobis Distance는 데이터의 다변량 관계를 고려한다는 점에서 Z-Score와 차이가 있습니다.
– **IQR (Interquartile Range)**: 데이터의 중간 50% 범위를 측정하며, 이상치 탐지에 자주 사용됩니다. Mahalanobis Distance는 데이터의 분포와 공분산을 반영하여 더 정교하게 이상치를 탐지할 수 있습니다.
시험 대비로는 공분산 행렬이 비가역적인 상황에서 Mahalanobis Distance를 사용할 수 없는 이유를 명확히 이해하고, 이를 설명하거나 대체 방법을 제안하는 문제를 연습하는 것이 중요합니다.