이상치 탐지 기법: Hampel Filter
ㅁ 이상치 탐지 기법
ㅇ 정의:
이상치 탐지 기법은 데이터 세트 내에서 비정상적이거나 일반적인 패턴에서 벗어난 데이터를 식별하는 기법을 의미한다.
ㅇ 특징:
– 데이터의 품질을 향상시키기 위해 사용됨.
– 다양한 기법이 존재하며, 데이터 유형과 특성에 따라 적합한 방법이 다름.
– 통계적 기법, 기계 학습 기반 기법 등으로 분류 가능.
ㅇ 적합한 경우:
– 센서 데이터에서 비정상적인 측정값을 제거할 때.
– 금융 거래 데이터에서 이상 거래를 탐지할 때.
– 의료 데이터에서 비정상적인 생체 신호를 분석할 때.
ㅇ 시험 함정:
– 이상치 탐지 기법이 항상 모든 이상치를 정확히 탐지할 수 있다고 생각하는 오류.
– 이상치 제거가 반드시 데이터 분석 결과를 개선한다고 보장하지 않는 점 간과.
ㅇ 시험 대비 “패턴 보기” 예시:
O: 이상치 탐지 기법은 데이터의 품질을 높이기 위해 사용된다.
X: 이상치 탐지 기법은 항상 모든 이상치를 정확히 탐지한다.
================================
1. Hampel Filter
ㅇ 정의:
Hampel Filter는 이동 창(window)을 사용하여 데이터의 중앙값과 표준편차를 기반으로 이상치를 탐지하고 대체하는 기법이다.
ㅇ 특징:
– 중앙값과 표준편차를 계산하여 이상치를 식별.
– 데이터의 분포 가정이 필요하지 않음.
– 이동 창 크기에 따라 결과가 달라질 수 있음.
ㅇ 적합한 경우:
– 데이터가 정규분포를 따르지 않을 때.
– 노이즈가 많은 센서 데이터에서 이상치를 제거할 때.
– 데이터의 극단값이 분석 결과에 큰 영향을 미칠 때.
ㅇ 시험 함정:
– Hampel Filter가 모든 데이터 분포에서 효과적이라고 생각하는 오류.
– 이동 창 크기를 적절히 설정하지 않아 이상치 탐지가 부정확해지는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
O: Hampel Filter는 중앙값과 표준편차를 사용하여 이상치를 탐지한다.
X: Hampel Filter는 정규분포를 가정해야만 사용할 수 있다.
ㅁ 추가 학습 내용
Hampel Filter를 적용할 때 이동 창 크기 설정의 중요성은 다음과 같이 정리할 수 있습니다:
1. **이동 창 크기의 중요성**: Hampel Filter는 이동 창 내의 데이터 분포를 기반으로 이상치를 탐지하므로, 창 크기는 필터의 민감도와 정확도에 직접적인 영향을 미칩니다. 너무 작은 창 크기를 설정하면 데이터의 국소적인 변동을 과도하게 반영할 수 있고, 너무 큰 창 크기를 설정하면 데이터의 전체적인 흐름을 놓칠 수 있습니다.
2. **적절한 창 크기 선택 방법**:
– **데이터의 특성 분석**: 데이터의 주기성, 변동성, 그리고 이상치의 빈도를 고려하여 창 크기를 설정합니다. 예를 들어, 주기적인 데이터에서는 주기의 길이를 기준으로 창 크기를 결정할 수 있습니다.
– **실험적 설정**: 다양한 창 크기를 시도하여 이상치 탐지 성능(예: 정확도, 민감도)을 비교 분석합니다. 교차 검증을 활용하여 최적의 창 크기를 선택하는 것도 효과적입니다.
– **도메인 지식 활용**: 데이터가 수집된 환경이나 시스템의 특성을 반영하여 합리적인 창 크기를 설정합니다.
3. **Hampel Filter와 다른 이상치 탐지 기법 비교**:
– **Z-Score**: 평균과 표준편차를 기준으로 이상치를 탐지하며, 데이터가 정규분포를 따를 때 효과적입니다. 그러나 정규분포를 따르지 않는 데이터에서는 성능이 떨어질 수 있습니다.
– **IQR(Interquartile Range)**: 데이터의 중위값을 기준으로 이상치를 탐지하며, 정규분포를 따르지 않는 데이터에서도 비교적 안정적인 성능을 보입니다. 하지만 극단적인 이상치가 많을 경우 민감도가 낮아질 수 있습니다.
– **Hampel Filter**: 비정규분포 데이터에서도 효과적으로 작동하며, 이동 창 내에서 국소적인 이상치를 탐지하는 데 적합합니다. 특히, 시간적 연속성이 있는 데이터에서 이상치를 탐지할 때 유용합니다.
4. **Hampel Filter가 더 적합한 상황**:
– 데이터가 시간적 순서로 정렬되어 있고, 이상치가 국소적으로 발생하는 경우.
– 데이터가 정규분포를 따르지 않거나, 극단적인 이상치가 존재하는 경우.
– 이동 창을 활용하여 국소적인 이상치 탐지 및 제거가 필요한 경우.
Hampel Filter는 이상치 탐지 기법 중에서도 데이터의 특성과 목적에 따라 적절히 활용될 수 있는 강력한 도구입니다. 이를 다른 기법들과 비교하여 상황에 맞게 선택하는 능력이 시험 대비에 중요합니다.