데이터 전처리: 이상치 탐지 기법 – Hampel Filter

ㅁ 이상치 탐지 기법

ㅇ 정의:
통계적 방법을 활용하여 데이터 집합에서 평균이나 중앙값에서 크게 벗어난 값을 탐지하는 기법 중 하나로, Hampel Filter는 윈도우 내 중앙값과 중앙절대편차(MAD)를 이용하여 이상치를 판단한다.

ㅇ 특징:
– 중앙값 기반이므로 평균 기반보다 극단값에 덜 민감하다.
– 윈도우 크기와 임계값 설정에 따라 탐지 민감도가 달라진다.
– 시계열 데이터에서 이동 윈도우 방식으로 적용 가능하다.

ㅇ 적합한 경우:
– 시계열 데이터에서 순간적인 스파이크나 노이즈 제거가 필요한 경우
– 비정규분포 데이터에서 평균 기반 탐지 기법의 한계를 보완하고자 할 때

ㅇ 시험 함정:
– 평균과 표준편차를 사용하는 Z-Score 기법과 혼동하기 쉬움
– MAD 계산 시 1.4826 보정계수 적용 여부를 묻는 문제 출제 가능

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Hampel Filter는 중앙값과 중앙절대편차를 사용하여 이상치를 탐지한다.”
X: “Hampel Filter는 평균과 표준편차를 사용하여 이상치를 탐지한다.”

================================

1. Hampel Filter

ㅇ 정의:
시계열 또는 순차 데이터에서 이동 윈도우 내 중앙값과 중앙절대편차(MAD)를 기반으로 이상치를 탐지하고 대체하는 기법.

ㅇ 특징:
– 극단값에 강건(Robust)하다.
– 윈도우 크기와 임계값(Threshold)을 조정하여 탐지 민감도를 제어할 수 있다.
– 이상치로 판단된 값은 중앙값으로 대체하는 경우가 많다.

ㅇ 적합한 경우:
– 금융 시계열의 급등락 데이터 전처리
– 센서 데이터의 순간적 오류 제거

ㅇ 시험 함정:
– Z-Score나 IQR 방식과의 차이를 구분하지 못하는 경우
– MAD 계산 시 절대값의 평균이 아니라 중앙값을 사용한다는 점을 혼동

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Hampel Filter는 MAD를 이용하여 윈도우 내 이상치를 탐지한다.”
X: “Hampel Filter는 표준편차를 이용하여 이상치를 탐지한다.”

ㅁ 추가 학습 내용

Hampel Filter의 MAD는 Median(|x_i – median(x)|)로 계산한다. 정규분포를 가정할 때 표준편차와 비교 가능하게 만들기 위해 1.4826 보정계수를 곱한다. 윈도우 크기가 작을수록 이상치에 민감하게 반응하며, 윈도우 크기가 클수록 이상치 탐지율이 낮아진다. 시험에서는 Hampel Filter, Rolling Median, IQR 방식의 비교가 자주 출제되므로 각 방식의 장단점을 구분할 수 있어야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*