데이터 전처리: 이상치 처리 – Z-Score
ㅁ 이상치 처리
ㅇ 정의:
데이터셋에서 다른 값들과 비교하여 현저히 벗어난 값을 식별하고 처리하는 과정으로, 분석 결과의 왜곡을 방지하기 위함.
ㅇ 특징:
– 통계적 방법, 시각화, 규칙 기반 탐지 등 다양한 기법 사용
– 처리 방식은 제거, 대체, 변환 등으로 나뉨
– 도메인 지식과 결합하여 판단 필요
ㅇ 적합한 경우:
– 센서 오류, 입력 실수, 극단적 사건 등으로 인해 데이터가 왜곡될 가능성이 있는 경우
– 예측 모델에서 극단값이 과도한 영향을 미치는 경우
ㅇ 시험 함정:
– 모든 극단값이 반드시 이상치가 아님 (예: 실제 극단적 사건 데이터)
– 이상치 제거가 항상 성능 향상으로 이어지지 않음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Z-Score가 3을 초과하면 이상치로 간주할 수 있다.”
X: “Z-Score 방법은 범주형 데이터 이상치 탐지에 적합하다.”
================================
1. Z-Score
ㅇ 정의:
각 데이터 값이 평균으로부터 몇 표준편차 떨어져 있는지를 나타내는 통계량. 이상치 탐지 시, 특정 임계값(예: ±3)을 기준으로 판단.
ㅇ 특징:
– 평균과 표준편차를 활용하여 데이터의 상대적 위치를 계산
– 정규분포 가정 하에서 효과적
– 계산식: Z = (x – 평균) / 표준편차
ㅇ 적합한 경우:
– 데이터가 정규분포를 따르거나 근사할 때
– 연속형 변수의 이상치 탐지 시
ㅇ 시험 함정:
– 비정규분포 데이터에 적용 시 오탐 가능성 높음
– 표본 크기가 작을 경우 평균과 표준편차가 왜곡될 수 있음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Z-Score 절대값이 3을 넘으면 이상치로 판단하는 것이 일반적이다.”
X: “Z-Score는 중앙값과 사분위수를 기반으로 계산된다.”
ㅁ 추가 학습 내용
Z-Score 방법은 데이터가 정규분포를 따른다는 가정이 중요한 전제 조건이다. 시험에서는 이 전제를 직접 묻거나 정규성 검정 방법(Shapiro-Wilk, Kolmogorov-Smirnov 등)과 연계해 출제될 수 있다.
표준화(Standardization)와 Z-Score의 차이점을 구분하는 문제가 나올 수 있으며, IQR(Interquartile Range) 방법과 비교하여 각각의 장단점을 묻는 유형도 자주 등장한다.
실무에서는 ±2, ±2.5, ±3 등 임계값을 상황에 따라 다르게 설정하며, 표본이 작거나 분포가 치우친 경우에는 중앙값과 MAD를 사용하는 Robust Z-Score를 활용하는 방법도 알아두어야 한다.