데이터 전처리: 이상치 처리
ㅁ 이상치 처리
ㅇ 정의:
데이터셋에서 다른 값들과 비교해 극단적으로 벗어난 값을 탐지하고 처리하는 과정.
ㅇ 특징:
통계적 방법, 거리 기반 방법, 머신러닝 기반 방법 등 다양한 접근법이 존재하며, 데이터 분포와 특성에 따라 적절한 방법을 선택해야 함.
ㅇ 적합한 경우:
모델 학습 시 이상치가 결과에 큰 영향을 미치는 경우, 데이터 품질 향상이 필요한 경우.
ㅇ 시험 함정:
모든 이상치가 반드시 제거 대상은 아님. 도메인 지식에 따라 중요한 정보일 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “이상치 처리는 데이터 품질 향상에 기여할 수 있다.”
X: “이상치는 항상 제거해야 한다.”
================================
1. IQR
ㅇ 정의:
사분위 범위(Interquartile Range)를 이용하여 이상치를 탐지하는 방법. Q3 – Q1 값을 이용.
ㅇ 특징:
데이터의 중앙값과 사분위수를 기반으로 하여 분포의 영향을 덜 받음. 극단값에 강건함.
ㅇ 적합한 경우:
비정규분포 데이터, 극단값이 일부 존재하는 경우.
ㅇ 시험 함정:
IQR 계산 시 Q1과 Q3를 잘못 산출하면 오탐 가능. 일반적으로 Q1 – 1.5*IQR 미만, Q3 + 1.5*IQR 초과를 이상치로 판단.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “IQR은 사분위수를 이용하여 이상치를 판별한다.”
X: “IQR은 평균과 표준편차를 이용한다.”
================================
2. Z-Score
ㅇ 정의:
각 데이터가 평균으로부터 몇 표준편차 떨어져 있는지를 나타내는 값. |Z| > 임계값(보통 3)일 경우 이상치로 판단.
ㅇ 특징:
정규분포 가정하에 효과적이며, 평균과 표준편차에 민감함.
ㅇ 적합한 경우:
데이터가 대체로 정규분포를 따르는 경우.
ㅇ 시험 함정:
비정규분포 데이터에 적용하면 오탐률이 높아질 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Z-Score는 표준편차 단위로 이상치를 판단한다.”
X: “Z-Score는 사분위수를 이용한다.”
================================
3. Isolation Forest
ㅇ 정의:
트리 기반 앙상블 기법으로, 데이터를 무작위로 분할하여 이상치를 고립시키는 데 필요한 분할 횟수를 기반으로 이상치 점수를 산출.
ㅇ 특징:
고차원 데이터에도 적용 가능, 비지도 학습 기반, 대규모 데이터셋에 효율적.
ㅇ 적합한 경우:
라벨이 없는 대규모 데이터에서 이상치 탐지.
ㅇ 시험 함정:
파라미터(n_estimators, max_samples 등) 설정에 따라 성능이 크게 달라질 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Isolation Forest는 무작위 분할을 통해 이상치를 고립시킨다.”
X: “Isolation Forest는 평균과 표준편차를 이용한다.”
================================
4. LOF
ㅇ 정의:
Local Outlier Factor. 데이터 포인트의 지역 밀도(local density)를 비교하여 밀도가 낮은 점을 이상치로 판단.
ㅇ 특징:
주변 데이터 밀도 차이를 이용하므로 지역적 이상치 탐지에 강점.
ㅇ 적합한 경우:
데이터가 여러 개의 밀집 영역을 가지는 경우, 비정규분포 데이터.
ㅇ 시험 함정:
k-이웃 수 설정에 따라 결과가 민감하게 변함.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “LOF는 지역 밀도를 비교하여 이상치를 탐지한다.”
X: “LOF는 사분위수를 이용한다.”
ㅁ 추가 학습 내용
IQR과 Z-Score는 통계적 기법으로, 데이터 전처리 단계에서 빠르게 적용 가능하지만 데이터의 분포 가정을 고려해야 한다.
Isolation Forest와 LOF는 비지도 학습 기반 기법으로, 고차원 데이터나 복잡한 분포에서도 효과적이나 파라미터 튜닝이 중요하다.
시험에서는 각 방법의 가정(정규성, 분포 형태, 밀도 기반 여부)과 장단점을 비교하는 문제가 자주 출제된다.
이상치 처리 방법에는 단순 제거 외에도 변환(로그 변환, 윈저라이징)과 대체(중앙값 대체, 평균값 대체) 방법이 있다.