데이터 전처리: 이상치 처리

ㅁ 이상치 처리

ㅇ 정의:
데이터셋에서 다른 값들과 비교해 극단적으로 벗어난 값을 탐지하고 처리하는 과정.

ㅇ 특징:
통계적 방법, 거리 기반 방법, 머신러닝 기반 방법 등 다양한 접근법이 존재하며, 데이터 분포와 특성에 따라 적절한 방법을 선택해야 함.

ㅇ 적합한 경우:
모델 학습 시 이상치가 결과에 큰 영향을 미치는 경우, 데이터 품질 향상이 필요한 경우.

ㅇ 시험 함정:
모든 이상치가 반드시 제거 대상은 아님. 도메인 지식에 따라 중요한 정보일 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “이상치 처리는 데이터 품질 향상에 기여할 수 있다.”
X: “이상치는 항상 제거해야 한다.”

================================

1. IQR

ㅇ 정의:
사분위 범위(Interquartile Range)를 이용하여 이상치를 탐지하는 방법. Q3 – Q1 값을 이용.

ㅇ 특징:
데이터의 중앙값과 사분위수를 기반으로 하여 분포의 영향을 덜 받음. 극단값에 강건함.

ㅇ 적합한 경우:
비정규분포 데이터, 극단값이 일부 존재하는 경우.

ㅇ 시험 함정:
IQR 계산 시 Q1과 Q3를 잘못 산출하면 오탐 가능. 일반적으로 Q1 – 1.5*IQR 미만, Q3 + 1.5*IQR 초과를 이상치로 판단.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “IQR은 사분위수를 이용하여 이상치를 판별한다.”
X: “IQR은 평균과 표준편차를 이용한다.”

================================

2. Z-Score

ㅇ 정의:
각 데이터가 평균으로부터 몇 표준편차 떨어져 있는지를 나타내는 값. |Z| > 임계값(보통 3)일 경우 이상치로 판단.

ㅇ 특징:
정규분포 가정하에 효과적이며, 평균과 표준편차에 민감함.

ㅇ 적합한 경우:
데이터가 대체로 정규분포를 따르는 경우.

ㅇ 시험 함정:
비정규분포 데이터에 적용하면 오탐률이 높아질 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Z-Score는 표준편차 단위로 이상치를 판단한다.”
X: “Z-Score는 사분위수를 이용한다.”

================================

3. Isolation Forest

ㅇ 정의:
트리 기반 앙상블 기법으로, 데이터를 무작위로 분할하여 이상치를 고립시키는 데 필요한 분할 횟수를 기반으로 이상치 점수를 산출.

ㅇ 특징:
고차원 데이터에도 적용 가능, 비지도 학습 기반, 대규모 데이터셋에 효율적.

ㅇ 적합한 경우:
라벨이 없는 대규모 데이터에서 이상치 탐지.

ㅇ 시험 함정:
파라미터(n_estimators, max_samples 등) 설정에 따라 성능이 크게 달라질 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Isolation Forest는 무작위 분할을 통해 이상치를 고립시킨다.”
X: “Isolation Forest는 평균과 표준편차를 이용한다.”

================================

4. LOF

ㅇ 정의:
Local Outlier Factor. 데이터 포인트의 지역 밀도(local density)를 비교하여 밀도가 낮은 점을 이상치로 판단.

ㅇ 특징:
주변 데이터 밀도 차이를 이용하므로 지역적 이상치 탐지에 강점.

ㅇ 적합한 경우:
데이터가 여러 개의 밀집 영역을 가지는 경우, 비정규분포 데이터.

ㅇ 시험 함정:
k-이웃 수 설정에 따라 결과가 민감하게 변함.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “LOF는 지역 밀도를 비교하여 이상치를 탐지한다.”
X: “LOF는 사분위수를 이용한다.”

ㅁ 추가 학습 내용

IQR과 Z-Score는 통계적 기법으로, 데이터 전처리 단계에서 빠르게 적용 가능하지만 데이터의 분포 가정을 고려해야 한다.
Isolation Forest와 LOF는 비지도 학습 기반 기법으로, 고차원 데이터나 복잡한 분포에서도 효과적이나 파라미터 튜닝이 중요하다.
시험에서는 각 방법의 가정(정규성, 분포 형태, 밀도 기반 여부)과 장단점을 비교하는 문제가 자주 출제된다.
이상치 처리 방법에는 단순 제거 외에도 변환(로그 변환, 윈저라이징)과 대체(중앙값 대체, 평균값 대체) 방법이 있다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*