이상치 처리: IQR

ㅁ 이상치 처리

ㅇ 정의:
데이터셋에서 다른 관측값과 극단적으로 차이가 나는 값을 식별하고 처리하는 과정.

ㅇ 특징:
– 이상치는 데이터 분석 및 모델링 결과에 큰 영향을 미칠 수 있음.
– 이상치를 처리하지 않으면 분석 결과가 왜곡될 가능성이 높음.
– 처리 방법으로는 제거, 대체, 변환 등이 있음.

ㅇ 적합한 경우:
– 데이터 분포가 비정상적으로 치우친 경우.
– 특정 값이 전체 데이터의 패턴과 동떨어져 있는 경우.

ㅇ 시험 함정:
– 이상치를 무조건 제거하는 것이 항상 최선의 방법은 아님.
– 이상치가 실제로 중요한 정보를 포함하고 있는지 여부를 간과할 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
1. 이상치는 분석 전 반드시 제거해야 한다. (X)
2. 이상치 처리 방법으로는 제거, 대체, 변환 등이 있다. (O)

================================

1. IQR

ㅇ 정의:
사분위수 범위(Interquartile Range)로, 데이터의 1사분위수(Q1)와 3사분위수(Q3) 간의 차이를 의미.

ㅇ 특징:
– IQR은 데이터의 중간 50% 범위를 나타냄.
– 이상치를 탐지하는 데 사용되며, 일반적으로 Q1 – 1.5*IQR 이하 또는 Q3 + 1.5*IQR 이상을 이상치로 간주.
– 데이터 분포의 특성을 파악하는 데 유용함.

ㅇ 적합한 경우:
– 데이터가 비정규분포를 따르는 경우.
– 평균과 표준편차가 이상치에 민감한 경우.

ㅇ 시험 함정:
– IQR은 정규분포 데이터에서만 사용할 수 있다는 오해.
– 모든 이상치가 반드시 제거 대상이라는 고정관념.

ㅇ 시험 대비 “패턴 보기” 예시:
1. IQR은 데이터의 평균값을 기준으로 계산된다. (X)
2. IQR은 데이터의 중간 50% 범위를 나타낸다. (O)

ㅁ 추가 학습 내용

1. IQR을 활용한 이상치 처리의 구체적인 예시:
– 특정 데이터셋에서 IQR을 활용해 이상치를 탐지하는 과정을 다음과 같이 설명할 수 있습니다.
1. 데이터셋을 준비하고 정렬합니다.
2. Q1(1사분위수)와 Q3(3사분위수)를 계산합니다. 예를 들어, 데이터셋이 [10, 12, 15, 18, 20, 22, 25]라면 Q1은 12, Q3는 22입니다.
3. IQR을 계산합니다. IQR = Q3 – Q1이므로, 위 데이터셋에서 IQR = 22 – 12 = 10입니다.
4. 이상치 탐지 기준을 설정합니다. 일반적으로 하한값은 Q1 – 1.5 * IQR, 상한값은 Q3 + 1.5 * IQR로 계산합니다. 위 데이터셋에서는 하한값 = 12 – 1.5 * 10 = -3, 상한값 = 22 + 1.5 * 10 = 37입니다.
5. 데이터셋에서 하한값 미만 또는 상한값 초과인 값을 이상치로 간주합니다. 위 데이터셋에서는 모든 값이 -3과 37 사이에 있으므로 이상치가 없습니다.

2. IQR 외의 이상치 처리 방법 비교:
– Z-Score:
– 정의: 각 데이터 포인트가 평균에서 얼마나 떨어져 있는지를 표준편차로 나눈 값.
– 이상치 기준: Z-Score가 일반적으로 ±3을 초과하면 이상치로 간주.
– 장점: 데이터가 정규분포를 따를 경우 효과적이며 계산이 간단함.
– 단점: 정규분포를 따르지 않는 데이터에는 부적합할 수 있음.
– MAD(Median Absolute Deviation):
– 정의: 중앙값에서 각 데이터 포인트의 절대 편차를 계산하고, 그 편차의 중앙값을 사용.
– 이상치 기준: 일반적으로 MAD의 3배를 초과하는 값을 이상치로 간주.
– 장점: 중앙값을 기준으로 계산하므로 비정규분포 데이터에 강건함.
– 단점: 계산이 다소 복잡할 수 있음.

3. IQR을 활용한 이상치 탐지의 장단점:
– 장점:
– 데이터의 분포에 대한 사전 가정이 필요하지 않아 다양한 데이터셋에 적용 가능.
– 계산이 비교적 간단하며 직관적.
– 극단값에 민감하지 않아 비정규분포 데이터에도 적합.
– 단점:
– 데이터가 매우 적거나 분포가 고르게 퍼져 있지 않을 경우 효과적이지 않을 수 있음.
– 이상치 탐지 기준(1.5 * IQR)이 고정적이므로 특정 데이터셋에서는 유연성이 부족할 수 있음.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*