데이터 전처리: 이상치 처리 – IQR
ㅁ 이상치 처리
ㅇ 정의:
데이터셋에서 다른 값들과 비교해 극단적으로 크거나 작은 값을 식별하고 처리하는 과정.
ㅇ 특징:
– 평균, 표준편차 기반보다 분포의 왜곡에 덜 민감함
– 대표적으로 사분위 범위(IQR)를 이용한 방법이 사용됨
– 통계적 기준을 적용하여 일관성 있는 이상치 탐지 가능
ㅇ 적합한 경우:
– 수치형 데이터에서 분포가 비정규적이거나 치우침이 있는 경우
– 데이터에 명확한 상한/하한 기준이 없는 경우
ㅇ 시험 함정:
– IQR은 범주형 데이터에는 적용 불가
– 극단값이 반드시 오류 데이터는 아님 (도메인 지식 필요)
– 표준편차 기반 방법과 혼동하기 쉬움
ㅇ 시험 대비 “패턴 보기” 예시:
O: “사분위 범위를 활용하여 이상치를 탐지하는 방법은 분포에 덜 민감하다.”
X: “IQR 방법은 평균과 표준편차를 이용하여 이상치를 계산한다.”
================================
1. IQR
ㅇ 정의:
Interquartile Range(사분위 범위)는 데이터의 1사분위수(Q1)와 3사분위수(Q3) 사이의 범위를 의미하며, 이상치를 탐지하는 데 사용됨.
ㅇ 특징:
– IQR = Q3 – Q1
– 일반적으로 Q1 – 1.5×IQR 미만, Q3 + 1.5×IQR 초과 값을 이상치로 간주
– 데이터의 중앙 50% 범위에 기반하여 극단값을 판단
ㅇ 적합한 경우:
– 데이터가 비정규분포를 따르고, 평균/표준편차 기반 이상치 검출이 부적절한 경우
– 소규모 데이터셋에서도 안정적인 이상치 탐지가 필요한 경우
ㅇ 시험 함정:
– 1.5×IQR 규칙은 경험적 기준이며, 모든 상황에 절대적인 것은 아님
– Q1, Q3 계산 시 데이터 정렬이 필요함을 간과하기 쉬움
– IQR은 데이터의 중앙부 분포만 반영하므로 양쪽 꼬리 분포가 긴 경우 주의 필요
ㅇ 시험 대비 “패턴 보기” 예시:
O: “IQR은 Q3와 Q1의 차이로 계산되며, 1.5×IQR 기준으로 이상치를 판단한다.”
X: “IQR은 데이터의 평균과 표준편차를 이용하여 계산된다.”
ㅁ 추가 학습 내용
IQR 기반 이상치 처리 시 일반적으로 1.5×IQR을 사용하지만, 3×IQR을 사용하면 극단적인 이상치만 제거할 수 있다. 박스플롯에서 IQR은 Q1(25% 분위수)과 Q3(75% 분위수) 사이의 범위로 시각적으로 표현되며, Q1과 Q3는 각각 데이터의 하위 25%와 상위 25% 지점을 의미한다. IQR 계산 과정은 Q1과 Q3 산출 → IQR 계산(Q3 – Q1) → 경계값 설정(Q1 – k×IQR, Q3 + k×IQR) → 이상치 판정 순서로 진행된다. 시험에서는 이 계산 절차나 표준편차 기반 방법과의 장단점 비교가 자주 출제된다.