데이터 전처리: 결측치 처리 – 평균/중앙값 대체
ㅁ 결측치 처리
ㅇ 정의:
데이터셋 내에서 누락된 값을 통계적 방법 또는 예측 기법을 사용하여 채우는 과정.
ㅇ 특징:
데이터 손실을 최소화하고 분석 모델의 성능 저하를 방지하며, 단순 대체는 계산이 빠르지만 데이터 분포 왜곡 가능성이 있음.
ㅇ 적합한 경우:
결측치 비율이 낮고, 데이터가 정규분포 또는 대칭 분포를 따르는 경우.
ㅇ 시험 함정:
결측치 비율이 높거나 데이터가 심하게 치우친 경우에도 무조건 평균 대체를 사용하는 것은 잘못된 방법.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “결측치가 적고 데이터 분포가 대칭적일 때 평균/중앙값 대체가 적합하다.”
X: “결측치가 많을수록 평균 대체가 더 효과적이다.”
================================
1. 평균/중앙값 대체
ㅇ 정의:
결측치를 해당 변수의 평균값 또는 중앙값으로 채우는 단순 대체 기법.
ㅇ 특징:
평균 대체는 계산이 간단하고 연속형 데이터에 적합, 중앙값 대체는 이상치의 영향을 줄임.
ㅇ 적합한 경우:
평균 대체는 데이터가 대칭 분포를 보이고 이상치가 적을 때, 중앙값 대체는 데이터에 이상치가 존재하거나 비대칭 분포일 때.
ㅇ 시험 함정:
범주형 데이터에 평균/중앙값 대체를 적용하는 것은 부적절하며, 분산 감소로 인해 통계적 검정 결과가 왜곡될 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “이상치가 많은 경우 중앙값 대체가 평균 대체보다 적합하다.”
X: “범주형 데이터에도 평균 대체를 적용할 수 있다.”
ㅁ 추가 학습 내용
결측치 처리 방법에는 평균 대체, 중앙값 대체 외에도 최빈값 대체, 회귀 대체, 다중 대체(MICE) 등이 있다. 결측치 패턴에 따라 적합한 방법이 달라지며, 패턴은 MCAR(완전 무작위 결측), MAR(무작위 결측), MNAR(비무작위 결측)로 구분된다. 평균 대체는 데이터의 분산을 줄이고 변수 간 상관관계를 왜곡할 수 있으므로 모델링 시 주의가 필요하다. 시험에서는 평균 대체와 중앙값 대체의 장단점 비교, 적용 조건, 데이터 분포 특성과의 관계, 이상치 존재 여부에 따른 선택 기준이 자주 출제된다.