데이터 전처리: 결측치 처리 – 다중 대체법(MICE)
ㅁ 결측치 처리
ㅇ 정의:
데이터셋 내에서 일부 관측값이 누락된 경우, 해당 결측값을 여러 번 대체하여 불확실성을 반영하는 통계적 방법. MICE(Multivariate Imputation by Chained Equations)는 변수별 회귀모형을 순차적으로 적용하여 결측값을 반복적으로 예측·대체함.
ㅇ 특징:
– 단일 대체법보다 결측치 대체의 불확실성을 반영 가능.
– 각 변수의 결측치를 다른 변수들과의 관계를 기반으로 예측.
– 반복(iteration)을 통해 수렴 시까지 대체값을 갱신.
– 수치형, 범주형 변수 모두 처리 가능.
ㅇ 적합한 경우:
– 결측치가 무작위로 발생(MCAR, MAR)한 경우.
– 데이터 손실이 분석 결과에 큰 영향을 미칠 가능성이 있는 경우.
– 변수 간 상관관계가 비교적 뚜렷한 데이터셋.
ㅇ 시험 함정:
– MNAR(무작위가 아닌 결측) 데이터에는 적용 시 편향 발생 가능.
– 단순 평균 대체와 혼동하는 경우.
– 반복 횟수와 대체 횟수를 혼동하여 설정하는 문제.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “MICE는 변수별 회귀모형을 이용해 결측치를 반복 대체한다.”
X: “MICE는 한 번의 대체로 결측치를 채우는 단일 대체법이다.”
ㅁ 추가 학습 내용
MICE 구현 시 주의사항
– 초기값 설정 방법: 평균, 중앙값, 랜덤 등 적절한 초기값을 선택해야 한다.
– 반복(iteration) 수와 대체(imputation) 수 설정: 충분한 반복과 대체 횟수를 설정하여 안정적인 결과를 얻는다.
– 변수별 예측 모델 선택: 각 변수 특성에 맞게 선형회귀, 로지스틱회귀 등 적합한 예측 모델을 사용한다.
– 다중 대체 후 분석: Rubin’s Rules를 사용하여 여러 대체 데이터셋의 분석 결과를 통합한다.
시험 출제 포인트
– MICE의 장점: 결측치로 인한 불확실성을 반영할 수 있다.
– MICE의 한계: MNAR(Missing Not At Random) 데이터 처리에는 어려움이 있다.
– 결측 메커니즘의 정의와 구분:
• MCAR(Missing Completely At Random)
• MAR(Missing At Random)
• MNAR(Missing Not At Random)
– 다중 대체 후 결과 통합 방법: Rubin’s Rules의 개념과 적용 방법.