데이터 전처리: 결측치 처리 – 회귀/모델 기반 대체
ㅁ 결측치 처리
ㅇ 정의:
데이터셋 내에서 일부 값이 누락된 경우, 이를 통계적 기법이나 알고리즘을 통해 채우는 과정. 회귀/모델 기반 대체는 결측치를 예측 모델을 사용하여 추정하는 방법.
ㅇ 특징:
– 단순 평균/중앙값 대체보다 정확도가 높을 수 있음
– 결측치 예측을 위해 다른 변수와의 상관관계를 활용
– 회귀, 랜덤포레스트, KNN, XGBoost 등 다양한 모델 사용 가능
– 계산 비용이 크고, 과적합 위험 존재
ㅇ 적합한 경우:
– 결측치가 무작위로 발생(MCAR, MAR)하고, 다른 변수와의 관계가 뚜렷한 경우
– 데이터 손실을 최소화하고 예측 성능을 유지하고자 할 때
ㅇ 시험 함정:
– 결측치가 MNAR(비무작위 결측)인 경우 모델 기반 대체의 편향 가능성 간과
– 대체 후 데이터 분포 왜곡 가능성 무시
– 학습/검증 데이터 분리 전에 결측치 대체를 수행하는 오류
ㅇ 시험 대비 “패턴 보기” 예시:
O: “회귀 기반 결측치 대체는 다른 변수로 결측값을 예측한다.”
O: “모델 기반 대체는 단순 평균 대체보다 상관관계를 더 잘 반영한다.”
X: “모델 기반 대체는 결측치가 MNAR일 때 항상 편향이 없다.”
X: “결측치 대체는 반드시 전체 데이터셋을 합친 후 수행해야 한다.”
================================
1. 회귀/모델 기반 대체
ㅇ 정의:
결측값을 다른 변수들을 독립변수로 한 회귀분석 또는 머신러닝 모델을 통해 예측하여 채우는 방법.
ㅇ 특징:
– 선형회귀, 로지스틱회귀, 랜덤포레스트, KNN 등 다양한 알고리즘 선택 가능
– 변수 간 상관관계가 높을수록 정확한 대체 가능
– 데이터 누락 패턴을 학습하여 결측치를 예측
– 모델 학습에 추가적인 계산 자원 필요
ㅇ 적합한 경우:
– 결측치 비율이 낮거나 중간 정도이며, 예측 변수들이 충분히 존재할 때
– 데이터의 관계성을 유지해야 하는 고차원 데이터셋
ㅇ 시험 함정:
– 결측치가 있는 변수를 예측 변수로 잘못 포함시키는 경우
– 학습 데이터와 검증 데이터의 데이터 누수 발생
– 모델 과적합으로 인한 일반화 성능 저하
ㅇ 시험 대비 “패턴 보기” 예시:
O: “랜덤포레스트를 이용한 결측치 대체는 비선형 관계도 반영할 수 있다.”
O: “회귀 기반 대체는 예측 변수와 종속 변수의 관계를 이용한다.”
X: “모델 기반 대체는 변수 간 상관관계가 없을 때도 항상 정확하다.”
X: “결측치가 많은 변수는 항상 모델 기반 대체가 적합하다.”
ㅁ 추가 학습 내용
회귀/모델 기반 대체 시 다중 대체(Multiple Imputation) 개념을 함께 학습해야 한다. 다중 대체는 결측치를 단일 값이 아닌 여러 번 예측하여 불확실성을 반영하는 방법으로, 통계적 추론의 정확성을 높일 수 있다. 결측치 패턴 분석에서는 MCAR, MAR, MNAR을 구분하고 각 상황에 적합한 대체 방법 선택 기준을 숙지해야 한다. 모델 기반 대체를 적용할 때는 반드시 학습 데이터와 검증 데이터를 분리하고, 학습 데이터에서만 대체 모델을 학습한 뒤 검증 데이터에는 해당 모델을 적용하여 데이터 누수를 방지해야 한다. 또한, 모델 기반 대체 후에는 데이터 분포 변화와 예측 성능 변화를 검증하는 절차가 중요하며, 이는 시험에서 자주 언급된다.