데이터 전처리: 결측치 처리 – 회귀/모델 기반 대체

ㅁ 결측치 처리

ㅇ 정의:
데이터셋 내에서 일부 값이 누락된 경우, 이를 통계적 기법이나 알고리즘을 통해 채우는 과정. 회귀/모델 기반 대체는 결측치를 예측 모델을 사용하여 추정하는 방법.

ㅇ 특징:
– 단순 평균/중앙값 대체보다 정확도가 높을 수 있음
– 결측치 예측을 위해 다른 변수와의 상관관계를 활용
– 회귀, 랜덤포레스트, KNN, XGBoost 등 다양한 모델 사용 가능
– 계산 비용이 크고, 과적합 위험 존재

ㅇ 적합한 경우:
– 결측치가 무작위로 발생(MCAR, MAR)하고, 다른 변수와의 관계가 뚜렷한 경우
– 데이터 손실을 최소화하고 예측 성능을 유지하고자 할 때

ㅇ 시험 함정:
– 결측치가 MNAR(비무작위 결측)인 경우 모델 기반 대체의 편향 가능성 간과
– 대체 후 데이터 분포 왜곡 가능성 무시
– 학습/검증 데이터 분리 전에 결측치 대체를 수행하는 오류

ㅇ 시험 대비 “패턴 보기” 예시:
O: “회귀 기반 결측치 대체는 다른 변수로 결측값을 예측한다.”
O: “모델 기반 대체는 단순 평균 대체보다 상관관계를 더 잘 반영한다.”
X: “모델 기반 대체는 결측치가 MNAR일 때 항상 편향이 없다.”
X: “결측치 대체는 반드시 전체 데이터셋을 합친 후 수행해야 한다.”

================================

1. 회귀/모델 기반 대체

ㅇ 정의:
결측값을 다른 변수들을 독립변수로 한 회귀분석 또는 머신러닝 모델을 통해 예측하여 채우는 방법.

ㅇ 특징:
– 선형회귀, 로지스틱회귀, 랜덤포레스트, KNN 등 다양한 알고리즘 선택 가능
– 변수 간 상관관계가 높을수록 정확한 대체 가능
– 데이터 누락 패턴을 학습하여 결측치를 예측
– 모델 학습에 추가적인 계산 자원 필요

ㅇ 적합한 경우:
– 결측치 비율이 낮거나 중간 정도이며, 예측 변수들이 충분히 존재할 때
– 데이터의 관계성을 유지해야 하는 고차원 데이터셋

ㅇ 시험 함정:
– 결측치가 있는 변수를 예측 변수로 잘못 포함시키는 경우
– 학습 데이터와 검증 데이터의 데이터 누수 발생
– 모델 과적합으로 인한 일반화 성능 저하

ㅇ 시험 대비 “패턴 보기” 예시:
O: “랜덤포레스트를 이용한 결측치 대체는 비선형 관계도 반영할 수 있다.”
O: “회귀 기반 대체는 예측 변수와 종속 변수의 관계를 이용한다.”
X: “모델 기반 대체는 변수 간 상관관계가 없을 때도 항상 정확하다.”
X: “결측치가 많은 변수는 항상 모델 기반 대체가 적합하다.”

ㅁ 추가 학습 내용

회귀/모델 기반 대체 시 다중 대체(Multiple Imputation) 개념을 함께 학습해야 한다. 다중 대체는 결측치를 단일 값이 아닌 여러 번 예측하여 불확실성을 반영하는 방법으로, 통계적 추론의 정확성을 높일 수 있다. 결측치 패턴 분석에서는 MCAR, MAR, MNAR을 구분하고 각 상황에 적합한 대체 방법 선택 기준을 숙지해야 한다. 모델 기반 대체를 적용할 때는 반드시 학습 데이터와 검증 데이터를 분리하고, 학습 데이터에서만 대체 모델을 학습한 뒤 검증 데이터에는 해당 모델을 적용하여 데이터 누수를 방지해야 한다. 또한, 모델 기반 대체 후에는 데이터 분포 변화와 예측 성능 변화를 검증하는 절차가 중요하며, 이는 시험에서 자주 언급된다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*