데이터 전처리: 결측치 처리

ㅁ 결측치 처리

ㅇ 정의:
데이터셋에서 일부 관측값이 누락된 경우 이를 처리하는 기법으로, 분석의 왜곡을 방지하고 모델의 성능을 유지하기 위해 수행됨.

ㅇ 특징:
결측치의 패턴(MCAR, MAR, MNAR)에 따라 적절한 처리 방법을 선택해야 하며, 잘못 처리하면 편향(bias) 발생 가능.

ㅇ 적합한 경우:
데이터 분석, 머신러닝 모델 학습 전에 데이터 품질을 확보해야 할 때.

ㅇ 시험 함정:
결측치가 많을수록 단순 삭제는 정보 손실이 크고, 대체 시 분산이 왜곡될 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “결측치가 전체 데이터의 1% 미만이면 단순 삭제가 적합할 수 있다.”
X: “결측치는 항상 평균으로 대체하는 것이 최선이다.”

================================

1. 삭제

ㅇ 정의:
결측치가 포함된 행(row) 또는 열(column)을 제거하는 방법.

ㅇ 특징:
구현이 간단하고 결측치 비율이 낮을 때 유용하지만, 데이터 손실이 발생.

ㅇ 적합한 경우:
결측치 비율이 매우 낮고 해당 데이터가 필수적이지 않을 때.

ㅇ 시험 함정:
결측치가 특정 패턴을 가질 경우 삭제 시 표본 편향 발생.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “결측치가 0.5% 이하일 경우 삭제가 데이터 품질에 큰 영향을 주지 않을 수 있다.”
X: “결측치가 10% 이하이면 항상 삭제하는 것이 좋다.”

================================

2. 평균/중앙값 대체

ㅇ 정의:
수치형 데이터의 결측치를 해당 열의 평균값 또는 중앙값으로 대체하는 방법.

ㅇ 특징:
평균 대체는 이상치에 민감, 중앙값 대체는 이상치에 강건.

ㅇ 적합한 경우:
데이터가 정규분포에 가깝거나, 이상치가 많은 경우 중앙값 사용.

ㅇ 시험 함정:
평균 대체 시 분산이 감소하며, 데이터의 변동성을 왜곡할 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “이상치가 많은 경우 중앙값 대체가 평균 대체보다 적합하다.”
X: “평균 대체는 이상치에 강건하다.”

================================

3. 회귀/모델 기반 대체

ㅇ 정의:
다른 변수들을 사용하여 결측값을 예측하는 회귀모델이나 머신러닝 모델을 활용하는 방법.

ㅇ 특징:
변수 간 상관관계를 활용하여 더 정교한 대체 가능, 하지만 모델 복잡도가 증가하고 과적합 위험.

ㅇ 적합한 경우:
변수 간 상관관계가 높고 결측치 비율이 높을 때.

ㅇ 시험 함정:
학습 데이터와 테스트 데이터의 결측치 패턴이 다르면 성능 저하.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “모델 기반 대체는 변수 간 상관관계를 활용한다.”
X: “모델 기반 대체는 항상 평균 대체보다 빠르다.”

================================

4. KNN Imputer

ㅇ 정의:
결측치가 있는 샘플에 대해 가장 가까운 K개의 이웃 데이터를 찾아 평균 또는 중앙값으로 대체하는 방법.

ㅇ 특징:
데이터의 지역적 패턴을 반영하지만, 계산량이 많고 K 값 선택이 중요.

ㅇ 적합한 경우:
데이터셋 크기가 크지 않고, 결측치가 랜덤하게 분포하며, 변수 간 거리 기반 유사성이 의미 있을 때.

ㅇ 시험 함정:
스케일 차이가 큰 변수는 거리 계산에 왜곡을 주므로 표준화 필요.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “KNN Imputer는 거리 계산 전 표준화가 필요할 수 있다.”
X: “KNN Imputer는 항상 중앙값을 사용한다.”

ㅁ 추가 학습 내용

결측치 유형 정의 및 구분 기준
1. MCAR (Missing Completely At Random, 완전 무작위 결측)
– 결측치 발생이 다른 변수나 관측값과 전혀 관련이 없음
– 결측 발생 확률이 모든 데이터에서 동일
– 분석 결과에 편향을 주지 않음
2. MAR (Missing At Random, 무작위 결측)
– 결측 발생이 관측된 다른 변수와는 관련이 있지만, 결측된 값 자체와는 무관
– 적절한 보정이나 대체를 통해 편향을 줄일 수 있음
3. MNAR (Missing Not At Random, 비무작위 결측)
– 결측 발생이 결측된 값 자체와 관련 있음
– 단순한 대체로는 편향 제거가 어려움
– 추가적인 가정이나 모델링이 필요

범주형 결측치 처리 방법
– 최빈값 대체: 해당 변수에서 가장 많이 나타나는 범주로 결측치를 대체
– 새로운 범주 추가: ‘결측’이라는 별도의 범주를 만들어 결측값을 분류

다변량 대체 방법
– MICE (Multiple Imputation by Chained Equations)
– 변수별로 결측치를 순차적으로 예측하고 대체
– 여러 번의 대체를 통해 불확실성을 반영
– 각 대체 데이터셋으로 분석 후 결과를 종합

결측치 처리 전후 데이터 분포 비교 및 영향 분석 절차
1. 결측치 처리 전 데이터의 변수별 분포 확인
2. 결측치 처리 후 동일 변수의 분포 재확인
3. 평균, 분산, 범위 등 기술통계량 비교
4. 시각화(히스토그램, 박스플롯 등)를 통한 변화 확인
5. 주요 분석 결과(회귀계수, 예측 정확도 등)의 변화 평가
6. 결측치 처리 방법에 따른 결과 차이 및 해석 가능성 검토

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*