데이터 전처리: 결측치 처리
ㅁ 결측치 처리
ㅇ 정의:
데이터셋에서 누락된 값(결측치)을 적절한 방법으로 대체하거나 제거하여 분석의 정확성과 신뢰성을 높이는 과정.
ㅇ 특징:
– 결측치 유형(MCAR, MAR, MNAR)에 따라 처리 방법이 달라짐
– 단순 제거, 단일 대체, 다중 대체 등 다양한 기법 존재
– 잘못된 처리 시 편향(Bias)과 분산(Variance) 문제 발생
ㅇ 적합한 경우:
– 데이터 분석, 모델 학습 전에 데이터의 완전성을 확보해야 하는 경우
– 결측치 비율이 높지 않고, 패턴이 분석 가능한 경우
ㅇ 시험 함정:
– 결측치 처리 방법의 전제 조건을 무시한 선택
– 단순 평균 대체와 다중 대체 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: “MAR 조건에서 MICE를 적용하는 것은 타당하다.”
X: “MNAR 상황에서도 MICE는 항상 정확한 결과를 보장한다.”
================================
1. 다중 대체법(MICE)
ㅇ 정의:
결측치를 여러 번 대체하여 여러 개의 완전한 데이터셋을 생성하고, 각 데이터셋의 분석 결과를 결합하는 방식.
ㅇ 특징:
– MICE(Multivariate Imputation by Chained Equations) 알고리즘 사용
– 변수 간 상관관계를 고려하여 순차적으로 결측치를 예측
– 대체 과정의 불확실성을 반영 가능
ㅇ 적합한 경우:
– 결측치가 MAR(조건부 무작위 결측)일 때
– 변수 간 관계가 명확하고 다변량 분석이 필요한 경우
ㅇ 시험 함정:
– MCAR, MAR, MNAR 구분 없이 적용
– 단일 대체법과 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: “MICE는 각 변수의 결측치를 다른 변수로 예측한다.”
X: “MICE는 모든 결측치에 동일한 평균값을 넣는다.”
================================
2. KNN Imputation
ㅇ 정의:
결측치가 있는 샘플과 가장 가까운 K개의 이웃 데이터를 찾아, 그들의 값을 평균 또는 가중 평균하여 결측치를 대체하는 방법.
ㅇ 특징:
– 거리 기반(유클리드, 맨해튼 등) 유사도 활용
– 데이터의 국소적 패턴 반영
– K 값 및 거리 척도 선택이 결과에 큰 영향
ㅇ 적합한 경우:
– 결측치가 적고, 데이터 특성이 수치형이며 유사도 계산이 의미 있는 경우
– 데이터의 분포가 균등하지 않은 경우에도 적용 가능
ㅇ 시험 함정:
– 범주형 데이터에 거리 계산을 그대로 적용
– K 값이 너무 작거나 커서 과적합 또는 과소적합 발생
ㅇ 시험 대비 “패턴 보기” 예시:
O: “KNN Imputation은 국소적 데이터 패턴을 반영한다.”
X: “KNN Imputation은 변수 간 상관관계를 고려하지 않는다.”
================================
3. Interpolation 기법
ㅇ 정의:
기존 데이터 포인트를 기반으로 결측치 위치의 값을 수학적으로 추정하는 방법.
ㅇ 특징:
– 선형, 다항식, 스플라인 보간 등 다양한 수학적 모델 사용
– 시간/순서가 있는 시계열 데이터에 효과적
– 외삽(Extrapolation) 시 오차가 커질 수 있음
ㅇ 적합한 경우:
– 시계열 데이터의 일부 값이 누락된 경우
– 데이터가 일정한 패턴이나 추세를 가질 때
ㅇ 시험 함정:
– 불규칙한 결측 구간에 단순 선형 보간 적용
– 시계열이 아닌 데이터에 무리하게 적용
ㅇ 시험 대비 “패턴 보기” 예시:
O: “선형 보간은 두 인접 값 사이를 직선으로 연결한다.”
X: “보간법은 항상 외삽보다 정확하다.”
================================
4. EM 알고리즘
ㅇ 정의:
결측 데이터를 포함한 확률 모델의 모수를 최대우도 추정(MLE)하는 반복적 알고리즘.
ㅇ 특징:
– E-step(기대값 계산)과 M-step(모수 추정)을 반복
– 결측치 처리뿐 아니라 혼합모델 파라미터 추정에도 사용
– 초기값에 민감하며 지역 최적해에 수렴 가능
ㅇ 적합한 경우:
– 데이터가 통계적 분포를 따르고, 결측치가 모델 기반으로 예측 가능한 경우
– 혼합분포, 잠재변수 모델에서 결측치가 있는 경우
ㅇ 시험 함정:
– EM 알고리즘이 항상 전역 최적해를 찾는다고 착각
– 결측치 비율이 매우 높아도 성능이 유지된다고 오해
ㅇ 시험 대비 “패턴 보기” 예시:
O: “EM 알고리즘은 E-step과 M-step을 번갈아 수행한다.”
X: “EM 알고리즘은 초기값과 무관하게 항상 동일한 결과를 낸다.”
ㅁ 추가 학습 내용
추가 학습 정리
1. 결측치 유형과 처리 방법
– MCAR (Missing Completely At Random): 결측 발생이 완전히 무작위. 데이터의 다른 변수와 무관. 처리 방법: 단순 삭제, 평균/중앙값 대체, 단순 보간 가능.
– MAR (Missing At Random): 결측 발생이 관측된 다른 변수와 관련. 처리 방법: 회귀 대체, 다중 대체(MICE) 등.
– MNAR (Missing Not At Random): 결측 발생이 관측되지 않은 값 자체와 관련. 처리 방법: 결측 메커니즘 모델링, 민감도 분석 필요.
2. MICE(다중 대체법) – 체인드 방정식 절차
– 초기값으로 결측치 임시 대체
– 각 변수의 결측치를 다른 변수로부터 회귀 예측하여 갱신
– 모든 변수에 대해 순차적으로 반복(체인 방식)
– 충분한 반복 후 다중 세트 생성
– 각 세트로 분석 후 결과를 결합
3. KNN Imputation 범주형 처리
– 범주형 변수: K개의 최근접 이웃에서 최빈값으로 대체
– 거리 계산 시 범주형 변수는 원-핫 인코딩 또는 적절한 유사도 척도로 변환
– 수치형 변수는 스케일링(표준화/정규화) 후 거리 계산 필요
4. Interpolation과 시계열 특성 반영
– 계절성과 추세가 있는 시계열: STL 분해 후 각 성분별 보간, 또는 ARIMA/ETS 기반 보간
– 단순 선형 보간은 계절성 반영 불가, 주기성 있는 경우 주기적 보간법 적용
5. EM 알고리즘
– 수렴 조건: 로그 가능도 변화가 기준 이하일 때, 혹은 파라미터 변화량이 작을 때
– 초기값 설정: 랜덤 초기화, K-means 기반 초기값 등
– 지역 최적해 회피: 여러 초기값으로 반복 실행, 최적 결과 선택
6. 각 기법 장단점 비교
– 단순 대체: 빠르고 간단 / 변동성 과소추정 위험
– KNN: 비선형 관계 반영 가능 / 계산량 많음, 고차원에서 성능 저하
– MICE: 변수 간 관계 잘 반영 / 구현 복잡, 계산 비용 높음
– Interpolation: 시계열 적합 / 비시계열 데이터에 부적합
– EM: 통계적 기반 탄탄 / 초기값 민감, 계산량 큼
7. 결측치 비율별 추천 전략
– 5% 미만: 단순 대체 가능
– 5~20%: MICE, KNN 등 고급 기법 고려
– 20% 이상: 결측 메커니즘 분석 후 모델링, 변수 제거 가능성 검토
8. 시험 대비 실습 포인트
– 결측치 처리 전후 모델 성능 비교: 정확도, RMSE 등 지표 변화 확인
– 처리 방법별 결과 해석 가능해야 함
시험 대비 체크리스트
[ ] MCAR, MAR, MNAR 정의와 구분 기준 암기
[ ] 각 유형에 맞는 처리 방법 숙지
[ ] MICE 절차와 반복 구조 설명 가능
[ ] KNN Imputation에서 범주형 처리 방법과 스케일링 이유 이해
[ ] 시계열 보간 시 계절성과 추세 반영 방법 숙지
[ ] EM 알고리즘 수렴 조건과 초기값 전략 설명 가능
[ ] 각 결측치 처리 기법의 장단점 비교 가능
[ ] 결측치 비율별 처리 전략 제시 가능
[ ] 결측치 처리 전후 성능 비교 실습 경험 보유