데이터 전처리: 결측치 처리 – KNN Imputer
ㅁ 결측치 처리
ㅇ 정의:
데이터셋 내에서 일부 관측값이 누락된 경우, 이를 보완하여 분석이나 모델링에 사용할 수 있도록 만드는 과정.
ㅇ 특징:
– 결측치는 분석 결과의 왜곡을 초래할 수 있음.
– 처리 방법에는 삭제, 대체, 예측 기반 대체 등이 있음.
– 데이터 특성과 결측 패턴에 따라 적합한 방법을 선택해야 함.
ㅇ 적합한 경우:
– 결측치 비율이 낮거나, 결측치가 특정 패턴 없이 무작위로 발생할 때.
ㅇ 시험 함정:
– 모든 결측치를 무조건 평균으로 대체하는 것은 적절하지 않음.
– 결측치 처리 방법 선택 시 데이터 분포와 변수 간 관계를 고려해야 함.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “결측치가 무작위로 발생하면 평균 대체가 가능하다.”
X: “결측치는 항상 평균으로 대체하는 것이 최선이다.”
================================
1. KNN Imputer
ㅇ 정의:
결측치가 있는 샘플의 K개의 가장 가까운 이웃을 찾아, 해당 이웃들의 값으로 결측치를 대체하는 방법.
ㅇ 특징:
– 거리 기반으로 유사한 샘플을 탐색.
– 수치형 변수에 주로 사용되며, 범주형 변수에도 변형 적용 가능.
– 결측치가 많은 경우 계산량이 증가.
– 데이터의 스케일에 민감하므로 표준화/정규화가 필요할 수 있음.
ㅇ 적합한 경우:
– 변수 간 상관관계가 높고, 데이터 패턴이 명확한 경우.
– 결측치가 무작위(MCAR) 또는 조건부 무작위(MAR)로 발생하는 경우.
ㅇ 시험 함정:
– K 값이 너무 작으면 노이즈에 민감, 너무 크면 평균화로 변별력 감소.
– 거리 계산 시 결측치가 있는 다른 변수는 제외되므로, 데이터 손실 가능성 존재.
– 범주형 데이터에 직접 적용 시 부정확한 결과 가능.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “KNN Imputer는 결측치 대체 시 데이터 간 거리 계산을 활용한다.”
X: “KNN Imputer는 결측치가 있는 경우 무조건 평균값으로 채운다.”
ㅁ 추가 학습 내용
KNN Imputer 사용 시 거리 계산 방식(유클리드 거리, 맨해튼 거리 등)을 정확히 이해해야 하며, 변수 간 스케일 차이가 큰 경우 표준화 또는 정규화를 반드시 선행해야 한다. K 값은 교차 검증을 통해 최적화하는 것이 바람직하다. 시험에서는 결측 메커니즘인 MCAR(무작위 결측), MAR(조건부 무작위 결측), MNAR(비무작위 결측)의 정의와 차이를 함께 물을 수 있으며, KNN Imputer는 MNAR 상황에서는 적합하지 않다는 점이 중요한 출제 포인트가 될 수 있다. 또한 고차원 데이터에서는 차원의 저주로 인해 KNN Imputer의 성능이 저하될 수 있으며, 이를 완화하기 위해 PCA 등 차원 축소 기법을 적용할 수 있다는 점도 이해해야 한다.