데이터 전처리: 결측치 처리 – KNN Imputation

ㅁ 결측치 처리

1. KNN Imputation

ㅇ 정의:
– K-최근접 이웃(K-Nearest Neighbors) 알고리즘을 활용하여 결측값을 주변 데이터 포인트들의 값으로 대체하는 기법.
– 결측치가 있는 샘플과 다른 샘플 간의 거리를 계산하여 가장 가까운 K개의 이웃을 찾고, 해당 이웃들의 평균 또는 다수결로 결측값을 채움.

ㅇ 특징:
– 데이터의 분포와 패턴을 반영하여 결측치를 대체할 수 있음.
– K 값과 거리 계산 방법(유클리드 거리, 맨해튼 거리 등)에 따라 결과가 달라짐.
– 수치형, 범주형 데이터 모두 적용 가능하나 범주형은 다수결 방식 사용.
– 계산량이 많고 데이터 크기가 클수록 처리 시간이 증가.

ㅇ 적합한 경우:
– 결측치 비율이 낮고, 데이터 간 유사성이 의미 있는 경우.
– 데이터가 비선형적 패턴을 가지거나 평균/중앙값 대체로 정보 손실이 큰 경우.

ㅇ 시험 함정:
– KNN Imputation은 결측치를 예측하는 것이므로 단순 평균 대체와 동일하다고 오답 선택 유도.
– 모든 결측치 처리에 적합하다고 생각하는 오류.
– K 값이 클수록 항상 좋은 결과를 낸다고 착각.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “KNN Imputation은 데이터 간 거리를 기반으로 결측치를 채운다.”
– O: “범주형 데이터의 경우 KNN Imputation에서 다수결 원칙을 적용할 수 있다.”
– X: “KNN Imputation은 항상 평균값으로 결측치를 대체한다.”
– X: “KNN Imputation은 데이터 크기와 무관하게 빠르게 처리된다.”

ㅁ 추가 학습 내용

KNN Imputation에서는 데이터 스케일링이 매우 중요하다. 변수 간 스케일 차이가 크면 거리 계산이 왜곡되어 잘못된 이웃이 선택될 수 있다.
K 값은 교차검증을 통해 최적값을 찾아야 하며, 결측치가 많은 경우 KNN의 성능이 저하될 수 있다.
고차원 데이터에서는 차원의 저주로 인해 거리 계산의 신뢰성이 떨어질 수 있다.
범주형 변수는 원-핫 인코딩 후 거리를 계산해야 하며, 수치형과 범주형이 섞인 혼합 데이터 유형 처리에는 Gower distance 등의 기법을 사용할 수 있다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*