결측치 처리: KNN Imputation
ㅁ 결측치 처리
ㅇ 정의:
데이터셋에서 누락된 값을 처리하여 분석에 적합한 상태로 만드는 과정.
ㅇ 특징:
– 결측치의 유형(무작위, 특정 패턴)을 파악하는 것이 중요함.
– 적절한 처리 방법을 선택해야 데이터 왜곡을 방지할 수 있음.
ㅇ 적합한 경우:
– 데이터 분석이나 머신러닝 모델링에 결측치가 포함된 경우.
– 결측치 비율이 높지 않고, 데이터의 주요 패턴이 유지될 수 있는 경우.
ㅇ 시험 함정:
– 결측치 처리 방법이 데이터셋의 특성에 따라 다르다는 점을 간과하는 경우.
– 모든 결측치를 동일한 방식으로 처리하려는 오류.
ㅇ 시험 대비 “패턴 보기” 예시:
1. O: 결측치가 무작위로 발생한 경우, 평균 대체법을 사용할 수 있다.
2. X: 결측치 비율이 50% 이상인 경우에도 단순 대체법이 항상 적합하다.
================================
1. KNN Imputation
ㅇ 정의:
K-최근접 이웃(K-Nearest Neighbors) 알고리즘을 사용하여 결측치를 채우는 방법.
ㅇ 특징:
– 결측값 주변의 K개의 가장 가까운 이웃 데이터를 기반으로 값 예측.
– 연속형/범주형 데이터 모두에 적용 가능.
– 데이터의 분포와 유사성을 유지하는 데 유리함.
ㅇ 적합한 경우:
– 데이터의 결측 비율이 낮고, 데이터의 패턴이 명확한 경우.
– 고차원 데이터나 군집화된 데이터에 적합.
ㅇ 시험 함정:
– K값 선택에 따라 결과가 달라질 수 있음.
– 계산 비용이 높아 대규모 데이터셋에는 부적합할 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
1. O: KNN Imputation은 데이터의 분포를 유지하는 데 유리하다.
2. X: KNN Imputation은 결측치 비율이 높은 데이터셋에서도 항상 효과적이다.
================================
ㅁ 추가 학습 내용
KNN Imputation과 관련하여 추가적으로 알아두어야 할 개념을 다음과 같이 정리할 수 있습니다.
1. K값 선택 기준:
– K값은 KNN 알고리즘에서 가장 중요한 하이퍼파라미터로, 적절한 값을 선택하는 것이 중요합니다.
– K값이 너무 작으면 모델이 과적합될 가능성이 높아져 데이터의 개별적인 특성을 지나치게 반영할 수 있습니다.
– 반대로 K값이 너무 크면 과도한 일반화가 발생하여 데이터의 세부적인 패턴이 왜곡될 수 있습니다.
– 따라서 K값은 데이터의 특성과 결측치의 분포를 고려하여 신중히 선택해야 합니다.
2. 거리 측정 방법:
– KNN Imputation에서는 데이터 간의 유사성을 측정하기 위해 거리 계산이 필수적입니다.
– 유클리드 거리(Euclidean Distance)는 가장 일반적으로 사용되지만, 데이터의 특성에 따라 다른 거리 측정 방법을 고려할 수 있습니다.
– 맨해튼 거리(Manhattan Distance)는 좌표 간의 절대 차이를 기반으로 계산하며, 일부 데이터 구조에 적합할 수 있습니다.
– 코사인 유사도(Cosine Similarity)는 벡터 간의 방향성을 기반으로 유사성을 측정하며, 특히 고차원 데이터에서 유용합니다.
– 데이터의 특성과 변수의 스케일을 고려하여 적절한 거리 측정 방법을 선택해야 합니다.
3. 결측치 비율이 높을 경우 KNN Imputation의 한계와 대안:
– KNN Imputation은 결측치 비율이 낮을 때 효과적이지만, 결측치가 많을 경우 성능이 저하될 수 있습니다.
– 결측치가 많을 경우, 이웃 데이터를 충분히 확보하지 못해 대체값의 신뢰도가 떨어질 수 있습니다.
– 이러한 상황에서는 다중 대체법(Multiple Imputation)이나 모델 기반 대체법(Model-based Imputation)과 같은 대안을 고려해야 합니다.
– 다중 대체법은 결측치를 여러 번 대체하여 불확실성을 반영하며, 모델 기반 대체법은 예측 모델을 사용하여 결측치를 대체합니다.
– 데이터의 특성과 결측치의 패턴에 따라 적절한 대체 방법을 선택하는 것이 중요합니다.