결측치 처리: KNN Imputer
ㅁ 결측치 처리
ㅇ 정의:
데이터셋에서 누락된 값을 처리하여 분석에 적합하도록 만드는 과정.
ㅇ 특징:
결측치가 존재하면 데이터 분석의 정확도가 떨어지므로 반드시 처리해야 함. 다양한 처리 방법이 존재하며, 데이터의 특성과 분석 목적에 따라 선택.
ㅇ 적합한 경우:
데이터셋 내 결측치가 분석 결과에 영향을 미칠 수 있는 경우.
ㅇ 시험 함정:
결측치 처리 방법을 잘못 선택하면 분석 결과가 왜곡될 수 있음. 각 방법의 장단점을 정확히 이해해야 함.
ㅇ 시험 대비 “패턴 보기” 예시:
1. 결측치 처리는 데이터 분석에서 필수적인 과정이다. (O)
2. 결측치 처리는 항상 평균값으로 대체해야 한다. (X)
================================
1. KNN Imputer
ㅇ 정의:
K-최근접 이웃(K-Nearest Neighbors) 알고리즘을 사용하여 결측치를 대체하는 방법.
ㅇ 특징:
결측값이 있는 데이터 포인트의 이웃 데이터를 기반으로 값을 추정. 연속형 데이터와 범주형 데이터 모두 처리 가능. 계산량이 많아 데이터셋이 클 경우 처리 속도가 느릴 수 있음.
ㅇ 적합한 경우:
결측치가 랜덤하게 분포되어 있고, 데이터 간의 유사성이 높은 경우.
ㅇ 시험 함정:
데이터셋 크기와 K 값 설정에 따라 결과가 달라질 수 있음. 과적합 또는 일반화 부족 문제를 유발할 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
1. KNN Imputer는 결측치를 대체하기 위해 가장 유사한 데이터 포인트를 사용하는 방법이다. (O)
2. KNN Imputer는 결측치가 없는 데이터셋에서만 사용할 수 있다. (X)
================================
1.1 거리 측정 방식
ㅇ 정의:
KNN Imputer에서 유사성을 계산하기 위해 사용하는 거리 측정 방법. 일반적으로 유클리디안 거리 또는 맨해튼 거리가 사용됨.
ㅇ 특징:
선택한 거리 측정 방식에 따라 결과가 달라질 수 있음. 데이터의 특성과 스케일에 따라 적합한 방식을 선택해야 함.
ㅇ 적합한 경우:
데이터가 고차원이고, 변수 간의 스케일 차이가 크지 않은 경우.
ㅇ 시험 함정:
거리 측정 방식을 임의로 선택하면 분석 결과가 왜곡될 수 있음. 스케일 조정이 필요할 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
1. 유클리디안 거리와 맨해튼 거리는 KNN Imputer에서 사용 가능한 거리 측정 방식이다. (O)
2. 거리 측정 방식은 데이터의 스케일과 관계없이 선택해도 무방하다. (X)
ㅁ 추가 학습 내용
KNN Imputer의 성능을 높이기 위해 다음 내용을 학습하는 것이 중요합니다:
1. **데이터 스케일링**:
– KNN Imputer는 거리를 기반으로 결측치를 대체하므로, 변수 간의 크기 차이가 클 경우 성능이 저하될 수 있습니다.
– 이를 방지하기 위해 데이터 스케일링을 먼저 수행해야 합니다.
– 정규화(Normalization): 데이터를 0과 1 사이로 변환.
– 표준화(Standardization): 데이터를 평균 0, 표준편차 1로 변환.
2. **결측치 데이터 분포 시각화**:
– 결측치가 포함된 데이터의 분포를 시각화하면 패턴을 이해하고 K 값을 설정하는 데 도움이 됩니다.
– 예를 들어, 결측치가 특정 범위에 몰려 있다면 적절한 K 값을 선택할 때 이를 고려할 수 있습니다.
3. **K 값 선택 기준**:
– K 값은 KNN Imputer에서 결측치를 대체할 때 참조할 이웃의 수를 의미합니다.
– K 값이 너무 작으면 노이즈에 민감해질 수 있고, 너무 크면 대체된 값이 평균에 가까워져 데이터의 고유한 특성이 손실될 수 있습니다.
– 적절한 K 값을 선택하기 위해 교차 검증(Cross Validation)을 활용하거나 데이터 분포를 기반으로 실험적으로 설정하는 것이 필요합니다.
4. **거리 측정 방식의 차이**:
– KNN에서 사용하는 거리 측정 방식은 유클리드 거리(Euclidean Distance), 맨해튼 거리(Manhattan Distance), 민코프스키 거리(Minkowski Distance) 등 다양합니다.
– 거리 측정 방식에 따라 이웃의 선택이 달라지므로, 데이터의 특성과 변수의 속성(연속형, 범주형 등)에 맞는 방식을 선택해야 합니다.
– 시험 대비를 위해 각 거리 측정 방식의 정의와 차이를 이해하고, 장단점 및 적합한 데이터 유형을 정리해 두는 것이 좋습니다.
위 내용을 학습하고, 시험에서 관련 질문이 나올 경우 논리적으로 답변할 수 있도록 준비하세요.