데이터 전처리: 결측치 처리
ㅁ 결측치 처리
ㅇ 정의:
데이터셋 내에서 일부 관측값이 누락된 경우, 이를 보완하거나 제거하여 분석과 모델링의 신뢰성을 높이는 과정.
ㅇ 특징:
– 결측치의 원인과 패턴(무작위/비무작위)에 따라 처리 방법 달라짐
– 단순 삭제부터 통계적·모델 기반 대체까지 다양한 기법 존재
– 처리 방식에 따라 데이터 분포와 분석 결과에 영향
ㅇ 적합한 경우:
– 분석의 정확성과 모델 예측력을 높이기 위해 결측치를 관리해야 하는 모든 경우
– 특히 결측치가 많거나 특정 변수에 집중된 경우, 적절한 대체 방법 선택 필요
ㅇ 시험 함정:
– 결측치 비율이 낮다고 무조건 삭제가 최선인 것은 아님
– 평균 대체 시 분산이 감소하고 데이터 변동성이 왜곡될 수 있음
– 무작위 결측(MCAR), 조건부 무작위(MAR), 비무작위(NMAR) 개념 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: 결측치가 5% 미만이고 무작위 발생 시, 단순 삭제가 통계적 왜곡을 최소화할 수 있다.
X: 결측치는 항상 평균값으로 대체하는 것이 가장 좋은 방법이다.
================================
1. 삭제
ㅇ 정의:
결측치가 포함된 행(row) 또는 열(column)을 데이터셋에서 제거하는 방법
ㅇ 특징:
– 구현이 간단하고 직관적
– 결측치가 적고 무작위인 경우 데이터 왜곡이 최소화
– 데이터 손실 가능성이 큼
ㅇ 적합한 경우:
– 결측치 비율이 매우 낮고, 제거해도 데이터 대표성이 유지되는 경우
– 무작위 결측(MCAR)일 때
ㅇ 시험 함정:
– 삭제 후 데이터 크기 감소로 통계적 검정력(power) 저하 가능
– 비무작위 결측(NMAR)에서는 삭제로 심각한 편향 발생
ㅇ 시험 대비 “패턴 보기” 예시:
O: 결측치가 전체 데이터의 2% 이하이고 무작위 발생 시 행 삭제 가능
X: 결측치가 20% 이상이어도 삭제가 항상 최선이다
================================
2. 평균/중앙값 대체
ㅇ 정의:
결측값을 해당 변수의 평균(mean)이나 중앙값(median)으로 채우는 방법
ㅇ 특징:
– 간단하고 빠름
– 평균 대체는 이상치에 민감, 중앙값 대체는 이상치에 강함
– 데이터 변동성을 줄이고 분산이 축소됨
ㅇ 적합한 경우:
– 결측치 비율이 낮고, 변수 분포가 안정적인 경우
– 중앙값 대체: 비대칭 분포나 이상치 많을 때
ㅇ 시험 함정:
– 평균 대체 시 데이터의 분산과 상관 구조 왜곡 가능
– 시험에서 평균과 중앙값 선택 기준을 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: 이상치가 많은 경우 평균 대체보다 중앙값 대체가 적합하다
X: 평균 대체는 데이터 분산에 아무런 영향을 주지 않는다
================================
3. 회귀/모델 기반 대체
ㅇ 정의:
결측값을 다른 변수들과의 관계를 이용한 예측 모델(회귀분석, 머신러닝 등)로 추정하여 채우는 방법
ㅇ 특징:
– 다른 변수의 정보를 활용하여 대체값 추정
– 선형회귀, 랜덤포레스트, 다중 대체(MICE) 등 다양한 모델 사용 가능
– 계산 복잡도 높음, 과적합 위험 존재
ㅇ 적합한 경우:
– 결측치가 여러 변수에 걸쳐 있고, 변수 간 상관성이 높을 때
– 데이터 손실을 최소화하며 정확성을 높이고자 할 때
ㅇ 시험 함정:
– 모델 기반 대체는 항상 정확하다는 오해 (모델의 편향·분산 영향 받음)
– 데이터가 비선형 관계일 때 단순 회귀 대체는 부정확 가능
ㅇ 시험 대비 “패턴 보기” 예시:
O: 변수 간 상관성이 높으면 회귀 기반 대체가 평균 대체보다 정확할 수 있다
X: 모델 기반 대체는 항상 원래 값과 동일한 결과를 보장한다
================================
4. KNN Imputer
ㅇ 정의:
결측치를 가진 샘플과 가장 가까운 k개의 이웃을 찾아, 이웃 값들의 평균이나 중앙값으로 결측치를 채우는 방법
ㅇ 특징:
– 거리 기반(예: 유클리드 거리)으로 유사한 데이터 활용
– 변수 스케일에 민감하므로 표준화 필요
– k값 설정에 따라 결과 변동
ㅇ 적합한 경우:
– 데이터가 충분하고, 비슷한 패턴을 가진 샘플이 존재하는 경우
– 비선형 관계나 복잡한 데이터 구조에서 평균 대체보다 나은 성능 가능
ㅇ 시험 함정:
– 고차원 데이터에서 거리 계산의 신뢰도가 낮아질 수 있음
– k값이 너무 작으면 노이즈 영향, 너무 크면 일반화 과다
ㅇ 시험 대비 “패턴 보기” 예시:
O: KNN Imputer는 변수 스케일링 후 적용하는 것이 권장된다
X: KNN Imputer는 데이터 스케일과 무관하게 항상 동일한 결과를 낸다