데이터 전처리: 결측치 처리 – 삭제
ㅁ 결측치 처리
ㅇ 정의:
데이터셋 내에서 누락된 값(결측치, Missing Value)을 적절히 처리하여 분석 및 모델링의 정확성을 높이는 과정.
ㅇ 특징:
– 결측치가 전체 데이터의 품질과 분석 결과에 직접적인 영향을 미침.
– 처리 방식에 따라 데이터 분포와 통계적 특성이 변할 수 있음.
– 삭제, 대체, 예측 기반 보정 등 다양한 방법 존재.
ㅇ 적합한 경우:
– 결측치 비율이 낮고, 삭제로 인한 정보 손실이 분석 결과에 큰 영향을 주지 않을 때.
– 결측치가 특정 패턴 없이 무작위로 발생(MCAR: Missing Completely At Random)한 경우.
ㅇ 시험 함정:
– 결측치 비율이 높은데도 무조건 삭제하는 것은 바람직하지 않음.
– MCAR, MAR, MNAR 개념 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “결측치가 1% 미만이고 무작위 발생 시, 해당 행을 삭제하는 것이 타당하다.”
X: “결측치는 항상 삭제하는 것이 최선이다.”
================================
1. 삭제
ㅇ 정의:
결측치가 포함된 데이터 행 또는 열을 제거하여 결측치를 처리하는 방법.
ㅇ 특징:
– 구현이 간단하고 직관적.
– 데이터 손실이 발생하며, 특히 결측치 비율이 높으면 심각한 정보 손실 초래.
– 결측치가 무작위로 발생했을 때 통계적 왜곡이 적음.
ㅇ 적합한 경우:
– 결측치 비율이 매우 낮음(일반적으로 5% 미만).
– 해당 열이나 행이 분석에서 중요하지 않음.
– 결측치가 무작위 발생(MCAR)일 때.
ㅇ 시험 함정:
– 결측치가 특정 패턴(MAR, MNAR)으로 발생하는 경우 삭제 시 분석 결과 왜곡.
– 결측치 비율이 높을 때 삭제하면 표본 수 급감으로 모델 성능 저하.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “결측치가 전체 데이터의 2%이고 무작위 발생 시, 해당 행 삭제 가능.”
X: “결측치가 30%인 열도 삭제해도 항상 분석에 유리하다.”
ㅁ 추가 학습 내용
결측치 처리 방법에는 삭제와 대체가 있다.
대체(imputation) 기법에는 평균 대체, 중앙값 대체, 최빈값 대체, 회귀 대체, KNN 대체, 다중 대체(Multiple Imputation) 등이 있으며, 시험에서 비교 문제로 자주 출제된다.
결측치 발생 메커니즘에는 다음이 있다.
– MCAR(Missing Completely At Random): 결측이 완전히 무작위로 발생
– MAR(Missing At Random): 결측이 다른 관측 변수와 관련 있음
– MNAR(Missing Not At Random): 결측이 해당 변수의 값 자체와 관련 있음
각 메커니즘에 따라 적절한 처리 방법이 다르므로 구분할 수 있어야 한다.
삭제 방법에는 행 삭제(row-wise)와 열 삭제(column-wise)가 있으며, 데이터 손실 정도와 분석 결과에 미치는 영향이 다르다.
시계열 데이터에서는 결측치 처리 시 선형보간, 전방채움(forward fill), 후방채움(backward fill) 등의 기법이 대안으로 사용될 수 있다.