데이터 전처리: 결측치 처리 – Interpolation 기법
ㅁ 결측치 처리
ㅇ 정의:
데이터셋 내에서 일부 값이 누락된 경우 이를 보완하여 분석의 정확성과 일관성을 유지하는 과정.
ㅇ 특징:
– 결측치가 분석 결과에 미치는 영향을 최소화함.
– 처리 방식에 따라 데이터의 분포와 통계량이 변할 수 있음.
– 단순 제거, 대체, 예측 기반 대체 등 다양한 방법 존재.
ㅇ 적합한 경우:
– 결측치가 전체 데이터의 일부이며, 제거 시 정보 손실이 크지 않은 경우.
– 결측치 패턴이 무작위로 발생하거나 예측 가능할 때.
ㅇ 시험 함정:
– 모든 결측치를 단순 평균으로 대체하는 것이 항상 옳다고 생각하는 경우.
– 결측치 비율이 높을 때도 무조건 보간법을 적용하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
O: 결측치가 시간 순서에 따라 발생한 경우, Interpolation 기법을 적용할 수 있다.
X: 결측치가 전혀 패턴 없이 발생한 경우에도 Interpolation이 항상 최적이다.
================================
1. Interpolation 기법
ㅇ 정의:
기존 데이터 포인트 사이의 값을 추정하여 결측치를 채우는 방법으로, 주로 시간적 또는 순서적 연속성이 있는 데이터에 사용됨.
ㅇ 특징:
– 선형, 다항식, 스플라인 등 다양한 수학적 보간 방식 존재.
– 데이터의 추세와 패턴을 유지할 수 있음.
– 이상치에 민감할 수 있음.
ㅇ 적합한 경우:
– 시계열 데이터에서 연속된 관측값 사이의 결측치.
– 데이터가 일정한 간격으로 측정되고, 변화가 완만한 경우.
ㅇ 시험 함정:
– 비연속적이고 급격한 변화가 있는 데이터에 적용 시 왜곡 발생.
– 범주형 데이터에는 적용 불가.
ㅇ 시험 대비 “패턴 보기” 예시:
O: 시계열 센서 데이터의 결측 구간을 선형 보간으로 채웠다.
X: 범주형 변수의 결측치를 스플라인 보간으로 채웠다.
ㅁ 추가 학습 내용
Interpolation 기법은 여러 하위 유형이 있으며, 각 기법의 장단점을 이해하는 것이 중요하다.
선형 보간(linear interpolation)은 계산이 단순하고 구현이 쉽다는 장점이 있으나, 데이터의 곡선 변화나 비선형 패턴을 반영하지 못하는 한계가 있다.
스플라인 보간(spline interpolation)은 곡선 형태를 부드럽게 반영할 수 있어 실제 데이터의 변화를 잘 재현하지만, 데이터가 적거나 잡음이 많은 경우 과적합(overfitting) 위험이 존재한다.
시계열 데이터에서는 이동평균 보간이 단기 변동을 완화하고 추세를 반영하는 데 유용하지만, 급격한 변화나 이상값을 반영하기 어렵다. 회귀 기반 보간은 변수 간 관계를 모델링하여 결측치를 예측할 수 있으나, 모델 가정이 맞지 않으면 오차가 커질 수 있다. 시계열 분해 기반 보간은 추세, 계절성, 불규칙 성분을 분리하여 결측치를 보간하므로 복잡한 패턴을 반영할 수 있지만, 분해 과정이 잘못되면 보간 결과도 부정확해질 수 있다.
결측치 패턴은 MCAR(완전 무작위 결측), MAR(무작위 결측), MNAR(비무작위 결측)로 구분된다. MCAR의 경우 단순 보간법도 적합할 수 있고, MAR은 결측과 관련된 변수를 함께 고려하는 방법이 필요하다. MNAR의 경우 결측 원인을 모델링하거나 추가 데이터를 확보하는 등 보다 정교한 접근이 요구된다. 각 패턴에 맞는 보간법 선택이 시험에서 자주 다뤄진다.