데이터: 데이터 편향 유형 – 시간적 편향
ㅁ 데이터 편향 유형
1. 시간적 편향
ㅇ 정의:
데이터가 수집된 시점의 특성이나 상황이 반영되어, 시간이 지나면서 해당 데이터가 현재 상황을 대표하지 못하는 현상.
ㅇ 특징:
– 데이터가 특정 기간에 집중되어 있음.
– 계절성, 트렌드 변화, 사회적 사건 등 외부 요인에 영향을 받음.
– 예측 모델이 과거 패턴에 과도하게 맞춰져 현재나 미래 데이터 예측력이 떨어짐.
ㅇ 적합한 경우:
– 시계열 분석에서 시간 흐름에 따른 변화 패턴을 연구할 때.
– 특정 시점의 이벤트 분석이 필요한 경우.
ㅇ 시험 함정:
– 시간적 편향을 단순히 ‘데이터가 오래되었다’로만 이해하는 경우.
– 계절성 패턴과 시간적 편향을 혼동하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “모델 학습 데이터가 5년 전 특정 계절에만 수집되어 현재 예측 정확도가 떨어진다” → 시간적 편향.
– X: “데이터에 특정 집단의 비율이 과도하게 높다” → 이는 표본 편향.
ㅁ 추가 학습 내용
시간적 편향은 데이터의 시점 불일치로 인해 발생하는 성능 저하 문제로, 머신러닝 모델에서 학습 데이터와 예측 대상 데이터의 분포 차이가 나타나는 데이터 드리프트의 한 유형이다. 개념적 변화(Concept Drift)는 입력 변수와 목표 변수 간의 관계 자체가 변하는 경우를 의미하므로, 시간적 편향과 구분해야 한다. 시간적 편향 방지 방법으로는 데이터 수집 주기를 단축하고 최신 데이터를 반영하며, 시점별 교차검증(Time-based Cross Validation)을 수행하는 것이 있다. 시험에서는 특정 이벤트 이후 데이터 분포가 변화하는 상황을 시간적 편향으로 묻는 경우가 많으므로, 사건 전후 데이터 비교 예시를 숙지하는 것이 중요하다.