데이터: 데이터 편향 유형 – 시간적 편향

ㅁ 데이터 편향 유형

1. 시간적 편향

ㅇ 정의:
데이터가 수집된 시점의 특성이나 상황이 반영되어, 시간이 지나면서 해당 데이터가 현재 상황을 대표하지 못하는 현상.

ㅇ 특징:
– 데이터가 특정 기간에 집중되어 있음.
– 계절성, 트렌드 변화, 사회적 사건 등 외부 요인에 영향을 받음.
– 예측 모델이 과거 패턴에 과도하게 맞춰져 현재나 미래 데이터 예측력이 떨어짐.

ㅇ 적합한 경우:
– 시계열 분석에서 시간 흐름에 따른 변화 패턴을 연구할 때.
– 특정 시점의 이벤트 분석이 필요한 경우.

ㅇ 시험 함정:
– 시간적 편향을 단순히 ‘데이터가 오래되었다’로만 이해하는 경우.
– 계절성 패턴과 시간적 편향을 혼동하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “모델 학습 데이터가 5년 전 특정 계절에만 수집되어 현재 예측 정확도가 떨어진다” → 시간적 편향.
– X: “데이터에 특정 집단의 비율이 과도하게 높다” → 이는 표본 편향.

ㅁ 추가 학습 내용

시간적 편향은 데이터의 시점 불일치로 인해 발생하는 성능 저하 문제로, 머신러닝 모델에서 학습 데이터와 예측 대상 데이터의 분포 차이가 나타나는 데이터 드리프트의 한 유형이다. 개념적 변화(Concept Drift)는 입력 변수와 목표 변수 간의 관계 자체가 변하는 경우를 의미하므로, 시간적 편향과 구분해야 한다. 시간적 편향 방지 방법으로는 데이터 수집 주기를 단축하고 최신 데이터를 반영하며, 시점별 교차검증(Time-based Cross Validation)을 수행하는 것이 있다. 시험에서는 특정 이벤트 이후 데이터 분포가 변화하는 상황을 시간적 편향으로 묻는 경우가 많으므로, 사건 전후 데이터 비교 예시를 숙지하는 것이 중요하다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*