데이터 전처리: 시간 데이터 처리

ㅁ 시간 데이터 처리

ㅇ 정의:
시간 데이터 처리란 시계열 데이터의 품질을 높이고 분석 및 모델링에 적합하도록 변환, 보정, 구조화하는 전처리 과정이다.

ㅇ 특징:
– 시간 순서가 중요한 데이터 특성을 반영
– 주기성, 추세, 불규칙성을 고려한 변환 필요
– 결측치, 이상치 처리와 함께 주파수 변환, 분해 등의 기법 포함

ㅇ 적합한 경우:
– 금융, 제조, IoT 센서, 기상 데이터 등 시간 축 기반 데이터 분석

ㅇ 시험 함정:
– 단순 정렬만으로 시간 데이터 처리가 끝난다고 오해
– 주기성 제거와 추세 제거를 혼동

ㅇ 시험 대비 “패턴 보기” 예시:
O: “시계열 데이터의 주기성을 제거하는 것은 예측 성능 향상에 도움이 될 수 있다.”
X: “리샘플링은 데이터의 주기성을 제거하는 기법이다.”

================================

1. 리샘플링

ㅇ 정의:
시계열 데이터의 시간 간격을 변경하는 작업으로, 업샘플링(세분화)과 다운샘플링(집계)로 나뉜다.

ㅇ 특징:
– 업샘플링 시 보간 필요
– 다운샘플링 시 집계 함수(평균, 합계 등) 사용
– 분석 목적에 맞게 시간 해상도를 조정

ㅇ 적합한 경우:
– 분 단위 데이터를 시간 단위로 집계하거나, 월별 데이터를 일별로 세분화할 때

ㅇ 시험 함정:
– 리샘플링과 리인덱싱을 혼동
– 업샘플링 시 결측치 자동 생성되는 점 간과

ㅇ 시험 대비 “패턴 보기” 예시:
O: “다운샘플링은 데이터의 시간 해상도를 낮추는 작업이다.”
X: “리샘플링은 항상 데이터 양을 줄이는 과정이다.”

================================

2. 시즌성 제거

ㅇ 정의:
시계열 데이터에서 주기적으로 반복되는 패턴(계절성)을 제거하는 과정

ㅇ 특징:
– 계절성은 주기적 변동 요인(예: 월별 매출 증가, 주말 트래픽 감소)
– 이동평균, 회귀분석, STL 분해 등을 활용

ㅇ 적합한 경우:
– 계절성이 강한 데이터에서 추세나 불규칙성을 분석할 때

ㅇ 시험 함정:
– 추세 제거와 혼동
– 계절성 제거 후 예측 모델의 성능이 항상 향상된다고 단정

ㅇ 시험 대비 “패턴 보기” 예시:
O: “계절성 제거는 데이터의 주기적 패턴을 완화하여 추세 분석을 용이하게 한다.”
X: “계절성 제거는 데이터의 모든 변동성을 제거한다.”

================================

3. 시계열 분해

ㅇ 정의:
시계열 데이터를 추세(Trend), 계절성(Seasonality), 불규칙성(Residual)으로 분리하는 기법

ㅇ 특징:
– 가법모형(additive)과 승법모형(multiplicative) 존재
– STL(Seasonal-Trend decomposition using Loess) 등 알고리즘 활용

ㅇ 적합한 경우:
– 각 구성 요소별 영향 분석, 이상치 탐지, 예측 모델링 전처리

ㅇ 시험 함정:
– 가법과 승법 모형의 적용 조건 혼동
– 분해 결과를 그대로 예측 모델 입력으로 사용하면 성능이 항상 향상된다고 생각

ㅇ 시험 대비 “패턴 보기” 예시:
O: “시계열 분해는 데이터의 구조를 이해하고 예측 모델 설계에 도움을 준다.”
X: “시계열 분해는 계절성을 제거하는 유일한 방법이다.”

================================

4. 윈도잉

ㅇ 정의:
시계열 데이터에서 일정 구간(윈도우)을 설정하여 통계량이나 특징을 계산하는 기법

ㅇ 특징:
– 고정 윈도우, 가변 윈도우 방식 존재
– 이동평균, 이동표준편차 등 계산 가능
– 시계열 특징 추출, 잡음 완화에 활용

ㅇ 적합한 경우:
– 단기 변동 분석, 이상치 탐지, 신호 처리

ㅇ 시험 함정:
– 윈도우 크기에 따라 결과가 크게 달라질 수 있음
– 윈도잉이 항상 추세 제거를 보장한다고 오해

ㅇ 시험 대비 “패턴 보기” 예시:
O: “윈도잉은 시계열 데이터에서 단기 패턴을 분석하는 데 유용하다.”
X: “윈도잉은 시계열 데이터의 계절성을 제거하는 표준 기법이다.”

ㅁ 추가 학습 내용

1) 리샘플링
– 업샘플링: 시간 해상도를 높여 더 촘촘한 데이터로 변환. 예: 일 데이터를 시간 단위로 변환. 결측값이 생기므로 보간 필요.
– 다운샘플링: 시간 해상도를 낮춰 더 넓은 간격의 데이터로 변환. 예: 일 데이터를 월 단위로 집계.
– 보간 기법:
• 선형 보간(Linear): 두 점을 직선으로 연결해 중간값 계산.
• 시계형 보간(Nearest/Step): 이전 혹은 다음 값으로 채움.
• 스플라인(Spline): 곡선 기반 보간으로 부드러운 연결을 제공.

2) 시즌성 제거 알고리즘
– STL(Seasonal-Trend decomposition using Loess): 로컬 회귀를 이용해 추세, 계절성, 잔차로 분해. 비정상적 계절성에도 유연함.
– X-13ARIMA-SEATS: 미국 인구조사국 개발, ARIMA 기반 계절조정. 공식 통계에 널리 사용.
– 이동평균법: 일정 기간 평균을 이용해 계절성 제거. 간단하지만 복잡한 패턴에는 한계.
– 적용 사례: 매출 데이터의 계절 패턴 제거 후 추세 분석, 기온 데이터의 장기 변화 추정 등.

3) 시계열 분해 모형
– 가법모형: 계절 변동 폭이 일정할 때 사용. 데이터 = 추세 + 계절성 + 잔차.
– 승법모형: 계절 변동 폭이 데이터 크기에 비례할 때 사용. 데이터 = 추세 × 계절성 × 잔차.
– 선택 기준: 변동 폭이 일정하면 가법, 비례하면 승법.
– 재구성 방법: 분해한 각 성분을 더하거나 곱하여 원래 시계열로 복원.

4) 윈도잉 기법
– 고정 윈도우(Fixed window): 일정 크기의 구간만 사용하며 이동.
– 가변 윈도우(Variable window): 데이터 특성에 따라 윈도우 크기가 변함.
– 확장 윈도우(Expanding window): 시작점은 고정하고 끝점을 확장하며 데이터 누적.
– 사용 예시: 이동평균 계산, 모델 학습 시 과거 데이터 범위 설정.

5) 시간 데이터 전처리 시 고려 요소
– 주기성: 일정 주기로 반복되는 패턴.
– 추세: 장기적인 증가나 감소 경향.
– 잡음: 불규칙한 변동.
– 상호작용: 주기성, 추세, 잡음이 혼합되어 모델 성능에 영향. 예측 모델은 이를 적절히 분리·처리해야 정확도 향상.

6) 주요 라이브러리와 함수
– Pandas: resample(), rolling(), interpolate() 등 리샘플링과 윈도잉, 보간 기능 제공.
– statsmodels: seasonal_decompose(), STL(), X13ArimaAnalysis() 등 시계열 분해와 계절조정 기능.
– Prophet: 계절성, 추세, 휴일 효과를 자동으로 모델링. 파라미터로 seasonality_mode(‘additive’/‘multiplicative’), changepoint_prior_scale 등 설정 가능.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*