데이터 전처리: 시간 데이터 처리 – 시계열 분해

ㅁ 시간 데이터 처리

ㅇ 정의:
시간 데이터 처리란 시간 축을 기준으로 수집된 데이터를 분석 가능하도록 가공하는 과정을 말하며, 주기성·추세·계절성 등을 고려한 변환과 정제가 포함된다.

ㅇ 특징:
– 데이터가 시간 순서대로 정렬되어야 함
– 시계열 특성을 반영한 분석 기법 필요
– 결측치·이상치 처리 시 시간적 연속성 고려

ㅇ 적합한 경우:
– 주식, 기상, 판매량 등 시간 흐름에 따른 변화 분석
– 계절성, 추세, 주기성 분리 필요 시

ㅇ 시험 함정:
– 단순 집계와 시계열 분석 혼동
– 시간 순서 무시한 무작위 샘플링 적용

ㅇ 시험 대비 “패턴 보기” 예시:
O: “시간 데이터는 반드시 시간 순서가 보존되어야 한다.”
X: “시간 데이터는 순서가 바뀌어도 분석 결과에 영향이 없다.”

================================

1. 시계열 분해

ㅇ 정의:
시계열 데이터를 추세(Trend), 계절성(Seasonality), 불규칙성(Residual) 등 구성 요소로 분리하는 기법.

ㅇ 특징:
– 데이터 패턴을 이해하고 예측 모델의 성능 향상에 기여
– 가법 모형(Additive)과 승법 모형(Multiplicative) 방식 존재
– 주기성 분석에 유용

ㅇ 적합한 경우:
– 장기 추세와 계절 변동을 분리하여 분석할 때
– 예측 모델 입력 변수로 각 성분을 활용할 때

ㅇ 시험 함정:
– 가법/승법 모형 선택 시 데이터 변동 폭 고려 누락
– 불규칙 성분을 계절성으로 오인

ㅇ 시험 대비 “패턴 보기” 예시:
O: “시계열 분해는 데이터의 추세, 계절성, 불규칙성을 분리할 수 있다.”
X: “시계열 분해는 항상 승법 모형을 사용해야 한다.”

ㅁ 추가 학습 내용

시계열 분해 학습 정리

1. STL(Seasonal-Trend decomposition using Loess) 방법
– Loess 회귀를 이용해 시계열을 계절성, 추세, 불규칙 성분으로 분해
– 복잡한 계절 패턴 처리 가능, 이상치에 강건함

2. 이동평균을 이용한 분해 기법
– 일정 기간의 이동평균을 사용해 추세 성분 추출
– 잔차를 통해 계절성과 불규칙 성분 분리

3. FFT 기반 주기성 분석
– 푸리에 변환을 이용해 주파수 영역에서 주기성 탐지
– 주기 길이 파악 및 계절성 분석에 활용

4. 가법 모형과 승법 모형 선택 기준
– 가법 모형: 변동 폭이 일정할 때 사용
– 승법 모형: 데이터 크기에 따라 변동 폭이 비례할 때 사용

5. 분해 후 각 성분 해석 방법
– 추세(Trend): 장기적인 변화 방향
– 계절성(Seasonal): 주기적인 변동 패턴
– 불규칙(Irregular): 예측 불가능한 단기 변동

6. 분해가 예측 모델링에 미치는 영향
– 성분별로 분석 및 예측 가능
– 복잡한 패턴을 단순화하여 모델 성능 향상 가능

7. 분해 전 데이터의 정상성 여부 확인 절차
– ADF(ADF Test) 등 통계 검정을 통한 정상성 판단
– 정상성이 필요한 모델 적용 전 변환(차분, 로그 변환 등) 고려

8. 실무 구현 예시 학습
– Python statsmodels 라이브러리: seasonal_decompose, STL 함수 사용법
– R: decompose(), stl() 함수 사용법
– 코드 예시를 통해 입력 데이터 형식, 파라미터 설정, 결과 해석 방법 숙지

최신 글