시계열: Seasonal Decompose
ㅁ 시계열
ㅇ 정의:
ㅇ 특징:
ㅇ 적합한 경우:
ㅇ 시험 함정:
ㅇ 시험 대비 “패턴 보기” 예시:
================================
1. Seasonal Decompose
ㅇ 정의:
시계열 데이터를 구성 요소(추세, 계절성, 불규칙성)로 분해하는 기법으로 데이터의 패턴을 명확히 파악할 수 있도록 도움.
ㅇ 특징:
– 데이터의 주기성을 분석하고 계절적 변동을 제거하거나 강조할 수 있음.
– Additive(가법) 또는 Multiplicative(승법) 모델을 적용 가능.
– 데이터의 비정상성을 확인하는 데 유용.
ㅇ 적합한 경우:
– 계절성 패턴이 명확하게 드러나는 데이터 분석.
– 추세와 계절성을 분리하여 예측 모델에 활용하고자 할 때.
– 데이터의 주기적 성향을 파악하고자 할 때.
ㅇ 시험 함정:
– Additive와 Multiplicative 모델 선택 기준 혼동.
– 분해 결과를 해석할 때 단순히 계절성이 없는 데이터를 정상성 데이터로 오해.
– 분해 후 잔차의 통계적 특성을 간과.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: Seasonal Decompose는 시계열 데이터를 추세, 계절성, 불규칙성으로 분해한다.
– O: Multiplicative 모델은 계절성 효과가 데이터 크기에 비례할 때 적합하다.
– X: Seasonal Decompose는 데이터를 예측하는 데 직접적으로 사용된다.
– X: Additive 모델은 계절성 변동이 데이터 크기에 비례할 때 적합하다.
ㅁ 추가 학습 내용
1. Seasonal Decompose의 Additive와 Multiplicative 모델 선택 기준:
– Additive 모델은 데이터의 계절적 변동이 일정한 크기를 유지할 때 사용됩니다. 즉, 데이터의 전체적인 크기와 상관없이 계절성의 변화가 일정한 패턴을 보이는 경우 적합합니다. 예를 들어, 매달 판매량이 10개씩 증가하거나 감소하는 경우 Additive 모델이 적합합니다.
– Multiplicative 모델은 계절적 변동이 데이터 크기에 비례하여 변화할 때 적합합니다. 즉, 데이터가 커질수록 계절적 변화의 폭도 커지는 경우입니다. 예를 들어, 매출이 증가함에 따라 매달 계절적 변동 폭도 더 커지는 경우 Multiplicative 모델을 사용하는 것이 적절합니다.
2. 시계열 분해 후 잔차의 정상성 여부 확인 방법 및 추가 분석:
– 잔차의 정상성 여부는 ADF(Augmented Dickey-Fuller) 테스트, KPSS(Kwiatkowski-Phillips-Schmidt-Shin) 테스트 등을 통해 확인할 수 있습니다.
– 정상성이란 시간에 따른 평균, 분산, 자기공분산이 일정한 특성을 유지하는 것을 의미합니다. 정상성을 확인하는 이유는 대부분의 시계열 예측 모델이 정상성을 가정하기 때문입니다.
– 만약 잔차가 비정상성을 띤다면, 차분(differencing)이나 로그 변환, 제곱근 변환 등의 방법을 적용해 정상성을 확보해야 합니다.
– 잔차가 정상성을 띤다면, 이를 기반으로 ARIMA 모델과 같은 예측 모델링을 수행하거나, 잔차 분석을 통해 이상치를 탐지할 수 있습니다.
3. 계절성 제거 후 데이터를 활용한 예측 모델링 과정 및 사례:
– 계절성을 제거한 데이터는 더 간단한 패턴을 보이기 때문에 예측 모델링에 유리합니다. 예를 들어, 계절성을 제거한 후 추세와 잔차를 분리하여 각각을 분석하거나 모델링할 수 있습니다.
– 예측 모델링 과정은 다음과 같습니다:
1. 계절성 제거: Seasonal Decompose를 통해 계절성을 분리하고 제거.
2. 정상성 확인: 잔차나 추세 데이터의 정상성을 확인.
3. 모델 선택 및 학습: ARIMA, SARIMA, Prophet 등의 모델을 선택하여 학습.
4. 예측 수행: 학습된 모델을 사용해 미래 값을 예측.
5. 계절성 복원: 예측된 값에 계절성을 다시 더하거나 곱해 원래 데이터의 스케일로 복원.
– 사례: 월별 매출 데이터를 분석할 때, 계절성을 제거한 후 ARIMA 모델을 사용해 예측한 결과를 다시 계절성을 복원하여 실제 매출 예측에 활용할 수 있습니다. 이를 통해 계절적 요인을 제거한 상태에서 추세와 잔차에 기반한 더 정확한 예측이 가능합니다.