데이터 전처리: 시간 데이터 처리 – 시즌성 제거
ㅁ 시간 데이터 처리
ㅇ 정의:
시간 데이터 처리 중 ‘시즌성 제거’는 시계열 데이터에서 주기적으로 반복되는 패턴(계절성)을 제거하여 추세나 불규칙 요인을 명확히 분석할 수 있도록 하는 과정.
ㅇ 특징:
– 월별, 분기별, 요일별 등 특정 주기에 따라 반복되는 패턴을 분리.
– 이동평균, 계절성 분해(Seasonal Decomposition), 차분(Differencing) 등의 기법 활용.
– 예측 모델의 정확도를 높이기 위해 노이즈를 줄이고 데이터의 본질적인 추세를 부각.
ㅇ 적합한 경우:
– 매출, 기온, 트래픽 등 주기성이 뚜렷한 데이터 분석.
– 장기 추세 분석이나 비계절성 요인 파악이 필요한 경우.
ㅇ 시험 함정:
– ‘시즌성 제거’를 단순한 노이즈 제거와 혼동.
– 추세 제거(Trend Removal)와 개념 혼동.
– 모든 시계열 데이터에 시즌성이 존재한다고 가정하는 오류.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “월별 판매량 분석에서 계절 변동을 제거하여 장기 추세를 파악하는 과정은 시즌성 제거이다.”
– X: “시즌성 제거는 데이터의 랜덤한 변동성을 제거하는 과정이다.”
ㅁ 추가 학습 내용
시즌성 제거와 관련된 주요 개념은 다음과 같다.
STL(Seasonal and Trend decomposition using Loess)과 X-13ARIMA-SEATS와 같은 계절성 분해 알고리즘이 대표적이다.
계절성 제거 후에는 잔차 분석을 통해 백색잡음 여부를 반드시 확인해야 한다.
계절 차분(seasonal differencing)과 비계절 차분(non-seasonal differencing)의 차이를 명확히 이해해야 한다.
실무에서는 Prophet, ARIMA, SARIMA 모델에서 시즌성 파라미터를 조정하여 계절성을 제거하거나 완화하는 방법이 널리 사용된다.
시험에서는 시즌성 제거와 정규화, 스무딩 기법을 혼동하게 하는 함정이 자주 출제되므로, 각 기법의 적용 목적과 데이터 패턴 변화 전후의 차이를 명확히 구분할 수 있어야 한다.