데이터 전처리: 처리 기술 – 트렌드 제거
ㅁ 처리 기술
ㅇ 정의:
시계열 데이터에서 장기적인 추세(트렌드) 성분을 제거하여 계절성, 순환성, 불규칙 요인만 남기는 전처리 기법.
ㅇ 특징:
– 데이터의 평균이나 기울기 변화와 같은 장기 패턴을 제거함.
– 이동평균, 차분(differencing), 회귀분석 등을 활용.
– 예측 모델이 단기 변동성에 집중하도록 유도.
ㅇ 적합한 경우:
– 주식 가격, 기온 변화 등 장기 추세가 강해 단기 패턴 분석이 어려운 경우.
– ARIMA 등 정상성(Stationarity)을 요구하는 모델 적용 전.
ㅇ 시험 함정:
– 트렌드 제거와 계절성 제거를 혼동하는 경우.
– 차분 후에도 여전히 추세가 남아 있을 수 있음.
– 트렌드 제거를 하면 항상 예측 성능이 좋아진다고 단정하는 오류.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “시계열 데이터의 정상성을 확보하기 위해 차분을 수행하여 장기 추세를 제거한다.”
X: “트렌드 제거는 계절성까지 동시에 제거하는 과정이다.”
ㅁ 추가 학습 내용
트렌드 제거 방법에는 이동평균법과 다항 회귀법이 있다.
이동평균법은 단순 이동평균(Simple Moving Average)과 가중 이동평균(Weighted Moving Average)으로 나뉘며, 일정 기간의 데이터를 평균 내어 추세를 추정한다. 단순 이동평균은 모든 기간에 동일 가중치를 부여하고, 가중 이동평균은 최근 데이터에 더 큰 가중치를 준다.
다항 회귀(Polynomial Regression)는 데이터에 다항식 형태의 회귀선을 적합시켜 추세를 추정하는 방법으로, 곡선 형태의 추세를 표현할 수 있다.
차분(Differencing)은 시계열의 정상성을 확보하기 위해 사용되며, 1차 차분은 데이터의 변화량을 계산하여 추세를 제거하고, 2차 차분은 변화량의 변화량을 계산하여 더 복잡한 추세를 제거한다. 차분의 차수가 높아질수록 정상성 확보 가능성이 높아지지만, 과도한 차분은 정보 손실을 초래할 수 있다.
Hodrick-Prescott 필터(HP Filter)는 시계열을 장기 추세 성분과 단기 변동 성분으로 분리하는 고급 필터링 기법으로, 매끄러운 추세선을 추출하는 데 사용된다.
트렌드 제거 후에는 ACF(자기상관함수)와 PACF(편자기상관함수)를 통해 잔차의 정상성을 검증한다. ACF는 시차별 자기상관 정도를 나타내고, PACF는 다른 시차의 영향을 제거한 순수한 자기상관을 나타내어 모델의 적합성과 정상성 여부를 판단하는 데 활용된다.