데이터 전처리: 처리 기술
ㅁ 처리 기술
1. 기상 보간
ㅇ 정의:
누락된 기상 관측 데이터나 불규칙한 간격의 시계열 데이터를 시간 축에 맞춰 보간하는 기법.
ㅇ 특징:
선형 보간, 스플라인 보간, 크리깅 등 다양한 방법이 있으며, 데이터의 계절성과 변동성을 고려해야 함.
ㅇ 적합한 경우:
센서 고장, 통신 오류 등으로 일부 데이터가 결측된 경우.
ㅇ 시험 함정:
단순 선형 보간은 급격한 변화 구간에서 오차가 커질 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “관측값이 일부 누락된 경우 스플라인 보간을 활용할 수 있다.”
X: “모든 시계열 결측치는 선형 보간이 가장 정확하다.”
1.1 선형 보간
ㅇ 정의:
두 인접한 데이터 포인트를 직선으로 연결하여 중간 값을 추정하는 방법.
ㅇ 특징:
구현이 간단하고 계산 속도가 빠르지만, 데이터의 변동성이 큰 경우 정확도가 떨어짐.
ㅇ 적합한 경우:
데이터 변동이 완만하고 결측 구간이 짧은 경우.
ㅇ 시험 함정:
장기 결측 구간이나 주기성이 강한 데이터에는 부적합.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “선형 보간은 짧은 결측 구간에서 간단히 적용 가능하다.”
X: “주기성이 강한 데이터에도 선형 보간이 항상 최적이다.”
1.2 스플라인 보간
ㅇ 정의:
다항식을 구간별로 적용하여 매끄러운 곡선 형태로 값을 추정하는 방법.
ㅇ 특징:
데이터의 연속성과 미분 가능성을 유지하며, 곡선 형태로 부드럽게 연결.
ㅇ 적합한 경우:
곡선 형태의 변화가 많은 데이터나 장기 결측 구간.
ㅇ 시험 함정:
과도하게 진동하는 오버슈트가 발생할 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “스플라인 보간은 매끄러운 데이터 추정에 적합하다.”
X: “스플라인 보간은 모든 데이터에서 직선 형태로 연결한다.”
2. FFT 변환
ㅇ 정의:
시계열 데이터를 주파수 영역으로 변환하는 고속 푸리에 변환 알고리즘.
ㅇ 특징:
데이터의 주기성 분석과 잡음 제거에 유용하며, 시간 복잡도가 낮음.
ㅇ 적합한 경우:
주기 성분 분석, 필터링, 스펙트럼 분석.
ㅇ 시험 함정:
비정상 시계열에 직접 적용 시 왜곡 발생.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “FFT는 주파수 영역에서 데이터 특성을 분석할 수 있다.”
X: “FFT는 시계열 데이터를 시간 영역으로 변환한다.”
2.1 윈도잉(Windowing)
ㅇ 정의:
FFT 수행 전 데이터 구간에 가중 함수를 곱하여 스펙트럼 누출을 줄이는 방법.
ㅇ 특징:
해밍, 해닝, 블랙맨 윈도우 등이 대표적이며, 주파수 해상도와 누출 억제 간의 트레이드오프 존재.
ㅇ 적합한 경우:
유한 길이 데이터의 FFT 분석 시.
ㅇ 시험 함정:
잘못된 윈도우 선택 시 원하는 주파수 성분이 왜곡될 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “윈도잉은 FFT의 스펙트럼 누출을 줄이기 위해 사용된다.”
X: “윈도잉은 FFT의 계산 속도를 높이기 위한 기법이다.”
3. 분해/합성
ㅇ 정의:
시계열 데이터를 여러 구성 요소(추세, 계절, 불규칙)로 분해하거나 반대로 합성하는 과정.
ㅇ 특징:
STL, EMD 등의 기법이 있으며, 각 성분을 개별적으로 분석 가능.
ㅇ 적합한 경우:
복합적인 패턴을 가진 시계열 분석.
ㅇ 시험 함정:
분해 방식에 따라 결과 해석이 달라질 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “시계열 분해는 추세와 계절 성분을 분리할 수 있다.”
X: “분해된 성분은 다시 합성할 수 없다.”
3.1 STL(Seasonal-Trend decomposition using Loess)
ㅇ 정의:
Loess 회귀를 이용하여 시계열을 계절, 추세, 잔차로 분해하는 방법.
ㅇ 특징:
비정상 시계열에도 적용 가능하며, 계절성과 추세를 동시에 반영.
ㅇ 적합한 경우:
계절성과 추세가 동시에 존재하는 데이터.
ㅇ 시험 함정:
계절 주기 설정이 잘못되면 분해 결과가 왜곡됨.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “STL은 Loess를 활용하여 시계열을 분해한다.”
X: “STL은 주기성이 없는 데이터에만 적용된다.”
4. 트렌드 제거
ㅇ 정의:
시계열 데이터에서 장기적인 추세 성분을 제거하여 변동성 분석에 집중하는 기법.
ㅇ 특징:
차분(differencing), 회귀 기반 추세 제거 등이 있음.
ㅇ 적합한 경우:
정상성 확보가 필요한 시계열 분석.
ㅇ 시험 함정:
과도한 추세 제거는 유용한 정보 손실을 초래할 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “차분은 시계열의 추세를 제거하는 한 방법이다.”
X: “트렌드 제거는 변동성을 줄이기 위해 항상 필요하다.”
4.1 차분(Differencing)
ㅇ 정의:
이전 시점의 값을 빼서 데이터의 추세를 제거하는 방법.
ㅇ 특징:
정상성 확보에 효과적이나, 과도한 차분은 데이터 왜곡 가능.
ㅇ 적합한 경우:
비정상 시계열의 정상화.
ㅇ 시험 함정:
계절성이 있는 데이터는 계절 차분을 고려해야 함.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “차분은 비정상 시계열을 정상화하는 기법이다.”
X: “차분은 모든 시계열 데이터에서 불필요하다.”
ㅁ 추가 학습 내용
[학습 정리]
1. 기상 보간
– 크리깅(Kriging): 공간적 상관성을 고려한 보간법, 지리·기상 데이터에서 활용
– 공간 상관 구조 파악과 반분산 함수(variogram) 이해 필요
2. FFT 변환
– 파워 스펙트럼 밀도(PSD) 분석: 주파수 영역에서 신호의 에너지 분포 파악
– 역 FFT(IFFT): 주파수 영역 데이터를 시간 영역으로 변환하는 활용 사례 숙지
3. 분해/합성 기법
– EMD(Empirical Mode Decomposition): 비선형·비정상 시계열의 적응적 분해
– 웨이블릿 변환: 다중 해상도 분석, 시간-주파수 영역 동시 분석 가능
4. 트렌드 제거
– HP 필터(Hodrick-Prescott Filter): 경제 시계열에서 장기 추세와 단기 변동 분리
5. 시계열 처리 공통 핵심
– 정상성 검정: ADF(Augmented Dickey-Fuller), KPSS(Kwiatkowski-Phillips-Schmidt-Shin)
– 전처리 순서: 결측치 처리 → 정상성 확보 → 모형 적합
[시험 대비 체크리스트]
□ 크리깅의 개념과 공간 상관성 고려 방식 설명 가능
□ 반분산 함수와 크리깅 적용 사례 제시 가능
□ PSD의 정의와 계산 방법 숙지
□ IFFT의 원리와 활용 예시 설명 가능
□ EMD의 절차와 특징 설명 가능
□ 웨이블릿 변환의 다중 해상도 분석 원리 이해
□ HP 필터의 목적과 수식 구조 파악
□ ADF와 KPSS 검정의 차이 및 해석 방법 숙지
□ 시계열 전처리 순서를 정확히 암기
□ 각 기법의 대표 활용 분야와 장단점 비교 가능