데이터 전처리: 주요 기법
ㅁ 주요 기법
1. FFT
ㅇ 정의:
– Fast Fourier Transform으로, 시계열 데이터를 주파수 영역으로 변환하는 알고리즘.
ㅇ 특징:
– 시간 영역 데이터를 주파수 성분으로 분해하여 주기성을 분석.
– 계산 속도가 빠르고 대규모 데이터 처리에 효율적.
ㅇ 적합한 경우:
– 주기성 분석, 신호 처리, 잡음 제거.
ㅇ 시험 함정:
– FFT는 시간-주파수 동시 해석이 불가능하며, 순간적인 변화 탐지에는 부적합.
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) FFT는 시계열의 주파수 성분 분석에 사용된다.
– (X) FFT는 시간과 주파수를 동시에 정밀하게 분석할 수 있다.
================
2. 윈도잉
ㅇ 정의:
– 시계열 데이터에서 특정 구간을 잘라내어 분석하는 기법.
ㅇ 특징:
– 데이터의 구간별 특성을 분석 가능.
– FFT와 함께 사용 시 주파수 분석의 누설(leakage) 현상을 줄임.
ㅇ 적합한 경우:
– 비정상 시계열, 구간별 패턴 분석.
ㅇ 시험 함정:
– 윈도잉은 전체 데이터의 전역 특성을 유지하지 못할 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) 윈도잉은 FFT 분석 시 스펙트럼 누설을 줄이는 데 사용된다.
– (X) 윈도잉은 데이터의 모든 전역 특성을 보존한다.
================
3. 시계열 분해
ㅇ 정의:
– 시계열을 추세(Trend), 계절성(Seasonality), 잔차(Residual)로 분리하는 기법.
ㅇ 특징:
– 데이터의 구성 요소를 분리하여 해석 용이.
– 가법 모형(additive)과 승법 모형(multiplicative) 존재.
ㅇ 적합한 경우:
– 계절성 분석, 이상치 탐지, 예측 모델링.
ㅇ 시험 함정:
– 계절성과 추세가 일정하지 않은 경우 단순 분해는 부정확.
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) 시계열 분해는 추세, 계절성, 잔차로 데이터를 나눈다.
– (X) 시계열 분해는 항상 승법 모형을 사용한다.
================
4. 이상 탐지
ㅇ 정의:
– 시계열 데이터에서 정상 패턴과 다른 데이터 포인트를 식별하는 기법.
ㅇ 특징:
– 통계적 방법, 머신러닝, 딥러닝 기반 접근 가능.
– 임계값 기반, 예측 오차 기반 탐지.
ㅇ 적합한 경우:
– 센서 데이터 모니터링, 금융 사기 탐지, 네트워크 보안.
ㅇ 시험 함정:
– 단순 임계값 설정은 계절성이나 추세 변화를 반영하지 못함.
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) 이상 탐지는 정상 패턴에서 벗어난 값을 찾아낸다.
– (X) 이상 탐지는 임계값만으로 항상 정확하게 동작한다.
ㅁ 추가 학습 내용
학습 정리
1. FFT(Fast Fourier Transform)
– 샘플링 주파수와 나이퀴스트 이론: 신호를 디지털로 변환할 때 필요한 최소 샘플링 주파수(신호 최대 주파수의 2배) 이해
– 스펙트럼 누설(Leakage): 주기성이 맞지 않는 구간에서 FFT 수행 시 에너지가 인접 주파수로 퍼지는 현상 이해
– 윈도잉(Windowing): 스펙트럼 누설 감소를 위해 사용하는 기법
– 해닝(Hanning) 윈도: 부드러운 감쇠, 주파수 해상도와 누설 억제의 균형
– 해밍(Hamming) 윈도: 메인로브 폭은 해닝과 비슷하나 사이드로브 억제가 더 강함
– 블랙맨(Blackman) 윈도: 사이드로브 억제 효과가 가장 크지만 주파수 해상도 손실이 큼
2. 시계열 분해
– STL(Seasonal-Trend decomposition using Loess): 계절성, 추세, 잔차를 부드럽게 분리하는 현대적 방법
– 가법(Additive) 모형: 계절성·추세·잔차가 단순 합으로 구성, 변동 폭 일정
– 승법(Multiplicative) 모형: 계절성·추세·잔차가 곱으로 구성, 변동 폭이 수준에 비례
3. 이상 탐지
– ARIMA 기반 예측 오차 탐지: 시계열 예측 후 예측값과 실제값의 차이를 이용해 이상 여부 판단
– Isolation Forest: 데이터 분할을 통해 이상치가 쉽게 분리되는 특성을 이용
– LSTM Autoencoder: 시계열 데이터를 압축·복원하며 재구성 오차로 이상 탐지
시험 대비 체크리스트
[ ] 샘플링 주파수와 나이퀴스트 이론 정의와 관계를 설명할 수 있는가
[ ] 스펙트럼 누설의 원인과 영향, 해결 방법을 이해했는가
[ ] 해닝, 해밍, 블랙맨 윈도의 특성과 차이를 구분할 수 있는가
[ ] STL 분해 절차와 장점을 설명할 수 있는가
[ ] 가법·승법 모형의 차이와 선택 기준을 알고 있는가
[ ] ARIMA 기반 이상 탐지의 절차를 설명할 수 있는가
[ ] Isolation Forest의 동작 원리를 이해했는가
[ ] LSTM Autoencoder의 구조와 이상 탐지 방식에 대해 설명할 수 있는가