데이터 전처리: 주요 기법

ㅁ 주요 기법

1. FFT

ㅇ 정의:
– Fast Fourier Transform의 약자로, 시계열 데이터를 주파수 영역으로 변환하는 알고리즘.
– 시간 영역에서의 신호를 주파수 성분으로 분해하여 분석.

ㅇ 특징:
– 연산 속도가 빠르고 대규모 데이터 처리에 적합.
– 주기성, 진동 패턴 분석에 유리.
– 노이즈 제거, 필터링, 스펙트럼 분석 등에 활용.

ㅇ 적합한 경우:
– 주기성이 있는 센서 데이터 분석.
– 음성, 진동, 전력 신호 분석.

ㅇ 시험 함정:
– FFT는 시간 영역 데이터의 순서를 보존하지 않음.
– FFT 결과는 복소수이며, 진폭과 위상 정보를 모두 포함.
– DFT와 FFT의 차이를 혼동.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) FFT는 시계열 데이터를 주파수 성분으로 빠르게 변환한다.
– (X) FFT는 시간 영역에서 데이터의 순서를 유지하며 분석한다.

2. 윈도잉

ㅇ 정의:
– 시계열 데이터를 일정 구간(윈도)으로 나누어 분석하는 기법.
– FFT, 필터링 등과 함께 사용되어 경계 효과를 줄임.

ㅇ 특징:
– 해밍, 한닝, 블랙맨 등 다양한 윈도 함수 존재.
– 경계 불연속성을 완화하여 스펙트럼 누출(leakage) 감소.

ㅇ 적합한 경우:
– 주파수 분석 시 경계 효과가 문제되는 경우.
– 실시간 데이터 스트리밍 분석.

ㅇ 시험 함정:
– 윈도 함수 선택에 따라 분석 결과가 달라질 수 있음.
– 윈도 크기를 너무 작게 하면 주파수 해상도가 떨어짐.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) 윈도잉은 경계 효과를 완화하기 위해 사용된다.
– (X) 윈도잉은 주파수 해상도를 항상 높인다.

3. 시계열 분해

ㅇ 정의:
– 시계열 데이터를 추세(Trend), 계절성(Seasonality), 불규칙성(Residual)으로 분리하는 기법.
– 가법 모형(additive)과 승법 모형(multiplicative)으로 구분.

ㅇ 특징:
– 데이터 패턴 이해와 예측 모델링에 활용.
– 계절성과 추세를 분리하여 노이즈 제거 가능.

ㅇ 적합한 경우:
– 판매량, 기온, 트래픽 등 주기적 패턴이 있는 데이터 분석.

ㅇ 시험 함정:
– 가법 모형은 계절 변동폭이 일정할 때, 승법 모형은 변동폭이 비례할 때 사용.
– 분해 전 데이터의 정상성 여부를 확인 필요.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) 시계열 분해는 데이터의 추세와 계절성을 분리할 수 있다.
– (X) 승법 모형은 계절 변동폭이 일정할 때 사용한다.

4. 이상 탐지

ㅇ 정의:
– 시계열 데이터에서 정상 패턴과 다른 이상값(Outlier)을 식별하는 기법.
– 통계적 방법, 머신러닝, 딥러닝 기반 방법이 존재.

ㅇ 특징:
– 임계값 기반, 이동평균, ARIMA, LSTM 등 다양한 접근 가능.
– 실시간 모니터링 및 경보 시스템에 활용.

ㅇ 적합한 경우:
– 센서 이상, 네트워크 침입, 금융 사기 탐지.

ㅇ 시험 함정:
– 이상값과 노이즈를 혼동.
– 학습 데이터에 이상값이 포함되면 탐지 성능 저하.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) 이상 탐지는 정상 패턴과 다른 데이터 포인트를 식별하는 과정이다.
– (X) 이상 탐지는 항상 노이즈를 제거하는 과정이다.

ㅁ 추가 학습 내용

FFT에서는 주파수 해상도와 시간 해상도의 트레이드오프 개념을 이해해야 한다.
윈도잉에서는 각 윈도 함수의 특성과 주파수 응답 차이를 숙지하는 것이 중요하다.
시계열 분해에서는 STL(Seasonal-Trend decomposition using Loess)과 같은 로버스트한 분해 기법이 출제될 수 있다.
이상 탐지에서는 Precision, Recall, F1-score 등 평가 지표와 False Positive, False Negative 개념이 자주 출제된다.
또한 이상 탐지 시 Z-score, IQR, Isolation Forest 등의 알고리즘별 특징과 장단점을 정리해 두어야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*