데이터 전처리: 처리 기술

ㅁ 처리 기술

1. 기상 보간

ㅇ 정의:
– 시계열 데이터에서 결측값을 주변 시점의 데이터 값을 이용해 추정하여 채우는 기법.
– 기상 데이터나 센서 데이터 등에서 시간 간격이 불규칙하거나 누락된 값을 보완하는 데 사용.

ㅇ 특징:
– 선형 보간, 스플라인 보간, 최근접값 보간 등 다양한 방식 존재.
– 데이터의 연속성과 패턴을 유지하려는 목적.

ㅇ 적합한 경우:
– 센서 오류나 통신 장애로 일부 데이터가 누락된 경우.
– 기상 관측소 간의 시간대별 값이 불완전한 경우.

ㅇ 시험 함정:
– 보간은 예측이 아닌 추정이므로 미래값 예측에 사용하면 안 됨.
– 보간 방식에 따라 데이터 왜곡 가능성 존재.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “결측값을 인접 시점 값으로 채우는 방법은 보간이다.”
– X: “보간은 미래 값을 예측하는 데 사용된다.”

================

2. FFT 변환

ㅇ 정의:
– Fast Fourier Transform의 약자로, 시계열 데이터를 주파수 영역으로 변환하는 알고리즘.
– 시간 영역의 신호를 주파수 성분으로 분해하여 분석 가능.

ㅇ 특징:
– 계산 속도가 빠르고 대규모 데이터 처리에 효율적.
– 주기성, 주파수 특성 분석에 유용.

ㅇ 적합한 경우:
– 주기적 패턴 분석, 노이즈 제거, 필터링.
– 진동, 음향, 전력 신호 분석.

ㅇ 시험 함정:
– FFT는 비정상(non-stationary) 데이터에 직접 적용 시 해석이 어려움.
– FFT는 시간 정보를 직접 제공하지 않음.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “FFT는 시계열 데이터를 주파수 영역으로 변환한다.”
– X: “FFT는 시간 영역에서의 데이터 변화를 직접 보여준다.”

================

3. 분해/합성

ㅇ 정의:
– 시계열 데이터를 트렌드, 계절성, 불규칙 성분 등으로 분해하거나 다시 합성하는 기법.

ㅇ 특징:
– 시계열 분석의 전처리 단계로 활용.
– 분해 후 각 성분을 개별적으로 분석 가능.

ㅇ 적합한 경우:
– 트렌드와 계절성을 분리하여 분석할 때.
– 이상치 탐지 및 예측 모델 개선.

ㅇ 시험 함정:
– 분해 방법(가법, 승법)에 따라 해석이 달라짐.
– 합성 시 성분 누락 또는 왜곡 가능성.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “시계열 분해는 트렌드와 계절성을 분리할 수 있다.”
– X: “분해된 성분은 다시 합성할 수 없다.”

================

4. 트렌드 제거

ㅇ 정의:
– 시계열 데이터에서 장기적인 상승 또는 하락 경향(트렌드)을 제거하는 기법.

ㅇ 특징:
– 차분(differencing), 회귀분석 등을 사용.
– 데이터의 정상성(stationarity) 확보를 위해 필요.

ㅇ 적합한 경우:
– ARIMA 등 정상성 가정 기반 모델 적용 전.
– 장기 트렌드가 분석 목적에 방해가 되는 경우.

ㅇ 시험 함정:
– 트렌드 제거 후 계절성이나 주기성까지 제거될 수 있음.
– 과도한 차분은 데이터 손실 초래.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “트렌드 제거는 시계열의 정상성을 확보하는 방법 중 하나다.”
– X: “트렌드 제거는 계절성을 강화한다.”

ㅁ 추가 학습 내용

추가 학습 정리

1. 기상 데이터 보간 시 시간 간격이 불규칙한 경우, 선형 보간보다 스플라인 보간이 더 적합할 수 있다.
2. FFT 변환 결과는 복소수 형태이며, 진폭과 위상 정보를 모두 포함하므로 해석 시 주의해야 한다.
3. STL(Seasonal-Trend decomposition using Loess) 방법은 비정상 데이터에서도 유연하게 적용할 수 있다.
4. 트렌드 제거 방법에는 1차 차분 외에도 이동평균을 이용한 평활화 기법이 있다.
5. 시계열 처리 기술은 조합하여 사용할 수 있으며, 예를 들어 트렌드 제거 후 FFT 분석을 수행할 수 있다.
6. 시험에서는 각 기법의 목적, 적용 시 주의사항, 그리고 기법 간 차이점을 비교하는 문제가 자주 출제된다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*