데이터 전처리: 시간 데이터 처리
ㅁ 시간 데이터 처리
ㅇ 정의:
시간 축을 기반으로 한 데이터의 변환, 집계, 분해, 패턴 분석 등을 수행하여 분석 및 모델링에 적합한 형태로 만드는 과정
ㅇ 특징:
– 시간 단위(초, 분, 시, 일, 주, 월 등)에 따라 데이터의 간격과 패턴이 달라짐
– 결측치, 이상치, 불규칙 간격 등 시간 데이터 특유의 품질 문제 존재
– 시계열 분석, 예측 모델링, 이상 탐지 등에서 필수 전처리 단계
ㅇ 적합한 경우:
– 센서 데이터, 로그 데이터, 금융 시계열, 판매량 추이 분석 등
ㅇ 시험 함정:
– 시간대(Timezone) 변환 누락으로 인한 데이터 왜곡
– 리샘플링 시 집계 함수 선택 오류(평균 vs 합계)
ㅇ 시험 대비 “패턴 보기” 예시:
O: “시간 간격을 변경하여 하루 단위 평균 매출을 계산하는 것은 리샘플링의 예이다.”
X: “리샘플링은 시계열 데이터의 계절성을 제거하는 기법이다.”
================================
1. 리샘플링
ㅇ 정의:
시계열 데이터의 관측 간격을 변경하여 새로운 시간 간격으로 데이터를 재구성하는 기법
ㅇ 특징:
– 업샘플링(세분화)과 다운샘플링(집계)로 구분
– 다운샘플링 시 집계 함수(평균, 합계, 최대값 등) 지정 필요
ㅇ 적합한 경우:
– 분 단위 데이터를 시간 단위 데이터로 변환
– 일별 데이터를 주별 또는 월별 데이터로 변환
ㅇ 시험 함정:
– 업샘플링 시 결측치 처리 방법 누락
– 집계 함수 선택이 분석 목적과 불일치
ㅇ 시험 대비 “패턴 보기” 예시:
O: “분 단위 데이터를 시간 단위 평균으로 변환하는 것은 다운샘플링이다.”
X: “리샘플링은 항상 데이터 양을 줄이는 과정이다.”
================================
2. 시즌성 제거
ㅇ 정의:
시계열 데이터에서 주기적으로 반복되는 패턴(계절성)을 제거하여 추세와 불규칙 성분을 분석하기 쉽게 만드는 기법
ㅇ 특징:
– 이동평균, 차분, 필터링 등을 통해 수행
– 예측 모델의 성능 향상에 기여
ㅇ 적합한 경우:
– 월별 판매량에서 계절 요인을 제거하여 순수한 추세 분석
ㅇ 시험 함정:
– 계절성 제거 후 데이터 해석 시 원래 단위와 의미 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: “계절성 제거는 주기적 변동을 제거하여 장기 추세를 분석하는 데 유용하다.”
X: “계절성 제거는 시계열 데이터를 시간 간격별로 재구성하는 과정이다.”
================================
3. 시계열 분해
ㅇ 정의:
시계열 데이터를 추세(Trend), 계절성(Seasonality), 불규칙성(Residual)으로 분리하는 기법
ㅇ 특징:
– 가법 모델(Additive)과 승법 모델(Multiplicative) 존재
– 데이터 성격에 따라 분해 방식 선택
ㅇ 적합한 경우:
– 패턴 분석, 예측 모델 설계 전 데이터 구조 이해
ㅇ 시험 함정:
– 승법 모델을 데이터가 음수 값을 가질 때 적용하는 오류
ㅇ 시험 대비 “패턴 보기” 예시:
O: “시계열 분해를 통해 데이터의 추세와 계절성을 분리할 수 있다.”
X: “시계열 분해는 항상 가법 모델을 사용한다.”
================================
4. 윈도잉
ㅇ 정의:
시계열 데이터를 일정한 크기의 구간(윈도우)으로 나누어 구간별 통계량이나 특징을 계산하는 기법
ㅇ 특징:
– 고정 윈도우, 가중치 윈도우, 이동 윈도우 등 다양한 방식 존재
– 노이즈 완화, 패턴 검출, 특징 추출에 활용
ㅇ 적합한 경우:
– 이동평균 계산, 변동성 분석, 이상치 탐지
ㅇ 시험 함정:
– 윈도우 크기 설정이 지나치게 크거나 작아 패턴 왜곡
ㅇ 시험 대비 “패턴 보기” 예시:
O: “윈도잉 기법은 이동평균 계산에 활용될 수 있다.”
X: “윈도잉은 시계열 데이터를 분해하여 추세와 계절성을 분리하는 과정이다.”
ㅁ 추가 학습 내용
추가 학습 정리
1) 리샘플링 시 시간대(Timezone) 처리와 결측치 보간(interpolation) 방법 비교
– 리샘플링 과정에서 UTC, 로컬 타임존 변환 필요성 이해
– 타임존 변환 시 발생할 수 있는 시차 문제와 중복/누락 데이터 처리
– 결측치 보간 기법 비교: 선형 보간, 시계열 특화 보간(method=’time’), 전방 채우기(FFill), 후방 채우기(BFill) 등 장단점 파악
2) 시즌성 제거 시 고급 기법
– STL(Seasonal-Trend decomposition using Loess): 비선형 추세와 계절성 분해 가능, 파라미터 조정 유연성
– X-13ARIMA-SEATS: 미국 Census Bureau 제공, ARIMA 기반 계절조정, 공식 통계 활용 사례
– 각 기법의 적용 조건과 결과 해석 방법 숙지
3) 시계열 분해 시 가법/승법 모델 선택 기준과 로그 변환 필요성
– 가법 모델: 계절 변동 폭이 일정할 때 사용
– 승법 모델: 계절 변동 폭이 데이터 크기에 비례할 때 사용
– 로그 변환: 분산 안정화 및 승법 모델을 가법 모델로 변환 가능
4) 윈도잉에서 고정 윈도우 vs 가변 윈도우 장단점과 FFT 기반 스펙트럼 분석 연계
– 고정 윈도우: 일정 길이 유지, 계산 단순, 변동성 높은 데이터에서 한계
– 가변 윈도우: 데이터 특성에 맞춰 길이 변경, 적응성 높음, 구현 복잡
– FFT 기반 스펙트럼 분석: 주파수 영역에서 주기성 분석, 윈도잉 기법과 결합 시 노이즈 완화 및 주기 검출 성능 향상
5) 시간 데이터 처리 전 단계에서의 이상치 탐지와 결측치 처리 전략
– 이상치 탐지: Z-score, IQR(사분위 범위) 기법 원리와 계산법
– 결측치 처리: 삭제, 평균/중앙값 대체, 시계열 보간, 모델 기반 예측 대체 방법의 장단점 비교
6) 시계열 데이터의 정상성(Stationarity) 개념과 ADF 검정
– 정상성: 평균, 분산, 자기공분산이 시간에 따라 변하지 않는 특성
– 비정상 시계열을 정상 시계열로 변환하는 방법: 차분, 변환(로그, 제곱근 등)
– ADF(Augmented Dickey-Fuller) 검정 절차와 p-value 해석, 귀무가설/대립가설 이해
시험 대비 체크리스트
[ ] 리샘플링 시 타임존 변환 과정과 문제점 설명 가능
[ ] 결측치 보간 방법별 특징과 적용 사례 구분 가능
[ ] STL과 X-13ARIMA-SEATS의 차이점과 장단점 설명 가능
[ ] 가법/승법 모델 선택 기준과 로그 변환의 필요성 이해
[ ] 고정 윈도우와 가변 윈도우의 장단점 비교 가능
[ ] FFT 스펙트럼 분석의 목적과 윈도잉과의 연계 설명 가능
[ ] Z-score, IQR을 이용한 이상치 탐지 방법 계산 가능
[ ] 결측치 처리 전략별 장단점 설명 가능
[ ] 정상성의 정의와 중요성 설명 가능
[ ] ADF 검정 절차와 결과 해석 가능