데이터 전처리: 시간 데이터 처리 – 윈도잉

ㅁ 시간 데이터 처리

ㅇ 정의:
시간 데이터 처리란 시계열 데이터에서 시간 순서에 따라 데이터를 정리, 변환, 분석하기 위한 전처리 과정으로, 주기성, 추세, 계절성을 반영하여 분석 가능하도록 만드는 작업이다.

ㅇ 특징:
– 시계열 특성을 고려하여 결측치 보간, 이상치 처리, 리샘플링, 이동평균 등의 기법을 활용
– 시간 단위(초, 분, 시, 일, 주 등) 변환 가능
– 시점 간 상관관계, 추세 분석, 패턴 탐지를 위한 기반 마련

ㅇ 적합한 경우:
– 센서 데이터, 로그 데이터, 주식 가격 등 시간 순서가 중요한 데이터 전처리 시
– 시계열 예측, 이상 탐지, 이벤트 분석 전에 데이터 품질을 높이고자 할 때

ㅇ 시험 함정:
– 단순 정렬만으로 시계열 처리가 끝난다고 착각
– 타임존 변환과 시간 단위 통일을 누락하는 경우
– 이동평균과 누적합 개념 혼동

ㅇ 시험 대비 “패턴 보기” 예시:
O: “시계열 데이터 전처리에는 결측치 보간, 리샘플링, 윈도잉 등이 포함된다.”
X: “시계열 데이터 전처리는 단순히 시간순으로 정렬하는 것만 의미한다.”

================================

1. 윈도잉

ㅇ 정의:
시계열 데이터에서 일정한 구간(윈도우)을 설정하여 해당 구간 내의 데이터 집합을 분석하거나 통계값을 계산하는 기법.

ㅇ 특징:
– 고정 크기 윈도우(Fixed Window), 슬라이딩 윈도우(Sliding Window), 확장 윈도우(Expanding Window) 등의 유형 존재
– 이동평균, 이동표준편차, 누적합 계산 등에 활용
– 데이터의 연속성 및 국소적 패턴 파악에 유리

ㅇ 적합한 경우:
– 단기 변동성을 줄이고 추세를 파악할 때
– 이벤트 전후 구간의 통계 특성 비교 시
– 스트리밍 데이터의 실시간 분석

ㅇ 시험 함정:
– 윈도우 크기를 너무 작거나 크게 설정하면 패턴이 왜곡될 수 있음
– 슬라이딩 윈도우와 롤링 윈도우 용어 혼동
– 고정 윈도우와 가변 윈도우의 차이를 간과

ㅇ 시험 대비 “패턴 보기” 예시:
O: “슬라이딩 윈도우는 일정 간격으로 윈도우를 이동시키며 통계를 계산한다.”
X: “윈도잉은 반드시 윈도우 크기가 고정되어야 한다.”

ㅁ 추가 학습 내용

윈도잉 기법에서는 윈도우 크기(window size)와 이동 간격(step size, stride)의 설정이 분석 결과에 큰 영향을 미친다.
윈도우 유형에는 고정 윈도우(fixed window)와 가변 윈도우(variable window)가 있으며, 시간 기반 윈도우(time-based window)와 샘플 개수 기반 윈도우(count-based window)로도 구분된다.
실무에서는 결측치가 포함된 윈도우 처리 방법으로 제외, 보간, 대체 방식이 사용된다.
또한 스트리밍 환경에서는 세션 윈도우(session window), 텀블링 윈도우(tumbling window) 등 윈도우 연산 최적화 기법이 중요하다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*