데이터 전처리: 데이터 소스 – 센서 데이터
ㅁ 데이터 소스
1. 센서 데이터
ㅇ 정의:
각종 IoT 기기, 산업 장비, 환경 모니터링 장치 등에서 실시간 혹은 주기적으로 수집되는 물리적·환경적 상태 정보(온도, 습도, 위치, 속도 등)를 디지털 형태로 변환한 데이터.
ㅇ 특징:
– 실시간성, 연속성, 대용량 특성을 가짐.
– 잡음(noise)과 결측치가 빈번하게 발생.
– 다양한 센서 프로토콜과 형식(CSV, JSON, 바이너리 등)으로 제공됨.
– 시간 축(time-series) 기반 데이터가 많음.
ㅇ 적합한 경우:
– 공장 자동화, 스마트홈, 자율주행, 환경 모니터링 등 실시간 상태 추적이 필요한 경우.
– 예측 유지보수(Predictive Maintenance)나 이상 탐지(Anomaly Detection) 모델 학습.
ㅇ 시험 함정:
– 센서 데이터는 반드시 정형 데이터라고 단정하는 경우 (비정형 데이터도 존재함: 예, 이미지 센서).
– 모든 센서 데이터가 실시간 수집된다고 오해하는 경우 (일부는 배치 전송).
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “온도 센서에서 발생하는 시계열 데이터는 결측치 처리와 이상치 제거가 중요하다.”
– X: “센서 데이터는 항상 완전하고 정제된 상태로 제공된다.”
– O: “센서 데이터는 다양한 형식과 프로토콜로 수집될 수 있다.”
– X: “센서 데이터는 반드시 JSON 형식으로만 제공된다.”
ㅁ 추가 학습 내용
센서 데이터 관련 시험 대비 핵심 정리
1. 데이터 수집 주기
– 실시간 수집: 데이터가 발생하는 즉시 전송 및 처리
– 배치 수집: 일정 주기마다 데이터를 모아 전송 및 처리
2. 통신 프로토콜
– MQTT: 경량 메시지 프로토콜, IoT 환경에 적합
– CoAP: 제한된 장치·네트워크 환경에서 사용되는 경량 프로토콜
– HTTP: 범용적이며 호환성이 높지만 상대적으로 무겁고 지연이 발생할 수 있음
3. 데이터 품질 관리 기법
– 필터링: 노이즈 제거
– 스무딩: 데이터 변동 완화
– 캘리브레이션: 센서 측정값을 실제 값에 맞게 보정
4. 시간 동기화 문제
– 여러 센서의 데이터 타임스탬프를 일치시키는 과정 필요
– 동기화 오류 시 데이터 분석 정확도 저하
5. 센서 퓨전(Sensor Fusion)
– 여러 센서 데이터를 결합하여 정확성과 신뢰성을 향상시키는 기법
6. 센서 고장 및 드리프트(Drift)
– 고장: 센서가 비정상적인 값 출력
– 드리프트: 시간이 지남에 따라 측정값이 서서히 변하는 현상
7. 데이터 왜곡 탐지·보정 알고리즘
– 칼만 필터(Kalman Filter): 노이즈 환경에서 상태 추정 및 예측
– 이동 평균(Moving Average): 일정 구간 평균으로 변동 완화 및 이상치 완화