데이터 전처리: 결측치 처리 – 삭제

ㅁ 결측치 처리 ㅇ 정의: 데이터셋 내에서 누락된 값(결측치, Missing Value)을 적절히 처리하여 분석 및 모델링의 정확성을 높이는 과정. ㅇ 특징: – 결측치가 전체 데이터의 품질과 분석 결과에 직접적인 영향을 미침. – 처리 방식에 따라 데이터 분포와 통계적 특성이 변할 수 있음. – 삭제, 대체, 예측 기반 보정 등 다양한 방법 존재. ㅇ 적합한 경우:

데이터 전처리: 데이터 포맷 – HDF5

ㅁ 데이터 포맷 1. HDF5 ㅇ 정의: 대용량의 수치 데이터 및 메타데이터를 계층적 구조로 저장하고 효율적으로 읽고 쓸 수 있는 파일 포맷 및 라이브러리. 주로 과학, 공학, 머신러닝 분야에서 사용됨. ㅇ 특징: – 계층적 그룹과 데이터셋 구조를 가짐 (파일 시스템처럼 트리 구조) – 대규모 데이터의 부분 읽기/쓰기 지원 (슬라이싱, 청크 단위 접근) – 다양한 데이터

데이터 전처리: 데이터 포맷 – Avro

ㅁ 데이터 포맷 1. Avro ㅇ 정의: Apache Hadoop 생태계에서 주로 사용되는 데이터 직렬화 프레임워크로, JSON 기반 스키마를 사용하여 데이터를 이진 포맷으로 저장 및 전송하는 기술. ㅇ 특징: – 스키마(JSON)와 데이터가 분리되어 관리됨 – 이진 포맷으로 저장되어 용량 효율성과 처리 속도가 높음 – 다양한 프로그래밍 언어(Java, Python 등)와 호환 – 스키마 진화(필드 추가/삭제) 지원 ㅇ

데이터 전처리: 데이터 포맷 – Parquet

ㅁ 데이터 포맷 ㅇ 정의: 대용량 데이터 분석을 위해 컬럼 기반으로 저장되는 오픈소스 파일 포맷으로, 주로 Hadoop, Spark 등 분산 처리 환경에서 사용됨. ㅇ 특징: – 컬럼 단위 저장으로 특정 컬럼만 읽을 수 있어 I/O 효율이 높음 – 압축 및 인코딩 최적화로 저장 공간 절약 – 스키마 정보를 포함하여 데이터 타입 일관성 유지 – 다양한

데이터 전처리: 데이터 포맷 – JSON

ㅁ 데이터 포맷 ㅇ 정의: 데이터 포맷은 데이터를 저장, 전송, 교환하기 위해 구조화하는 방식으로, JSON은 그 중 하나의 형식이다. ㅇ 특징: – JSON(JavaScript Object Notation)은 경량의 데이터 교환 형식으로, 사람이 읽고 쓰기 쉽고 기계가 파싱하고 생성하기 쉽다. – 키-값 쌍으로 구성되며, 중첩 구조를 지원한다. – 언어 독립적이며, 대부분의 프로그래밍 언어에서 라이브러리 지원이 풍부하다. ㅇ 적합한

데이터 전처리: 데이터 포맷 – CSV

ㅁ 데이터 포맷 ㅇ 정의: 데이터 포맷은 데이터를 저장하고 교환하기 위한 구조와 규칙을 의미하며, 분석 및 처리 과정에서 호환성과 효율성을 위해 표준화된 형태를 사용한다. ㅇ 특징: – 데이터 저장 구조와 구분자, 인코딩 방식 등이 정의됨 – 파일 크기, 읽기/쓰기 속도, 호환성에 영향을 줌 – 다양한 시스템과 언어에서 읽고 쓸 수 있도록 표준화된 형식 선호 ㅇ

데이터 전처리: 데이터 저장 – 클라우드 스토리지

ㅁ 데이터 저장 ㅇ 정의: 데이터를 장기 보관하거나 분석, 공유를 위해 물리적 또는 가상 저장소에 보관하는 과정. ㅇ 특징: – 대용량 데이터를 안정적으로 저장 가능 – 접근 권한 관리 및 보안 기능 제공 – 백업 및 복구 기능 포함 ㅇ 적합한 경우: – 수집된 데이터를 장기간 보관해야 하는 경우 – 여러 지역/조직에서 동일 데이터에 접근해야

데이터 전처리: 데이터 저장 – 데이터 웨어하우스

ㅁ 데이터 저장 ㅇ 정의: 대량의 이질적인 데이터를 통합하여 분석과 의사결정을 지원하기 위해 설계된 중앙 집중형 데이터 저장소. ㅇ 특징: – 주로 정형 데이터 중심 – ETL(Extract, Transform, Load) 과정을 거쳐 데이터 적재 – 주제 지향적, 통합적, 시계열적, 비휘발성 – 대규모 분석 쿼리에 최적화 ㅇ 적합한 경우: – 장기적인 경영 분석 및 BI(Business Intelligence) 보고

데이터 전처리: 데이터 저장 – 데이터 레이크

ㅁ 데이터 저장 ㅇ 정의: – 데이터 레이크(Data Lake)는 구조화, 반구조화, 비구조화 데이터를 원본 형태 그대로 대규모로 저장할 수 있는 중앙 저장소를 의미한다. ㅇ 특징: – 스키마를 사전에 정의하지 않고 저장(Schema-on-read) 가능 – 다양한 데이터 소스와 포맷(CSV, JSON, Parquet, 이미지, 로그 등) 지원 – 대규모 확장성과 저비용 스토리지 사용(AWS S3, Azure Data Lake Storage 등)

데이터 전처리: 데이터 소스 – 센서 데이터

ㅁ 데이터 소스 1. 센서 데이터 ㅇ 정의: 각종 IoT 기기, 산업 장비, 환경 모니터링 장치 등에서 실시간 혹은 주기적으로 수집되는 물리적·환경적 상태 정보(온도, 습도, 위치, 속도 등)를 디지털 형태로 변환한 데이터. ㅇ 특징: – 실시간성, 연속성, 대용량 특성을 가짐. – 잡음(noise)과 결측치가 빈번하게 발생. – 다양한 센서 프로토콜과 형식(CSV, JSON, 바이너리 등)으로 제공됨. –