데이터 전처리: 데이터 저장 – 데이터 웨어하우스
ㅁ 데이터 저장
ㅇ 정의:
대량의 이질적인 데이터를 통합하여 분석과 의사결정을 지원하기 위해 설계된 중앙 집중형 데이터 저장소.
ㅇ 특징:
– 주로 정형 데이터 중심
– ETL(Extract, Transform, Load) 과정을 거쳐 데이터 적재
– 주제 지향적, 통합적, 시계열적, 비휘발성
– 대규모 분석 쿼리에 최적화
ㅇ 적합한 경우:
– 장기적인 경영 분석 및 BI(Business Intelligence) 보고
– 여러 운영 시스템에서 데이터를 통합하여 분석할 때
– 데이터의 변경보다 조회가 훨씬 많은 경우
ㅇ 시험 함정:
– 데이터 웨어하우스는 실시간 트랜잭션 처리를 위한 것이 아님
– 데이터 마트와 혼동하기 쉬움 (데이터 마트는 특정 부서/주제 중심의 소규모 데이터 저장소)
– OLTP와 OLAP의 목적 및 차이를 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: “데이터 웨어하우스는 주제 지향적이고 비휘발성 특성을 가진다.”
X: “데이터 웨어하우스는 주로 실시간 거래 처리를 위해 설계된다.”
ㅁ 추가 학습 내용
데이터 웨어하우스의 4대 특성은 주제 지향성, 통합성, 시계열성, 비휘발성으로, 시험에서 자주 출제되는 핵심 개념이다. 데이터 웨어하우스는 OLAP(On-Line Analytical Processing) 분석의 기반이 되며, OLAP은 데이터 웨어하우스에 저장된 데이터를 다차원적으로 분석하는 데 사용된다.
스키마 설계 유형에는 스타 스키마, 스노우플레이크 스키마, 갤럭시 스키마가 있으며, 각각 구조와 장단점이 다르다. 스타 스키마는 단순 구조로 조회 성능이 좋지만 중복이 많을 수 있고, 스노우플레이크 스키마는 정규화로 데이터 중복을 줄이지만 조인 복잡도가 높다. 갤럭시 스키마는 여러 사실 테이블을 공유 차원 테이블과 연결하여 복잡한 분석에 유리하다.
ETL(Extract, Transform, Load)과 ELT(Extract, Load, Transform)는 데이터 처리 순서에서 차이가 있으며, 클라우드 환경에서는 ELT 방식이 확산되고 있다. 예를 들어 Snowflake, BigQuery 등은 대규모 병렬 처리와 스토리지-컴퓨팅 분리를 통해 ELT를 효율적으로 지원한다.
데이터 레이크는 정형 데이터뿐 아니라 비정형 데이터도 저장 가능하며, 사전 스키마 정의가 필요 없다는 점에서 데이터 웨어하우스와 다르다.
메타데이터 관리는 데이터 품질 확보와 거버넌스 유지에 필수적이다.
성능 최적화 기법으로는 파티셔닝, 인덱싱, 물리적 설계 고려사항이 있으며, 이는 대규모 데이터 조회와 분석 속도를 향상시키는 데 중요하다.