데이터 전처리: 데이터 저장 – 데이터 레이크

ㅁ 데이터 저장

ㅇ 정의:
– 데이터 레이크(Data Lake)는 구조화, 반구조화, 비구조화 데이터를 원본 형태 그대로 대규모로 저장할 수 있는 중앙 저장소를 의미한다.

ㅇ 특징:
– 스키마를 사전에 정의하지 않고 저장(Schema-on-read) 가능
– 다양한 데이터 소스와 포맷(CSV, JSON, Parquet, 이미지, 로그 등) 지원
– 대규모 확장성과 저비용 스토리지 사용(AWS S3, Azure Data Lake Storage 등)
– 빅데이터 분석, 머신러닝, 실시간 분석에 활용 가능

ㅇ 적합한 경우:
– 데이터의 형태와 구조가 다양하고 향후 분석 목적이 변할 수 있는 경우
– 장기간 원본 데이터 보존이 필요한 경우
– 다양한 분석 도구와 프레임워크(Spark, Presto, Hive 등)와 연계가 필요한 경우

ㅇ 시험 함정:
– 데이터 웨어하우스와 혼동: 웨어하우스는 Schema-on-write, 레이크는 Schema-on-read
– 정제되지 않은 데이터 저장 가능 여부: 레이크는 가능, 웨어하우스는 불가능
– 모든 경우에 데이터 레이크가 효율적이라고 생각하는 오류

ㅇ 시험 대비 “패턴 보기” 예시:
– O: 데이터 레이크는 원본 데이터 형태로 저장하며, 스키마는 읽을 때 적용한다.
– O: 데이터 레이크는 비정형 데이터도 저장할 수 있다.
– X: 데이터 레이크는 저장 전 반드시 스키마를 정의해야 한다.
– X: 데이터 레이크는 정형 데이터만 저장 가능하다.

ㅁ 추가 학습 내용

데이터 레이크 학습 정리

1. 데이터 거버넌스와 보안
– 다양한 데이터가 모이므로 접근 제어, 데이터 카탈로그, 메타데이터 관리가 필수적임
– 데이터의 무단 접근 방지와 규제 준수를 위해 권한 관리 체계 필요

2. 데이터 스웜핑(Data Swamp) 위험
– 관리되지 않은 데이터가 무분별하게 쌓이면 검색과 분석이 어려워짐
– 데이터 품질 저하로 인해 활용 가치가 떨어짐
– 체계적인 데이터 분류와 관리 프로세스 필요

3. 데이터 웨어하우스와의 통합 아키텍처
– 레이크하우스(Lakehouse) 개념: 데이터 레이크의 유연성과 데이터 웨어하우스의 구조화된 분석 기능을 결합
– 현대 기업에서 두 시스템의 장점을 활용하는 추세

4. 클라우드 서비스별 데이터 레이크 구현 사례
– AWS: S3 + Glue
– Azure: Data Lake Storage + Synapse
– GCP: Cloud Storage + BigQuery

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*