데이터 전처리: 데이터 통합 – ELT

ㅁ 데이터 통합

ㅇ 정의:
서로 다른 출처나 형식의 데이터를 하나의 일관된 형태로 결합하는 과정으로, 분석 및 활용을 위해 데이터 품질을 높이는 작업.

ㅇ 특징:
– 데이터 소스가 다수일 경우 스키마 매핑, 중복 제거, 형식 변환 필요
– 통합 과정에서 데이터 품질 검증 필수
– 데이터 웨어하우스나 데이터 레이크 환경에서 주로 수행

ㅇ 적합한 경우:
– 여러 부서나 시스템에서 생성된 데이터를 하나의 분석 플랫폼에서 활용할 때
– M&A 이후 서로 다른 시스템의 데이터를 통합해야 할 때

ㅇ 시험 함정:
– 데이터 통합과 단순 데이터 병합을 혼동하는 경우
– ETL과 ELT의 처리 순서를 헷갈리는 경우

ㅇ 시험 대비 “패턴 보기” 예시:
O: 서로 다른 데이터 소스를 하나의 스키마로 변환하는 과정이다.
X: 데이터 통합은 데이터 품질 검증 없이 단순히 합치는 작업이다.

================================

1. ELT

ㅇ 정의:
Extract(추출) → Load(적재) → Transform(변환) 순서로 진행하는 데이터 처리 방식으로, 변환 작업을 데이터베이스나 데이터 웨어하우스 내에서 수행.

ㅇ 특징:
– 원본 데이터를 먼저 저장소에 적재 후, 저장소의 연산 자원을 활용하여 변환 수행
– 대규모 데이터 처리에 적합하며, 클라우드 기반 DW와 궁합이 좋음
– 변환 로직이 저장소 내부 SQL이나 처리 엔진에서 실행됨

ㅇ 적합한 경우:
– 데이터 웨어하우스의 처리 성능이 우수하고, 저장소 내부에서 변환하는 것이 효율적인 경우
– 실시간 또는 준실시간 데이터 적재가 필요한 경우

ㅇ 시험 함정:
– ETL과 순서를 혼동하여 Load 이전에 Transform이 이루어진다고 잘못 이해하는 경우
– ELT를 ETL의 하위 개념으로 오해하는 경우

ㅇ 시험 대비 “패턴 보기” 예시:
O: ELT는 데이터를 먼저 적재한 후 변환한다.
X: ELT는 ETL과 동일하게 변환 후 적재한다.

ㅁ 추가 학습 내용

구분 / ELT / ETL
처리 순서 / Extract → Load → Transform / Extract → Transform → Load
변환 수행 위치 / 데이터 웨어하우스 내부에서 변환 / ETL 서버 또는 전용 변환 도구에서 변환
성능 특성 / 데이터 웨어하우스의 대규모 병렬 처리 성능 활용, 대용량 데이터에 유리 / 변환 과정에서 서버 리소스 사용, 대량 데이터 처리 시 병목 가능
활용 환경 / 클라우드 기반 데이터 웨어하우스(BigQuery, Snowflake, Redshift 등) 중심 / 온프레미스 환경이나 전통적 DW 환경에서 주로 사용
실시간 처리 적합성 / 데이터 로딩 후 변환 가능하므로 대규모 배치 처리에 강점 / 변환 후 로드하므로 실시간 처리나 데이터 정제 후 적재에 유리

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*