데이터 통합: ETL
ㅁ 데이터 통합
ㅇ 정의:
데이터 통합은 여러 출처에서 데이터를 수집하고 이를 일관된 형식으로 변환하여 하나의 시스템에 병합하는 과정이다.
ㅇ 특징:
– 데이터의 일관성을 유지하는 것이 핵심이다.
– 데이터 중복 제거와 형식 통일이 포함된다.
– 데이터 출처가 다양할수록 통합 과정이 복잡해진다.
ㅇ 적합한 경우:
– 여러 시스템에서 데이터를 수집해야 할 때.
– 데이터 분석을 위해 다양한 데이터 소스를 하나로 결합해야 할 때.
ㅇ 시험 함정:
– 데이터 통합과 데이터 변환의 차이를 혼동하는 경우.
– 통합 과정에서 발생할 수 있는 데이터 손실 문제를 간과하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
1. 데이터 통합은 데이터를 여러 소스에서 가져와 변환 없이 바로 사용하는 것이다. (X)
2. 데이터 통합은 데이터의 중복을 제거하고 일관된 형식으로 변환하는 과정을 포함한다. (O)
================================
1. ETL
ㅇ 정의:
ETL은 Extract(추출), Transform(변환), Load(적재)의 약자로, 데이터를 추출하여 변환한 후 저장소에 적재하는 데이터 처리 방식이다.
ㅇ 특징:
– 대량의 데이터를 처리할 수 있다.
– 데이터 웨어하우스 구축에 필수적이다.
– ETL 과정에서 데이터 품질 검증이 이루어질 수 있다.
ㅇ 적합한 경우:
– 데이터 웨어하우스에 데이터를 적재할 때.
– 데이터 분석 및 보고를 위해 데이터 변환이 필요한 경우.
ㅇ 시험 함정:
– ETL과 ELT의 순서를 혼동하는 경우.
– ETL의 각 단계에서 수행되는 작업을 명확히 구분하지 못하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
1. ETL은 데이터를 추출, 변환, 적재하는 순서로 진행된다. (O)
2. ETL의 변환 단계에서는 데이터를 저장소에 적재한다. (X)
ㅁ 추가 학습 내용
ELT(Extract, Load, Transform)는 데이터를 추출(Extract)한 뒤 데이터 웨어하우스나 데이터 레이크 같은 저장소에 먼저 적재(Load)하고, 이후에 필요한 변환(Transform) 작업을 수행하는 방식입니다. 이 방식은 클라우드 데이터 웨어하우스 환경에서 주로 사용되며, 대규모 데이터 처리에서 유리한 점이 있습니다. ELT는 저장소의 강력한 처리 성능을 활용하여 데이터를 변환하기 때문에 기존 ETL 방식보다 유연하고 확장성이 뛰어납니다. 특히, 클라우드 기반의 데이터 웨어하우스나 빅데이터 플랫폼에서 ELT 방식은 데이터 처리 속도와 효율성을 높이는 데 효과적입니다.
ETL 도구의 주요 예시로는 다음과 같은 것들이 있습니다:
1. Talend: 오픈소스 기반의 데이터 통합 도구로, ETL 작업을 시각적으로 설계하고 실행할 수 있는 기능을 제공합니다.
2. Informatica: 데이터 통합 및 관리 분야에서 널리 사용되는 상용 도구로, 대규모 데이터 처리와 복잡한 데이터 변환 작업에 강점을 가지고 있습니다.
3. Apache Nifi: 데이터 흐름 자동화를 지원하는 오픈소스 도구로, 실시간 데이터 처리와 다양한 데이터 소스 간의 연결에 적합합니다.
이러한 도구들은 데이터 통합 작업을 효율적으로 수행할 수 있는 다양한 기능을 제공하여 ETL 및 ELT 프로세스를 지원합니다.