데이터 거버넌스: 데이터 카탈로그
ㅁ 데이터 거버넌스
ㅇ 정의:
데이터의 품질, 보안, 관리 등을 체계적으로 운영하기 위한 프레임워크.
ㅇ 특징:
데이터의 일관성과 신뢰성을 확보하며, 데이터 활용의 투명성을 증대시킴.
ㅇ 적합한 경우:
데이터가 여러 부서에서 분산 관리되고 있어 중앙 집중식 관리가 필요한 경우.
ㅇ 시험 함정:
데이터 거버넌스는 단순한 보안 정책으로 오해할 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 데이터 거버넌스는 데이터 품질과 보안을 포함한 관리 체계이다.
– X: 데이터 거버넌스는 데이터 분석 기술이다.
================================
1. 데이터 카탈로그
ㅇ 정의:
기업 내 데이터 자산을 체계적으로 관리하고 검색 가능하게 만든 메타데이터 저장소.
ㅇ 특징:
데이터의 출처, 품질, 소유권 등의 정보를 포함하며, 데이터의 활용성을 높임.
ㅇ 적합한 경우:
데이터가 방대하여 필요한 데이터를 빠르게 찾고 활용해야 하는 경우.
ㅇ 시험 함정:
데이터 카탈로그는 단순한 데이터 저장소로 오해할 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 데이터 카탈로그는 메타데이터를 기반으로 데이터 자산을 관리한다.
– X: 데이터 카탈로그는 데이터를 저장하는 물리적 공간이다.
ㅁ 추가 학습 내용
데이터 카탈로그와 연관된 주요 기술로 데이터 계보와 데이터 프로파일링을 학습할 때 다음과 같은 내용을 중심으로 공부하는 것이 좋습니다:
1. **데이터 계보(Data Lineage)**
– 정의: 데이터 계보는 데이터가 생성, 변환, 저장, 사용되는 전체 과정을 추적하고 시각화하는 기술입니다.
– 주요 목적: 데이터의 출처를 파악하고, 데이터 변환 과정에서 발생할 수 있는 오류를 식별하며, 데이터의 신뢰성을 높이는 데 기여합니다.
– 주요 학습 내용:
– 데이터 계보의 구성 요소: 데이터 원본(Source), 변환(Transformation), 목적지(Destination).
– 데이터 계보를 구현하는 도구 및 기술: ETL(Extract, Transform, Load) 과정 추적, 메타데이터 관리 도구.
– 데이터 계보의 시각화 방법: 그래프, 플로우 차트 등.
– 데이터 계보의 활용 사례: 규제 준수, 데이터 감사, 문제 해결.
– 실습 방법: 실제 데이터 흐름을 추적하고 시각화하는 프로젝트를 수행하여 데이터 계보의 개념을 체험적으로 이해.
2. **데이터 프로파일링(Data Profiling)**
– 정의: 데이터 프로파일링은 데이터의 구조, 패턴, 품질을 분석하여 데이터의 특성을 파악하고 데이터 정제를 지원하는 기술입니다.
– 주요 목적: 데이터의 정확성, 일관성, 완전성을 확인하여 데이터 품질을 개선하는 데 도움을 줍니다.
– 주요 학습 내용:
– 데이터 프로파일링의 주요 작업: 데이터 값 분포 확인, 중복 데이터 탐지, 결측값 분석.
– 데이터 프로파일링의 기술적 접근: 통계적 분석, 패턴 탐지 알고리즘.
– 데이터 프로파일링 도구: OpenRefine, Talend, Informatica 등.
– 데이터 프로파일링의 활용 사례: 데이터 정제, 데이터 통합, 데이터 분석 준비.
– 실습 방법: 데이터셋을 선택하여 데이터 프로파일링 도구를 사용해 데이터 품질을 분석하고 개선 방안을 도출.
이 두 기술은 데이터 카탈로그의 핵심 요소로, 데이터 관리와 분석의 효율성을 높이는 데 필수적인 역할을 합니다.