데이터 전처리: 데이터 거버넌스 – 데이터 카탈로그
ㅁ 데이터 거버넌스
ㅇ 정의:
조직 내 모든 데이터 자산을 체계적으로 관리하고, 데이터 품질·보안·활용성을 보장하기 위한 정책과 절차, 표준을 수립·운영하는 관리 체계.
ㅇ 특징:
– 데이터 표준화, 메타데이터 관리, 데이터 품질 관리, 보안·접근권한 관리 포함
– 데이터 수명주기 전반(수집-저장-활용-폐기)에 걸친 관리
– 관련 부서 간 역할·책임(R&R) 명확화
ㅇ 적합한 경우:
– 대규모 데이터 자산을 보유한 기업
– 데이터의 신뢰성과 규제 준수가 중요한 산업(금융, 의료 등)
ㅇ 시험 함정:
– 데이터 거버넌스를 단순히 데이터 보안 정책으로만 한정하는 경우
– 메타데이터 관리와 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: 데이터 거버넌스는 데이터 품질, 보안, 표준화를 포함하는 전사적 관리 체계이다.
X: 데이터 거버넌스는 데이터베이스 백업 절차만을 의미한다.
================================
1. 데이터 카탈로그
ㅇ 정의:
조직 내 보유한 데이터 자산의 메타데이터를 체계적으로 수집·정리하여, 검색·이해·활용을 돕는 인덱스 또는 사전 역할의 시스템.
ㅇ 특징:
– 데이터 위치, 구조, 포맷, 소유자, 품질 정보 등 메타데이터 포함
– 데이터 검색 기능과 접근 권한 연계
– 데이터 자산 현황 파악 및 활용 촉진
ㅇ 적합한 경우:
– 다양한 출처의 데이터가 혼재되어 있고, 검색·활용 효율성을 높여야 하는 경우
– 데이터 활용이 여러 부서에 걸쳐 있는 경우
ㅇ 시험 함정:
– 데이터 카탈로그를 데이터 웨어하우스나 데이터 레이크와 혼동
– 단순 파일 디렉터리 목록과 동일시
ㅇ 시험 대비 “패턴 보기” 예시:
O: 데이터 카탈로그는 조직 내 데이터 자산의 메타데이터를 제공하여 활용성을 높인다.
X: 데이터 카탈로그는 데이터를 저장·처리하는 물리적 저장소이다.
ㅁ 추가 학습 내용
데이터 카탈로그와 메타데이터 관리의 차이
– 메타데이터 관리: 메타데이터의 생성, 수정, 삭제 등 전반적인 관리 프로세스를 포함하는 개념
– 데이터 카탈로그: 관리된 메타데이터를 사용자 친화적으로 검색·활용할 수 있도록 제공하는 도구적 성격이 강함
데이터 거버넌스 내에서 데이터 카탈로그의 역할
– 데이터 발견 지원
– 데이터 품질 향상
– 규제 준수 지원
데이터 카탈로그의 주요 구성 요소
– 메타데이터 수집 방식
– 검색 및 탐색 기능
– 접근 제어
– 데이터 계보(Lineage) 추적 기능
클라우드 환경의 주요 데이터 카탈로그 서비스와 특징
– AWS Glue Data Catalog
– Google Data Catalog
– Azure Purview
각 서비스의 기능적 특징과 차이를 파악하여 응용 문제에 대비 필요