데이터 전처리: 데이터 거버넌스
ㅁ 데이터 거버넌스
ㅇ 정의:
조직 내 데이터의 수집, 저장, 활용, 폐기까지 전 과정에서 데이터의 품질, 보안, 규제 준수를 보장하기 위한 정책과 절차의 체계.
ㅇ 특징:
데이터 표준화, 접근 권한 관리, 규제 준수, 데이터 계보 추적 등의 기능을 포함하며, 데이터 기반 의사결정을 지원.
ㅇ 적합한 경우:
대규모 데이터 환경, 규제 산업(금융, 의료), 데이터 활용이 중요한 조직.
ㅇ 시험 함정:
단순한 데이터 보안 정책과 혼동, IT 부서만의 책임으로 오해.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 데이터의 생성부터 폐기까지 전 주기 관리 정책을 포함한다.
– X: 데이터 거버넌스는 데이터베이스 설계만을 의미한다.
================================
1. 데이터 라인리지
ㅇ 정의:
데이터가 생성된 시점부터 최종 활용까지의 이동 경로와 변환 과정을 추적·기록하는 메타데이터 관리 기법.
ㅇ 특징:
데이터 흐름 시각화, 변환 이력 관리, 오류 원인 추적 가능.
ㅇ 적합한 경우:
데이터 오류 발생 시 원인 분석, 규제 준수를 위한 데이터 경로 증빙.
ㅇ 시험 함정:
단순한 데이터 백업 이력과 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 데이터 라인리지는 데이터의 출처와 변환 과정을 추적한다.
– X: 데이터 라인리지는 데이터 품질 점수를 산출하는 과정이다.
================================
2. 데이터 카탈로그
ㅇ 정의:
조직 내 모든 데이터 자산의 메타데이터를 체계적으로 수집·관리하여 검색과 활용을 지원하는 시스템.
ㅇ 특징:
데이터 검색 기능, 메타데이터 관리, 데이터 분류와 태깅.
ㅇ 적합한 경우:
다양한 부서에서 데이터 공유가 필요한 경우, 데이터 자산 현황 파악.
ㅇ 시험 함정:
단순한 파일 디렉토리 구조와 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 데이터 카탈로그는 데이터 자산의 메타데이터를 중앙에서 관리한다.
– X: 데이터 카탈로그는 데이터베이스의 저장공간을 확장하는 기능이다.
================================
3. GDPR
ㅇ 정의:
유럽연합(EU)이 제정한 일반 데이터 보호 규정(General Data Protection Regulation)으로, 개인정보 수집·이용·보관·삭제에 대한 엄격한 기준을 규정.
ㅇ 특징:
개인정보 처리 동의, 데이터 이동권, 잊힐 권리, 위반 시 과징금 부과.
ㅇ 적합한 경우:
EU 거주자의 개인정보를 처리하는 모든 기업 및 기관.
ㅇ 시험 함정:
GDPR은 EU 기업에만 적용된다고 오해.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: GDPR은 EU 거주자의 개인정보 처리에 적용된다.
– X: GDPR은 미국 내 기업에는 전혀 적용되지 않는다.
================================
4. 데이터 품질 관리
ㅇ 정의:
데이터의 정확성, 완전성, 일관성, 적시성을 확보하기 위한 프로세스와 도구를 운영하는 활동.
ㅇ 특징:
데이터 정제, 표준화, 오류 검출 및 수정, 품질 지표 관리.
ㅇ 적합한 경우:
데이터 분석 및 AI 모델 학습의 정확성을 높이고자 할 때.
ㅇ 시험 함정:
데이터 품질 관리를 단발성 프로젝트로만 이해.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 데이터 품질 관리는 지속적인 모니터링과 개선 활동을 포함한다.
– X: 데이터 품질 관리는 데이터 수집 단계에서만 수행된다.
ㅁ 추가 학습 내용
데이터 거버넌스 영역에서는 메타데이터 관리, 데이터 보안 정책, 데이터 표준화 절차, 규제 준수 체계가 함께 출제되는 경우가 많다. 이에 따라 ISO 8000(데이터 품질 표준), DAMA-DMBOK 프레임워크, CCPA(캘리포니아 소비자 프라이버시법)와의 비교를 준비해야 한다.
데이터 라인리지는 ETL(Extract-Transform-Load) 과정과 연계되어 출제될 수 있으며, 데이터 카탈로그는 데이터 계보 추적 기능과 통합된 사례가 시험에 나올 수 있다.
GDPR 관련 출제 포인트는 다음과 같다.
– 데이터 보호 책임자(DPO) 지정 의무
– 데이터 침해 통지 기한: 72시간
– 역외 이전 조건
데이터 품질 관리에서는 다음이 중요하다.
– 품질 지표(KPI) 예시
– 품질 관리 자동화 도구: Data Profiling, Data Cleansing Tool
– 품질 관리 프로세스 순서: Capture → Store → Maintain → Use → Archive → Purge