데이터 전처리: 데이터 거버넌스 – 데이터 라인리지

ㅁ 데이터 거버넌스

ㅇ 정의:
데이터의 품질, 보안, 활용성을 보장하기 위해 조직 내 데이터 관리 정책과 절차를 수립·운영하는 체계.

ㅇ 특징:
데이터 표준화, 메타데이터 관리, 접근 권한 제어, 규제 준수 등을 포함하며 전사적 관점에서 데이터 자산을 관리.

ㅇ 적합한 경우:
대규모 조직, 규제 산업(금융, 의료 등), 데이터 기반 의사결정이 중요한 기업.

ㅇ 시험 함정:
데이터 거버넌스를 단순히 데이터 보안만으로 오해하거나, IT 부서 전용 활동으로만 인식하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
O: 데이터 표준화, 품질 관리, 보안, 규제 준수 등을 포함하는 전사적 데이터 관리 체계
X: 데이터 거버넌스는 데이터베이스 튜닝 기법이다

================================

1. 데이터 라인리지

ㅇ 정의:
데이터가 생성, 변환, 이동, 저장되는 전 과정을 추적하고 시각적으로 표현하는 기법.

ㅇ 특징:
데이터 흐름의 출처(Source)와 목적지(Destination)를 명확히 파악 가능, 데이터 품질 문제 원인 분석에 활용, 규제 준수 및 감사 대응에 필수.

ㅇ 적합한 경우:
데이터 출처 검증이 필요한 경우, 데이터 파이프라인 변경 영향 분석, 규제 감사 대응.

ㅇ 시험 함정:
데이터 라인리지를 단순한 데이터 백업 절차나 실시간 모니터링 도구로 혼동하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
O: 데이터의 생성부터 활용까지의 흐름과 변환 과정을 추적하는 활동
X: 데이터 라인리지는 데이터 암호화 방식의 한 종류이다

ㅁ 추가 학습 내용

데이터 라인리지는 크게 두 가지로 구분된다.
수평 라인리지는 시스템 간 데이터 이동 경로를 추적하는 것으로, 데이터가 어떤 시스템에서 어떤 시스템으로 이동했는지를 파악한다.
수직 라인리지는 컬럼 또는 필드 단위에서 데이터의 변환·가공 과정을 추적하는 것으로, 데이터의 세부 수준에서 변화를 확인한다.

ETL(Extract-Transform-Load) 또는 ELT(Extract-Load-Transform) 과정에서 라인리지를 구현할 수 있으며, 이때 메타데이터 관리 도구와의 연계가 중요하다. 대표적으로 Apache Atlas, Collibra 등이 사용된다. 이러한 도구들은 데이터의 흐름과 변환 과정을 기록·관리하여 규제 준수 측면에서도 활용된다. 특히 GDPR이나 개인정보보호법과 같은 규제에서는 데이터의 출처, 이동, 변환 과정을 명확히 추적하는 것이 필수적이다.

라인리지 시각화는 주로 노드-엣지 그래프 형태로 표현되며, 이를 통해 데이터 흐름과 의존성을 직관적으로 파악할 수 있다. 또한 변경 영향 분석(Impact Analysis)을 통해 특정 데이터 변경이 다른 시스템이나 데이터셋에 미치는 영향을 사전에 분석할 수 있다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*