데이터 전처리: 데이터 거버넌스 – 데이터 품질 관리

ㅁ 데이터 거버넌스

ㅇ 정의:
조직 내 데이터의 일관성, 정확성, 보안, 활용성을 보장하기 위해 데이터 관리 원칙, 표준, 정책을 수립하고 이를 운영하는 체계.

ㅇ 특징:
– 데이터 표준화, 메타데이터 관리, 접근 권한 관리 포함
– 전사적 데이터 관리 프로세스와 책임 체계 확립
– 규제 준수 및 데이터 활용 극대화 목적

ㅇ 적합한 경우:
– 대규모 조직에서 부서별 데이터 중복과 불일치가 빈번한 경우
– 법적 규제(개인정보보호법, GDPR 등) 준수가 필요한 경우

ㅇ 시험 함정:
– 데이터 거버넌스를 단순한 데이터 품질 관리로 오인
– IT 부서만의 책임이라고 잘못 이해

ㅇ 시험 대비 “패턴 보기” 예시:
O: “데이터 거버넌스는 데이터 품질, 보안, 표준화를 포함한 전사적 관리 체계이다.”
X: “데이터 거버넌스는 데이터 수집 도구를 의미한다.”

================================

1. 데이터 품질 관리

ㅇ 정의:
데이터의 정확성, 완전성, 일관성, 최신성을 유지·관리하여 데이터 활용 가치를 극대화하는 활동.

ㅇ 특징:
– 데이터 정제, 오류 검출 및 수정, 중복 제거, 형식 표준화 포함
– 품질 측정 지표(Accuracy, Completeness, Consistency, Timeliness) 사용
– 지속적인 모니터링과 개선 프로세스 필요

ㅇ 적합한 경우:
– 분석 결과의 신뢰성이 중요한 데이터 분석 프로젝트
– 여러 출처에서 데이터를 통합하는 경우

ㅇ 시험 함정:
– 데이터 품질 관리 = 데이터 보안 관리로 혼동
– 단기적 일회성 작업으로만 이해

ㅇ 시험 대비 “패턴 보기” 예시:
O: “데이터 품질 관리는 정확성, 완전성, 일관성, 최신성을 유지하는 활동이다.”
X: “데이터 품질 관리는 데이터 접근 권한 부여를 관리하는 것이다.”

ㅁ 추가 학습 내용

데이터 품질 관리에서 중요한 품질 측정 지표는 다음과 같다.
Accuracy(정확성): 데이터 값이 실제를 얼마나 정확하게 반영하는지 나타낸다.
Completeness(완전성): 필요한 데이터가 빠짐없이 존재하는 정도를 의미한다.
Consistency(일관성): 동일한 데이터가 여러 시스템이나 저장소에서 서로 일치하는 정도를 의미한다.
Timeliness(적시성): 데이터가 최신 상태를 유지하고 있는지를 나타낸다.

품질 관리 프로세스의 주요 기법은 다음과 같다.
데이터 프로파일링(Data Profiling): 데이터의 구조, 패턴, 품질 상태를 분석하여 문제를 식별하는 과정.
데이터 클렌징(Data Cleansing): 오류, 중복, 불필요한 데이터를 수정·제거하는 과정.
데이터 표준화(Data Standardization): 데이터 형식, 단위, 표현 방식을 일관되게 맞추는 과정.

데이터 품질 관리는 데이터 거버넌스 체계 내에서 운영되며, 거버넌스의 하위 활동에 해당한다. 품질 관리는 거버넌스의 정책, 표준, 절차에 따라 수행되며, 데이터의 신뢰성과 활용도를 높이는 데 중요한 역할을 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*