데이터 전처리: 개념 및 실천 – Data Curation
ㅁ 개념 및 실천
ㅇ 정의:
데이터 큐레이션(Data Curation)은 데이터의 수집, 검증, 정제, 저장, 배포 과정을 체계적으로 관리하여 데이터의 품질과 활용성을 극대화하는 활동을 의미한다.
ㅇ 특징:
– 데이터 수명 주기 전반을 관리하며, 메타데이터 관리와 품질 보증 절차를 포함한다.
– 단순 저장이 아니라 분석 목적에 맞게 데이터의 구조와 형식을 조정한다.
– 도메인 지식과 데이터 관리 기술이 모두 필요하다.
ㅇ 적합한 경우:
– 장기간 활용될 데이터셋을 구축하거나, 다양한 출처의 데이터를 통합해야 하는 경우.
– 데이터 분석, AI 모델 학습 등에서 데이터 신뢰성을 확보해야 하는 경우.
ㅇ 시험 함정:
– 데이터 큐레이션을 단순한 데이터 수집으로만 오해하는 경우.
– 데이터 정제와 큐레이션을 동일시하는 경우.
– 메타데이터 관리의 중요성을 간과하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “데이터 큐레이션은 데이터 수집부터 배포까지 전 과정의 품질 관리 활동을 포함한다.”
– X: “데이터 큐레이션은 데이터 파일을 저장하는 과정만을 의미한다.”
ㅁ 추가 학습 내용
데이터 큐레이션 학습 정리
1. FAIR 원칙
– Findable: 데이터를 쉽게 찾을 수 있도록 식별자와 메타데이터를 제공
– Accessible: 권한과 프로토콜에 따라 접근 가능하게 함
– Interoperable: 다양한 시스템과 호환 가능하도록 표준 형식과 어휘 사용
– Reusable: 재사용이 가능하도록 품질과 문서화를 보장
2. 데이터 큐레이션과 유사 개념 비교
– 데이터 거버넌스: 데이터 관리에 대한 정책, 표준, 책임, 절차를 정의하는 조직적 프레임워크
– 데이터 관리(Data Management): 데이터의 수집, 저장, 보안, 유지 등 전반적인 기술적·운영적 관리
– 데이터 큐레이션: 데이터를 목적에 맞게 선별, 정제, 조직화, 보존, 배포하는 과정
3. 데이터 큐레이션 프로세스 단계와 주요 활동
– 수집: 데이터 소스 식별, 수집 방법 결정, 데이터 획득
– 검증: 데이터의 정확성, 신뢰성, 품질 확인
– 정제: 오류 수정, 중복 제거, 형식 통일
– 저장: 안전하고 효율적인 저장소에 보관, 메타데이터 작성
– 배포: 사용자나 시스템에 맞게 데이터 제공, 접근 권한 관리
4. 메타데이터 표준
– Dublin Core, ISO 19115, DataCite 등 대표 표준 숙지
5. 데이터 품질 지표
– 정확성: 데이터가 사실과 일치하는 정도
– 완전성: 필요한 데이터가 빠짐없이 포함되어 있는 정도
– 일관성: 데이터 간 형식과 값이 일관된 정도
– 최신성: 데이터가 최신 상태를 반영하는 정도
6. 빅데이터 환경에서의 데이터 큐레이션
– 대규모 데이터 처리와 자동화 필요
– 데이터 레이크, 데이터 웨어하우스, ETL/ELT 도구 활용
– 머신러닝 기반 데이터 정제 및 분류 자동화 기술
7. 오픈데이터 플랫폼에서의 큐레이션 사례
– 정부나 기관의 공공데이터 포털에서 데이터 표준화, 품질 검증, 메타데이터 제공
– 다양한 사용자 요구에 맞춘 데이터셋 제공