데이터 전처리: 데이터 소스 확장 – 오픈 데이터 포털
ㅁ 데이터 소스 확장
ㅇ 정의:
기존에 사용하던 데이터 외에 새로운 데이터 출처를 발굴하여 분석 품질과 범위를 넓히는 과정.
ㅇ 특징:
– 외부 API, 공공 데이터, 상업 데이터 등 다양한 출처 활용 가능
– 데이터 형식과 품질이 제각각이라 전처리 부담이 증가함
– 라이선스, 저작권, 개인정보 등 법적 검토 필요
ㅇ 적합한 경우:
– 기존 데이터만으로 분석 정확도가 낮을 때
– 신규 인사이트 발굴이 필요할 때
– 예측 모델의 변수 다양성이 요구될 때
ㅇ 시험 함정:
– ‘데이터 소스 확장’을 단순히 데이터 양만 늘리는 것으로 오해
– 법적 제약 검토를 간과하는 경우
ㅇ 시험 대비 “패턴 보기” 예시:
O: 공공 데이터, 상업 데이터, 소셜 미디어 데이터를 추가하여 분석 범위를 넓히는 것은 데이터 소스 확장이다.
X: 데이터 소스 확장은 내부 데이터의 정제 과정만을 의미한다.
================================
1. 오픈 데이터 포털
ㅇ 정의:
정부, 지자체, 공공기관 등이 보유한 데이터를 누구나 활용할 수 있도록 개방한 온라인 플랫폼.
ㅇ 특징:
– 무료로 접근 가능한 경우가 많음
– CSV, JSON, XML 등 다양한 포맷 제공
– 주제별, 기관별, 지역별로 검색 가능
– 데이터 갱신 주기가 명시되기도 함
ㅇ 적합한 경우:
– 공공 정책 분석, 지역 통계 활용, 사회 현상 연구 등
– 신뢰성 있는 공식 데이터가 필요한 경우
ㅇ 시험 함정:
– 모든 오픈 데이터가 최신이라고 착각
– 데이터 품질이 항상 높은 것은 아님
– 상업적 이용이 항상 자유로운 것은 아님
ㅇ 시험 대비 “패턴 보기” 예시:
O: 오픈 데이터 포털은 정부나 공공기관이 보유한 데이터를 개방하는 플랫폼이다.
X: 오픈 데이터 포털의 모든 데이터는 상업적 이용이 자유롭다.
ㅁ 추가 학습 내용
오픈 데이터 포털을 활용할 때는 반드시 데이터의 라이선스 종류를 확인해야 하며, 예를 들어 공공누리 유형에 따라 사용 조건이 다를 수 있다. 일부 데이터는 비영리 목적에 한정되어 제공될 수 있다. API 형태로 제공되는 데이터는 호출 제한이 있을 수 있으며, 데이터의 갱신 주기가 분석 결과에 영향을 줄 수 있다. 시험에서는 ‘오픈 데이터’와 ‘빅데이터 플랫폼’을 혼동하는 문제, 그리고 ‘데이터 소스 확장’과 ‘데이터 증강(Data Augmentation)’을 혼동하는 문제가 출제될 수 있으므로 각각의 개념을 명확히 구분해야 한다.