데이터 전처리: 데이터 소스 확장

ㅁ 데이터 소스 확장

ㅇ 정의:
기존 데이터 외에 새로운 데이터 소스를 발굴·추가하여 분석 품질과 범위를 확장하는 과정.

ㅇ 특징:
– 데이터 다양성 확보로 분석 정확도 향상
– 데이터 수집·정제 비용 증가 가능
– 실시간·비정형 데이터 포함 가능

ㅇ 적합한 경우:
– 기존 데이터만으로 분석 정확도가 부족할 때
– 새로운 인사이트 발굴이 필요한 경우

ㅇ 시험 함정:
– 데이터 소스 확장은 단순히 데이터 양을 늘리는 것이 아니라 ‘다양성’과 ‘품질’ 확보가 목적임

ㅇ 시험 대비 “패턴 보기” 예시:
O: 다양한 출처의 데이터를 추가하여 분석 범위를 넓힌다.
X: 데이터 소스 확장은 데이터 용량을 줄이는 기법이다.

================================

1. IoT 센서 네트워크

ㅇ 정의:
사물인터넷(IoT) 기기에 부착된 센서들이 네트워크를 통해 데이터를 수집·전송하는 시스템.

ㅇ 특징:
– 실시간 데이터 수집 가능
– 온도, 습도, 위치, 진동 등 다양한 물리적 환경 데이터 제공
– 네트워크 안정성과 보안이 중요

ㅇ 적합한 경우:
– 스마트 팩토리, 스마트 시티, 환경 모니터링 등 실시간 상태 파악이 필요한 경우

ㅇ 시험 함정:
– IoT 센서 네트워크는 반드시 인터넷 연결이 필요한 것은 아님(로컬 네트워크 가능)

ㅇ 시험 대비 “패턴 보기” 예시:
O: IoT 센서 네트워크는 물리 환경 데이터를 실시간으로 수집할 수 있다.
X: IoT 센서 네트워크는 비정형 텍스트 데이터만을 수집한다.

================================

2. 위성 데이터

ㅇ 정의:
인공위성이 촬영·측정한 영상, 기상, 지리 정보 등을 데이터로 활용하는 것.

ㅇ 특징:
– 광범위 지역의 데이터 수집 가능
– 주기적·반복적 데이터 제공
– 기상 조건 등에 따라 품질 영향

ㅇ 적합한 경우:
– 농업 모니터링, 환경 변화 분석, 재난 대응 등 대규모 지역 관측이 필요한 경우

ㅇ 시험 함정:
– 위성 데이터는 항상 실시간으로 제공되는 것이 아님(궤도 주기, 전송 지연 존재)

ㅇ 시험 대비 “패턴 보기” 예시:
O: 위성 데이터는 넓은 지역의 상태를 주기적으로 관측하는 데 활용된다.
X: 위성 데이터는 오직 도시 교통 데이터만을 제공한다.

================================

3. 오픈 데이터 포털

ㅇ 정의:
정부·공공기관·기업 등이 공개한 데이터를 누구나 접근·활용할 수 있도록 제공하는 온라인 플랫폼.

ㅇ 특징:
– 무료 또는 제한적 무료 제공
– 표준화된 형식(CSV, JSON 등) 제공
– 데이터 품질·갱신 주기 다양

ㅇ 적합한 경우:
– 초기 데이터 확보 비용을 줄이고 싶을 때
– 공공 정책 분석, 사회 현상 연구 등 공공 데이터 활용이 필요한 경우

ㅇ 시험 함정:
– 오픈 데이터 포털의 모든 데이터가 최신·정확하다고 단정할 수 없음

ㅇ 시험 대비 “패턴 보기” 예시:
O: 오픈 데이터 포털은 공공기관이 수집한 데이터를 표준 형식으로 제공한다.
X: 오픈 데이터 포털의 데이터는 항상 실시간으로 업데이트된다.

================================

4. 크라우드소싱 데이터

ㅇ 정의:
다수의 개인 또는 집단이 온라인 플랫폼을 통해 자발적으로 제공한 데이터.

ㅇ 특징:
– 대규모 데이터 빠른 수집 가능
– 데이터 품질 편차 큼
– 참여자 동기 부여 필요

ㅇ 적합한 경우:
– 지도 제작(예: OpenStreetMap), 설문 조사, 이미지 라벨링 등 대규모 인력 참여가 필요한 경우

ㅇ 시험 함정:
– 크라우드소싱 데이터는 반드시 전문가에 의해 검증된 데이터만 포함하는 것은 아님

ㅇ 시험 대비 “패턴 보기” 예시:
O: 크라우드소싱 데이터는 다수의 참여자가 온라인을 통해 제공한다.
X: 크라우드소싱 데이터는 정부 기관만이 수집할 수 있다.

ㅁ 추가 학습 내용

학습 정리

1. IoT 센서 네트워크
– 데이터 수집 주기: 주기적 수집(정해진 간격으로 수집), 이벤트 기반 수집(특정 조건 발생 시 수집)
– 네트워크 프로토콜: MQTT(경량 메시지 전송, 발행-구독 모델), CoAP(경량 전송, REST 기반, 제한된 환경에 적합)

2. 위성 데이터
– 해상도 개념
• Spatial Resolution: 공간 해상도, 한 픽셀이 나타내는 실제 면적
• Temporal Resolution: 시간 해상도, 동일 지역을 재관측하는 주기
• Spectral Resolution: 분광 해상도, 센서가 구분할 수 있는 파장 대역의 수와 폭
– 상업용 vs 공공 위성 데이터: 상업용은 고해상도·유료, 공공은 해상도 낮을 수 있으나 무료·개방형

3. 오픈 데이터 포털
– 데이터 라이선스: Open License, CC BY 등
– API 제공 여부: 데이터 접근 자동화 가능 여부
– 활용 제한 조건: 상업적 이용 가능 여부, 출처 표기 의무 등

4. 크라우드소싱 데이터
– 데이터 품질 관리 기법: 다수결 검증, 신뢰도 점수 부여
– 윤리적 이슈: 개인정보 보호, 허위 데이터 방지

5. 데이터 소스 확장 시 통합 문제
– 스키마 매핑: 서로 다른 데이터 구조를 일치시키는 과정
– 중복 제거: 동일 데이터의 중복 저장 방지
– 시간 동기화: 서로 다른 시간 기준 데이터를 맞추는 과정

시험 대비 체크리스트

[ ] 주기적 수집과 이벤트 기반 수집의 차이와 장단점 설명 가능
[ ] MQTT와 CoAP의 특징, 사용 환경, 차이점 숙지
[ ] Spatial, Temporal, Spectral Resolution 개념과 예시 설명 가능
[ ] 상업용과 공공 위성 데이터의 특징 비교 가능
[ ] 주요 오픈 데이터 라이선스 종류와 특징 이해
[ ] API 제공 여부가 데이터 활용에 미치는 영향 설명 가능
[ ] 오픈 데이터 활용 제한 조건 사례 파악
[ ] 크라우드소싱 데이터 품질 관리 기법 종류와 원리 숙지
[ ] 개인정보 보호와 허위 데이터 방지 방안 설명 가능
[ ] 데이터 통합 시 스키마 매핑, 중복 제거, 시간 동기화 개념과 필요성 이해

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*