ㅁ 데이터 수집 기법 1. JDBC ㅇ 정의: 자바(Java) 기반 애플리케이션에서 관계형 데이터베이스(RDBMS)에 접속하고 SQL을 실행하여 데이터를 조회·수집하는 표준 API. ㅇ 특징: – Java 언어 전용 표준 인터페이스로, DBMS 종류에 따라 JDBC 드라이버 필요. – SQL을 직접 작성하여 데이터 추출 가능. – 플랫폼 독립적이나, 드라이버 버전과 DB 버전 호환성 중요. – 대량 데이터 수집 시
ㅁ 데이터 수집 기법 1. DB 연결(ODBC) ㅇ 정의: ODBC(Open Database Connectivity)는 다양한 데이터베이스에 표준화된 방식으로 연결하고 데이터를 조회·수집할 수 있도록 하는 API 규격. ㅇ 특징: – DBMS 종류에 관계없이 동일한 인터페이스로 접근 가능 – 드라이버를 통해 연결하며, SQL 쿼리 실행 가능 – 운영체제 및 애플리케이션 독립적 – 대규모 데이터 수집 시 네트워크 및 쿼리
ㅁ 데이터 수집 기법 ㅇ 정의: 데이터 수집 기법은 분석, 학습, 서비스 제공 등을 위해 다양한 소스(웹, API, 센서 등)로부터 데이터를 획득하는 방법과 절차를 의미한다. ㅇ 특징: – 데이터의 형태(정형/비정형), 속성, 빈도에 따라 기법이 달라짐 – 보안, 인증, 데이터 품질 확보가 중요 – 자동화와 실시간성 확보를 위해 API 기반 수집이 증가 ㅇ 적합한 경우: –
ㅁ 데이터 수집 기법 1. API 인증(OAuth2) ㅇ 정의: 제3자 애플리케이션이 사용자의 자격 증명을 직접 노출하지 않고, 액세스 토큰을 통해 API 자원에 접근할 수 있도록 하는 인증 프로토콜. 주로 REST API 호출 시 보안과 권한 제어를 위해 사용됨. ㅇ 특징: – Access Token, Refresh Token을 사용하여 세션 유지 – 권한 범위(Scope)를 명시하여 최소 권한 원칙
ㅁ 데이터 수집 기법 1. Scrapy) ㅇ 정의: 파이썬 기반의 오픈소스 웹 크롤링 및 스크래핑 프레임워크로, 웹사이트에서 구조화된 데이터를 자동으로 수집할 수 있도록 지원하는 도구. ㅇ 특징: – 비동기 처리 기반으로 빠른 데이터 수집 가능 – XPath, CSS Selector를 이용한 정교한 데이터 추출 지원 – 크롤링 과정에서 파이프라인을 통한 데이터 전처리 및 저장 가능 –
ㅁ 데이터 수집 기법 ㅇ 정의: – 데이터 수집 기법은 분석 목적에 맞는 데이터를 다양한 출처에서 확보하는 방법을 의미하며, 웹, API, 센서, 로그 등 여러 경로를 통해 수집할 수 있다. ㅇ 특징: – 데이터의 품질과 형식이 출처에 따라 다르며, 수집 방식에 따라 전처리 난이도가 달라진다. – 자동화 도구를 활용하면 대량의 데이터를 빠르게 확보 가능하다. ㅇ
ㅁ 데이터 소스 확장 1. 크라우드소싱 데이터 ㅇ 정의: 다수의 불특정 대중으로부터 온라인 플랫폼 등을 통해 데이터(텍스트, 이미지, 음성 등)를 수집하는 방식. ㅇ 특징: – 다양한 배경과 전문성을 가진 참여자로부터 데이터 확보 가능 – 빠른 데이터 수집과 비용 절감 효과 – 품질 관리가 어려울 수 있어 검증 절차 필요 – 참여자 동기 부여를 위한 보상
ㅁ 데이터 소스 확장 ㅇ 정의: 기존에 사용하던 데이터 외에 새로운 데이터 출처를 발굴하여 분석 품질과 범위를 넓히는 과정. ㅇ 특징: – 외부 API, 공공 데이터, 상업 데이터 등 다양한 출처 활용 가능 – 데이터 형식과 품질이 제각각이라 전처리 부담이 증가함 – 라이선스, 저작권, 개인정보 등 법적 검토 필요 ㅇ 적합한 경우: – 기존 데이터만으로
ㅁ 데이터 소스 확장 ㅇ 정의: 기존 데이터 외에 새로운 데이터 소스를 추가하여 분석의 폭과 정확성을 높이는 과정. ㅇ 특징: – 다양한 출처의 데이터를 결합하여 분석의 다각화를 가능하게 함 – 데이터 품질과 형식이 제각각이라 전처리 부담이 증가함 – 외부 API, 센서, 위성, 공공데이터 등 다양한 형태 존재 ㅇ 적합한 경우: – 기존 데이터만으로는 분석 정확도가
ㅁ 데이터 소스 확장 ㅇ 정의: 기존 데이터 수집 채널 외에 새로운 데이터 원천을 추가하여 분석의 폭과 정확성을 높이는 과정. IoT 센서 네트워크, 소셜 미디어 API, 공공 데이터 포털 등이 포함됨. ㅇ 특징: – 다양한 데이터 형식(정형, 반정형, 비정형) 수집 가능 – 실시간 데이터 스트리밍 및 대규모 데이터 처리 필요 – 데이터 품질과 표준화 이슈