데이터 전처리: 데이터 소스 – API

ㅁ 데이터 소스

ㅇ 정의:
– 분석에 필요한 데이터를 얻기 위해 활용되는 원천 경로나 시스템.
– 데이터베이스, 파일, API, 센서, 로그 등 다양한 형태가 존재.

ㅇ 특징:
– 데이터 품질, 접근 방식, 업데이트 주기, 포맷 등이 다양함.
– 데이터 소스의 특성에 따라 전처리 난이도와 방식이 달라짐.

ㅇ 적합한 경우:
– 분석 목적에 맞는 데이터가 특정 경로나 시스템에서 제공될 때.
– 데이터 신뢰성과 최신성이 중요한 경우.

ㅇ 시험 함정:
– 데이터 소스와 데이터 저장소를 혼동하는 경우가 있음.
– 데이터 수집 방식(API, 크롤링 등)과 소스 자체를 구분하지 못하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “API는 데이터 소스의 한 형태이다.”
– X: “API는 데이터 저장소의 한 종류이다.”

================================

1. API

ㅇ 정의:
– Application Programming Interface의 약자로, 응용 프로그램 간 데이터를 주고받을 수 있도록 규격화된 인터페이스.
– 웹 API는 HTTP 프로토콜을 통해 JSON, XML 등의 포맷으로 데이터 제공.

ㅇ 특징:
– 실시간 또는 주기적으로 최신 데이터를 제공 가능.
– 인증 키(API Key)나 OAuth를 통한 접근 제어.
– 요청(Request)과 응답(Response) 구조를 가짐.

ㅇ 적합한 경우:
– 외부 서비스나 플랫폼에서 제공하는 최신 데이터를 안정적으로 수집해야 할 때.
– 데이터 구조와 포맷이 일정하고 자동화 수집이 필요한 경우.

ㅇ 시험 함정:
– API를 데이터 저장소로 오인하는 경우.
– REST API와 SOAP API의 차이를 혼동하는 경우.
– API 호출 제한(Rate Limit) 개념을 간과하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “REST API는 HTTP 기반으로 자원을 표현하고 조작한다.”
– X: “API는 항상 모든 데이터를 한 번에 전송한다.”

ㅁ 추가 학습 내용

API 시험 대비 핵심 정리

1. REST와 SOAP의 차이
– REST: HTTP 기반, 가볍고 유연하며 JSON, XML 등 다양한 포맷 사용 가능
– SOAP: XML 기반, 엄격한 규격과 보안, 트랜잭션 처리에 강점

2. HTTP 메서드 의미
– GET: 데이터 조회
– POST: 데이터 생성
– PUT: 데이터 전체 수정
– DELETE: 데이터 삭제

3. HTTP 상태 코드 해석
– 200: 요청 성공
– 404: 요청한 자원 없음
– 500: 서버 내부 오류

4. 인증 방식
– API Key: 간단한 키 인증 방식
– OAuth 2.0: 토큰 기반 인증, 권한 부여에 안전

5. Rate Limit와 Pagination
– Rate Limit: 일정 시간 내 요청 횟수 제한
– Pagination: 데이터 나누어 전송, 페이지 단위 처리

6. Open API와 Private API 차이
– Open API: 누구나 접근 가능, 공개된 문서 제공
– Private API: 내부 시스템 전용, 접근 제한

7. JSON과 XML 비교
– JSON: 가볍고 가독성 높음, 웹과 모바일 환경에 적합
– XML: 구조와 확장성 우수, 태그 기반

8. API 문서 활용법
– Swagger 등 도구로 API 명세 확인 및 테스트 가능

9. API 응답 지연 시 재시도 로직
– 일정 시간 대기 후 재요청, 최대 재시도 횟수 설정

10. 보안 고려사항
– HTTPS 사용으로 데이터 암호화
– 토큰 만료 시 재발급 처리

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*