데이터 전처리: 데이터 수집 기법 – JWT)

ㅁ 데이터 수집 기법

ㅇ 정의:
데이터 수집 기법은 분석, 학습, 서비스 제공 등을 위해 다양한 소스(웹, API, 센서 등)로부터 데이터를 획득하는 방법과 절차를 의미한다.

ㅇ 특징:
– 데이터의 형태(정형/비정형), 속성, 빈도에 따라 기법이 달라짐
– 보안, 인증, 데이터 품질 확보가 중요
– 자동화와 실시간성 확보를 위해 API 기반 수집이 증가

ㅇ 적합한 경우:
– 분석 목적에 맞는 데이터가 외부 또는 내부 시스템에 존재하는 경우
– 실시간/주기적 데이터 업데이트가 필요한 경우

ㅇ 시험 함정:
– 데이터 수집 기법과 데이터 전처리 기법을 혼동
– 수집과 크롤링, 스크래핑의 차이를 묻는 문제에서 혼동

ㅇ 시험 대비 “패턴 보기” 예시:
O: “API를 통한 데이터 수집은 인증 절차를 거칠 수 있다.”
X: “데이터 수집은 반드시 수동으로만 이루어진다.”

================================

1. JWT)

ㅇ 정의:
JWT(JSON Web Token)는 JSON 형식으로 정보를 안전하게 전송하기 위한 토큰 기반 인증 방식으로, 주로 API 데이터 수집 시 인증 및 권한 부여를 위해 사용된다.

ㅇ 특징:
– 헤더(Header), 페이로드(Payload), 서명(Signature) 3부분으로 구성
– Base64Url로 인코딩되어 전송
– 서버에 세션 상태를 저장하지 않는 Stateless 인증 방식
– API 호출 시 Authorization 헤더에 포함하여 사용

ㅇ 적합한 경우:
– REST API 기반 데이터 수집 시 인증이 필요한 경우
– 분산 시스템이나 서버리스 환경에서 상태를 저장하지 않는 인증이 필요한 경우

ㅇ 시험 함정:
– JWT는 암호화된 토큰이라고 오해하는 경우 (기본은 서명, 암호화는 선택)
– 세션 기반 인증과 혼동
– 토큰 탈취 시 보안 위험성을 간과

ㅇ 시험 대비 “패턴 보기” 예시:
O: “JWT는 기본적으로 클라이언트와 서버 간 인증 정보를 안전하게 전달하기 위해 사용된다.”
X: “JWT는 항상 암호화되어 있어 내용을 확인할 수 없다.”

ㅁ 추가 학습 내용

JWT는 세 부분으로 구성된다.
1. 헤더(Header): 토큰 타입과 서명 알고리즘 정보를 담는다.
2. 페이로드(Payload): 인증 및 권한 부여에 필요한 클레임(Claim) 정보를 담는다.
3. 서명(Signature): 헤더와 페이로드를 합쳐 비밀키로 서명하여 위변조를 방지한다.

JWT는 Base64Url 인코딩을 사용하며, URL 안전성을 보장하고 패딩 문자가 제거된다.

장점: Stateless 인증이 가능하여 서버 부하를 줄인다.
단점: 토큰이 탈취되면 만료 전까지 악용 가능하다.

Access Token과 Refresh Token의 차이:
– Access Token: 자원 접근에 사용, 짧은 만료 시간 설정
– Refresh Token: Access Token 재발급에 사용, 상대적으로 긴 만료 시간

보안 고려 사항:
– HTTPS를 통해 전송해야 한다.
– 토큰 무효화 방법: 블랙리스트 관리, 짧은 만료 시간과 갱신 방식 사용

JWT와 OAuth 2.0:
– JWT는 OAuth 2.0의 토큰 포맷으로 사용될 수 있다.
– 시험에서는 두 개념을 비교하거나 함께 묻는 경우가 있다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*