AI 시스템 구축: 웹 배포 및 서버리스 – 온라인 추론

By - meet
Posted on 2025년 09월 01일
Posted in AI 이론

AI 시스템 구축: 웹 배포 및 서버리스 – 온라인 추론

ㅁ 웹 배포 및 서버리스

ㅇ 정의:
웹 환경 또는 서버리스 아키텍처에서 AI 모델을 실시간으로 호출하여 예측 결과를 제공하는 방식. 사용자가 요청을 보내면 즉시 모델이 추론을 수행하고 결과를 반환함.

ㅇ 특징:
– 실시간 응답이 가능하며, 주로 REST API, gRPC 등의 프로토콜을 통해 서비스됨.
– 서버리스 환경에서는 요청이 있을 때만 자원이 할당되어 비용 효율적.
– 지연(latency) 최소화가 중요하며, 모델 경량화와 캐싱 전략이 자주 사용됨.

ㅇ 적합한 경우:
– 실시간 추천 시스템, 챗봇, 음성 인식 등 즉각적인 결과가 필요한 서비스.
– 사용자별 맞춤형 콘텐츠 제공.

ㅇ 시험 함정:
– 온라인 추론과 배치 추론을 혼동하는 문제 (배치 추론은 실시간 응답이 아님).
– 서버리스 환경에서 항상 빠르다고 단정짓는 경우 (콜드 스타트 지연 존재).

ㅇ 시험 대비 “패턴 보기” 예시:
O: “사용자 요청 시 즉시 모델이 실행되어 결과를 반환하는 방식이다.”
X: “모델이 하루에 한 번만 실행되어 결과를 제공하는 방식이다.”

ㅁ 추가 학습 내용

온라인 추론 관련 주요 개념 정리

1. 콜드 스타트(Cold Start)와 Warm Start
– 콜드 스타트: 서버리스나 컨테이너 환경에서 요청이 처음 발생하거나 장시간 유휴 상태 후 실행될 때 초기화 시간이 길어지는 현상
– Warm Start: 이미 초기화된 환경에서 요청을 처리하여 지연이 적은 상태

2. 서버리스 환경의 메모리/CPU 제한
– 제공되는 메모리와 CPU 자원이 제한적이며, 메모리 설정에 따라 CPU 성능이 비례적으로 할당됨
– 자원 제한이 추론 성능과 비용에 직접적인 영향

3. API Gateway와 인증·인가 방식
– API Gateway를 통해 요청 라우팅, 인증(Authentication), 인가(Authorization) 가능
– OAuth, JWT, IAM 역할 기반 접근 제어 등 다양한 방식 사용

4. 모델 서빙 도구 특징
– TensorFlow Serving: TensorFlow 모델에 최적화, gRPC/REST API 지원, 버전 관리 기능
– TorchServe: PyTorch 모델 서빙, 커스텀 핸들러 지원, REST API 제공

5. 부하 분산(Load Balancing)과 장애 대응(Failover)
– 부하 분산: 여러 인스턴스에 요청을 분산하여 성능과 안정성 확보
– 장애 대응: 특정 인스턴스 장애 시 다른 인스턴스로 자동 전환

6. A/B 테스트를 통한 모델 버전 관리
– 서로 다른 모델 버전을 동시에 운영하여 성능 비교
– 트래픽을 비율로 나누어 실험 수행

7. 서버리스 환경의 동시성(Concurrency) 제약과 비용 계산
– 동시 처리 가능한 요청 수에 제한 존재
– 요청 수, 실행 시간, 메모리 사용량 등을 기반으로 비용 산정

Meet AI

최신 글

최신 댓글

보관함

카테고리

AI 시스템 구축: 웹 배포 및 서버리스 – 온라인 추론

Previous Article

Next Article

답글 남기기 응답 취소