ㅁ 배포 아키텍처 ㅇ 정의: 실시간 서빙(Real-time Serving)은 AI 모델의 예측 결과를 사용자의 요청에 즉시 응답하는 형태로 제공하는 배포 방식으로, 요청-응답 지연(latency)을 최소화하는 것을 목표로 함. ㅇ 특징: – 밀리초~수초 단위의 응답 속도 요구 – 온라인 API 형태로 제공되며, 주로 REST API, gRPC 기반 – 고가용성(HA)과 확장성(Scalability)을 위해 로드 밸런싱, 캐싱, 오토스케일링 적용 – 실시간