AI 시스템 구축: 배포 전략 – Online Inference
ㅁ 배포 전략
ㅇ 정의:
머신러닝 모델을 실시간으로 서비스 환경에 배포하여 요청이 들어올 때마다 즉시 예측 결과를 반환하는 방식.
ㅇ 특징:
– 요청-응답 구조로 동작하며, API 형태로 제공되는 경우가 많음.
– 낮은 지연 시간(Latency)과 높은 가용성이 요구됨.
– 트래픽 변동에 대응하기 위해 오토스케일링이나 로드밸런싱 구조를 자주 사용.
ㅇ 적합한 경우:
– 실시간 의사결정이 필요한 서비스(예: 추천 시스템, 금융 거래 사기 탐지).
– 사용자 경험(UX)에 즉각적인 반응성이 중요한 경우.
ㅇ 시험 함정:
– Batch Inference와 혼동하여 처리 주기나 응답 속도를 잘못 이해하는 경우가 있음.
– 모델 업데이트 시 다운타임 없이 배포하는 전략(Blue-Green, Canary 등)을 간과하기 쉬움.
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) 실시간 API 호출을 통해 예측 결과를 반환하는 방식이다.
– (O) 낮은 지연 시간과 높은 가용성이 요구된다.
– (X) 하루 한 번 데이터를 모아 예측 결과를 생성한다.
– (X) 처리 속도보다 처리량이 우선시되는 배치 처리에 적합하다.
ㅁ 추가 학습 내용
Online Inference와 Batch Inference 비교 포인트
– 처리 방식: Online Inference는 실시간 처리, Batch Inference는 주기적 처리
– 응답 속도: Online Inference는 짧은 지연 시간(저지연), Batch Inference는 상대적으로 긴 지연 시간
– 처리량: Batch Inference는 대량 데이터 일괄 처리에 유리, Online Inference는 요청 단위의 빠른 처리에 최적화
– 시스템 아키텍처: Online Inference는 고가용성, 저지연 네트워크, 동시 처리 구조 필요 / Batch Inference는 대규모 데이터 처리 파이프라인과 스케줄링 시스템 중심
Online Inference 운영 시 고려사항
– 캐싱 전략: 반복 요청 응답 속도 향상 및 부하 감소
– 서빙 인프라: Kubernetes, Serverless 환경 활용
– 모델 버전 관리: MLOps 기반 버전 관리 및 배포 파이프라인 구축
– 장애 대응: 롤백 전략, 헬스체크를 통한 서비스 안정성 확보
무중단 배포 전략
– Blue-Green Deployment: 두 개의 동일 환경을 운영하며 전환 방식으로 배포
– Canary Release: 일부 트래픽만 새로운 버전에 전달하여 점진적 배포
– Shadow Testing: 실제 트래픽을 복제하여 새로운 버전에 테스트 후 결과 비교