AI 시스템 구축: 배포 전략

ㅁ 배포 전략

ㅇ 정의:
모델 학습이 완료된 후, 실제 서비스 환경에 모델 예측 기능을 적용하는 방식과 절차를 의미함. 배포 전략은 예측 요청 처리 방식, 성능, 안정성, 리스크 관리 수준에 따라 다양한 접근이 존재함.

ㅇ 특징:
– 시스템 부하, 응답 지연 허용 범위, 데이터 처리 주기 등에 따라 전략을 선택
– 운영 환경의 안정성과 실험적 기능 검증을 동시에 고려
– 롤백 가능성, 성능 모니터링, 실시간/비실시간 요구사항이 중요한 판단 요소

ㅇ 적합한 경우:
– 모델 변경 주기가 빠른 경우: 점진적 배포나 실험적 검증 전략 필요
– 대규모 요청 처리: 배치 처리 선호
– 사용자 경험에 직접 영향을 주는 경우: 실시간/온라인 추론 필요

ㅇ 시험 함정:
– 배치/온라인 inference 개념 혼동
– A/B Test 목적을 단순 비교로 잘못 이해
– Shadow Deployment를 Canary Release와 혼동

ㅇ 시험 대비 “패턴 보기” 예시:
O: “실시간 응답이 필요한 추천 시스템은 Online Inference를 사용한다.”
X: “Batch Inference는 항상 Online Inference보다 빠르다.”

================================

1. Batch Inference

ㅇ 정의:
일정 주기(시간/일 단위)로 데이터 집합을 모아 한 번에 예측을 수행하는 방식.

ㅇ 특징:
– 대규모 데이터 처리에 효율적
– 실시간성이 낮음
– 예측 결과를 사전에 계산하여 저장 후 활용

ㅇ 적합한 경우:
– 실시간 응답이 필요 없는 환경 (예: 하루 1회 리포트 생성, 야간 배치 추천 목록 생성)
– 데이터 양이 많아 실시간 처리 부하가 큰 경우

ㅇ 시험 함정:
– “Batch = 느리다”로 단순 암기 → 실제로는 전체 처리량이 빠를 수 있음
– Online Inference와 혼동하여 실시간 서비스 예시를 잘못 적용

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Batch Inference는 야간에 대량 데이터를 처리하여 다음날 서비스에 제공한다.”
X: “Batch Inference는 반드시 사용자가 요청할 때마다 수행된다.”

================================

2. Online Inference

ㅇ 정의:
사용자의 요청이 들어올 때마다 모델이 즉시 예측을 수행하여 결과를 반환하는 방식.

ㅇ 특징:
– 실시간 응답 가능
– 지연(latency)에 민감
– 서버 리소스 부하 관리 필요

ㅇ 적합한 경우:
– 실시간 추천, 음성 인식, 챗봇 등 사용자 요청 즉시 응답이 필요한 서비스
– 데이터가 지속적으로 유입되고 즉시 반영이 필요한 경우

ㅇ 시험 함정:
– Batch Inference와 구분 없이 정의 암기 → 응답 방식 중심으로 구분 필요
– 실시간이라 항상 정확도가 높은 것은 아님 (모델 품질과 별개)

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Online Inference는 요청마다 모델을 실행하여 즉시 결과를 제공한다.”
X: “Online Inference는 하루에 한 번만 실행된다.”

================================

3. A/B Test

ㅇ 정의:
두 개 이상의 모델(또는 기능)을 실제 트래픽에 나누어 배분하여 성능을 비교·검증하는 실험적 배포 방식.

ㅇ 특징:
– 실사용자 환경에서 직접 성능 검증 가능
– 트래픽 분할 비율 조정 가능
– 통계적 유의성 검증 필요

ㅇ 적합한 경우:
– 새로운 모델을 기존 모델과 비교 검증할 때
– 모델 변경이 사용자 경험에 미치는 영향을 확인할 때

ㅇ 시험 함정:
– 단순 성능 비교가 아닌 통계적 검증 과정 필요성을 간과
– A/B Test와 Canary Release 혼동 (A/B는 동시 비교, Canary는 점진 배포)

ㅇ 시험 대비 “패턴 보기” 예시:
O: “A/B Test는 동일 시점에 두 모델을 나누어 배포하고 성능을 비교한다.”
X: “A/B Test는 반드시 한 번에 한 사용자 그룹만 대상으로 한다.”

================================

4. Shadow Deployment

ㅇ 정의:
신규 모델이 실제 트래픽을 복제하여 예측을 수행하되, 그 결과를 사용자에게 제공하지 않고 모니터링하는 배포 방식.

ㅇ 특징:
– 실서비스 영향 없이 실제 환경 데이터로 성능 검증 가능
– 운영 안정성 확보에 유리
– 복제 트래픽 처리로 인한 추가 리소스 소모 발생

ㅇ 적합한 경우:
– 신규 모델의 안정성, 성능을 실제 트래픽 기반으로 검증하고 싶은 경우
– 기존 모델과 병행 검증 필요 시

ㅇ 시험 함정:
– Canary Release와 혼동 (Shadow는 사용자에게 결과 미노출)
– 실시간 환경 검증임에도 “오프라인 테스트”로 오해

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Shadow Deployment는 신규 모델의 예측 결과를 사용자에게 제공하지 않는다.”
X: “Shadow Deployment는 신규 모델의 예측을 바로 사용자에게 적용한다.”

================================

제가 보기에는 이 구조를 기반으로, 이후 다른 배포 전략 예시나 MLOps 시험 문제 풀이에도 활용할 수 있습니다.
원하시면 각 전략별 **흔히 나오는 그림/아키텍처 도식**도 추가해서 시각 학습 자료로 만들어 드릴까요?

최신 글