AI 모델 개발: 성능 추적 – 사용자 피드백

ㅁ 성능 추적 1. 사용자 피드백 ㅇ 정의: 모델이 실제 운영 환경에서 생성한 예측이나 추천 결과에 대해 최종 사용자가 제공하는 평가, 의견, 불만, 개선 제안 등의 정보를 수집하여 성능 개선에 활용하는 방법. ㅇ 특징: – 정성적(qualitative)·정량적(quantitative) 데이터 모두 포함 가능 – 실시간 또는 주기적으로 수집 가능 – 데이터 품질이 사용자 이해도와 참여도에 크게 의존 –

AI 모델 개발: 성능 추적 – 로그 수집

ㅁ 성능 추적 ㅇ 정의: 모델이 운영 환경에서 예측을 수행하는 과정에서 발생하는 입력 데이터, 예측 결과, 오류, 처리 시간 등의 정보를 기록하는 활동. ㅇ 특징: – 실시간 또는 배치 형태로 수집 가능 – 로그 포맷과 저장소를 표준화하여 분석 용이성 확보 – 모델 성능 저하나 데이터 이상 탐지의 기초 자료 제공 ㅇ 적합한 경우: – 운영

AI 모델 개발: 성능 추적 – 성능 메트릭

ㅁ 성능 추적 ㅇ 정의: 모델이 운영 환경에서 예측을 수행하는 동안 정확도, 정밀도, 재현율, F1-score 등 다양한 성능 지표를 지속적으로 측정하고 분석하는 활동. ㅇ 특징: – 실시간 또는 주기적으로 성능 데이터를 수집. – 데이터 분포 변화(데이터 드리프트)와 성능 저하를 조기에 감지. – 비즈니스 KPI와 연계하여 모델 성능을 평가. ㅇ 적합한 경우: – 모델이 장기간 운영되며

AI 시스템 구축: 성능 개선 – 캐싱 및 배치 처리

ㅁ 성능 개선 ㅇ 정의: – 시스템의 처리 속도와 효율성을 높이기 위해 데이터 처리 및 모델 추론 과정에서 불필요한 연산을 줄이고 자원을 최적화하는 기법. ㅇ 특징: – 응답 지연(latency) 감소, 처리량(throughput) 증가 – 하드웨어 자원(CPU, GPU, 메모리) 효율적 사용 – 알고리즘적 최적화와 시스템 구조 개선을 병행 ㅇ 적합한 경우: – 대규모 데이터 실시간 처리 필요

AI 시스템 구축: 성능 개선 – GPU Concurrency

ㅁ 성능 개선 ㅇ 정의: GPU Concurrency는 GPU 내 여러 연산(계산, 데이터 전송 등)을 동시에 실행하여 전체 처리 속도를 높이는 기법을 의미한다. ㅇ 특징: – 연산과 데이터 이동을 병렬로 수행하여 대기 시간을 줄인다. – CUDA Streams, Multi-GPU 환경에서의 작업 분할 등을 활용한다. – GPU 메모리 대역폭과 스케줄링 최적화가 중요하다. ㅇ 적합한 경우: – 대규모 배치

AI 시스템 구축: 배포 방식 – Cog

ㅁ 배포 방식 1. Cog ㅇ 정의: 머신러닝 모델을 손쉽게 컨테이너화하여 API 형태로 배포할 수 있도록 하는 오픈소스 도구. 주로 Replicate에서 개발 및 제공하며, 모델을 Docker 기반 환경에서 재현 가능하게 실행할 수 있음. ㅇ 특징: – Python, PyTorch, TensorFlow 등 다양한 프레임워크 지원 – Dockerfile 대신 cog.yaml 설정 파일을 통해 환경 정의 – 로컬 실행과

AI 시스템 구축: 배포 방식 – Truss

ㅁ 배포 방식 1. Truss ㅇ 정의: 머신러닝 모델을 손쉽게 프로덕션 환경에 배포할 수 있도록 패키징하고 API 서버 형태로 변환해주는 오픈소스 도구. ㅇ 특징: – Python 기반으로 모델과 종속 라이브러리를 컨테이너 형태로 구성. – 로컬에서 테스트 후 클라우드 환경(Kubernetes, AWS 등)에 쉽게 배포 가능. – 모델 버전 관리와 재현성을 보장. – REST API 형태로 모델

AI 시스템 구축: 배포 방식 – TorchServe

ㅁ 배포 방식 1. TorchServe ㅇ 정의: PyTorch로 학습한 모델을 REST API 또는 gRPC 형태로 쉽게 서비스할 수 있도록 지원하는 모델 서버 프레임워크. ㅇ 특징: – PyTorch 모델을 `.mar` 파일로 패키징하여 배포. – 멀티 모델 서빙, 배치 처리, 모델 버전 관리 지원. – REST API 및 gRPC 인터페이스 제공. – 모델 로드/언로드, 스케일링, 모니터링 기능

AI 시스템 구축: 배포 방식 – BentoML

ㅁ 배포 방식 1. BentoML ㅇ 정의: Python 기반의 머신러닝 모델을 손쉽게 패키징하고 API 형태로 배포할 수 있도록 지원하는 오픈소스 프레임워크. ㅇ 특징: – 다양한 ML 프레임워크(TensorFlow, PyTorch, Scikit-learn 등)와 호환. – 모델, 종속 라이브러리, 환경 설정을 하나의 배포 아티팩트로 패키징. – REST API, gRPC 서버 형태로 손쉽게 노출 가능. – 로컬, 클라우드, 컨테이너 환경(Docker,

AI 시스템 구축: 배포 방식 – 서버리스

ㅁ 배포 방식 ㅇ 정의: 서버나 인프라를 직접 관리하지 않고, 클라우드 제공업체의 서버리스 컴퓨팅 환경(FaaS, BaaS 등)을 활용하여 모델을 배포하는 방식. ㅇ 특징: – 사용한 만큼만 과금(Pay-as-you-go) 구조 – 인프라 관리 부담 최소화 – 자동 확장성 제공 – 짧은 실행 시간 제약(예: AWS Lambda의 최대 실행 시간 제한) – 상태 비저장(stateless) 아키텍처 기반 ㅇ 적합한