ㅁ 자동화 ㅇ 정의: 반복적이거나 복잡한 AI 모델 개발 과정을 최소한의 인적 개입으로 수행하도록 지원하는 기술 및 프로세스. ㅇ 특징: – 데이터 전처리, 특징 추출, 모델 선택, 하이퍼파라미터 튜닝, 검증까지 자동화. – 비전문가도 모델 개발 가능. – 클라우드 기반 서비스와 결합 시 확장성 높음. ㅇ 적합한 경우: – AI 개발 인력이 부족한 경우. – 빠른
ㅁ 자동화 1. Feature Store ㅇ 정의: 머신러닝 모델 학습 및 예측에 사용되는 피처(특징) 데이터를 중앙에서 저장·관리·공유하는 시스템으로, 데이터 엔지니어와 데이터 사이언티스트 간 협업을 촉진하고 피처 재사용성을 높인다. ㅇ 특징: – 실시간 및 배치 피처 제공 가능 – 데이터 전처리 로직과 결과를 저장하여 일관성 유지 – 온라인/오프라인 저장소를 분리해 학습과 예측 환경 최적화 – 메타데이터
ㅁ 자동화 ㅇ 정의: – 모델 개발부터 배포, 모니터링, 재학습까지의 전 과정을 자동화하여 운영 효율성과 품질을 높이는 접근 방식. – DevOps 개념을 머신러닝 환경에 적용한 것. ㅇ 특징: – 데이터 수집, 전처리, 학습, 배포, 모니터링, 재학습 파이프라인을 자동화. – 지속적 통합(CI)과 지속적 배포(CD) 개념을 포함. – 모델 성능 저하 시 자동 재학습 트리거 가능. ㅇ
ㅁ 자동화 ㅇ 정의: – 소프트웨어 개발 및 배포 과정에서 반복적이고 수동적인 작업을 최소화하고, 자동화된 절차를 통해 신속하고 안정적인 결과물을 제공하는 방식. ㅇ 특징: – 인적 오류 감소, 배포 속도 향상, 일관성 있는 품질 유지. – 빌드, 테스트, 배포 단계가 자동으로 연계됨. ㅇ 적합한 경우: – 빠른 배포 주기가 필요한 애자일 개발 환경. – 마이크로서비스
ㅁ 모델 모니터링 ㅇ 정의: 머신러닝/딥러닝 모델이 운영 환경에서 예측 성능을 지속적으로 유지하는지 관찰하고, 성능 저하나 이상 징후를 조기에 탐지하는 활동. ㅇ 특징: – 실시간 또는 배치 단위로 모델 출력과 실제 결과를 비교. – 데이터 분포 변화(데이터 드리프트)와 개념 변화(컨셉 드리프트) 감지. – 성능 지표(정확도, F1-score, AUC 등)를 지속적으로 기록. – 알림 시스템과 연계해 이상
ㅁ 모델 모니터링 ㅇ 정의: 모델 모니터링은 운영 환경에서 배포된 AI/ML 모델의 성능, 입력 데이터 분포, 예측 결과 등을 지속적으로 추적하고 분석하여 모델의 이상 징후를 조기에 발견하는 과정이다. ㅇ 특징: – 데이터 분포 변화, 성능 저하, 예측 편향 등을 실시간 또는 주기적으로 감시 – 경고 알림, 자동 재학습 트리거, 대시보드 시각화 기능 포함 – 운영
ㅁ 모델 모니터링 ㅇ 정의: 모델 모니터링은 운영 중인 AI 모델의 성능, 입력 데이터 분포, 예측 결과를 지속적으로 관찰하고 이상 여부를 감지하는 과정이다. ㅇ 특징: – 실시간 또는 배치 형태로 데이터와 모델 성능을 추적 – 데이터 품질, 데이터 분포, 성능 지표(F1-score, AUC 등) 모니터링 – 알람 및 자동 재학습 트리거 가능 ㅇ 적합한 경우: –
ㅁ 도구 1. SageMaker ㅇ 정의: AWS에서 제공하는 완전관리형 머신러닝 서비스로, 데이터 준비, 모델 학습, 배포를 통합적으로 지원하는 플랫폼. ㅇ 특징: – Jupyter 기반 노트북 환경 제공 – AutoML 기능(SageMaker Autopilot) 지원 – 분산 학습, 하이퍼파라미터 튜닝, 모델 모니터링 기능 내장 – AWS S3, Lambda 등과의 긴밀한 연동 ㅇ 적합한 경우: – 클라우드 기반에서 빠르게
ㅁ 도구 ㅇ 정의: 데이터 파이프라인의 작업 흐름을 스케줄링하고 모니터링하기 위한 오픈소스 워크플로우 관리 도구로, DAG(Directed Acyclic Graph) 기반으로 작업을 정의하고 실행 순서를 제어함. ㅇ 특징: – Python 코드로 워크플로우를 정의하여 유연성이 높음 – 다양한 연동 연산자(Operator)를 제공하여 데이터베이스, 클라우드 서비스, API 등과 쉽게 통합 가능 – 웹 UI를 통해 DAG 상태, 실행 로그, 태스크
ㅁ 도구 ㅇ 정의: 머신러닝 모델의 학습부터 배포까지 전 과정을 자동화하고 관리하기 위한 엔드투엔드 파이프라인 프레임워크로, 구글에서 개발한 오픈소스 도구. ㅇ 특징: – 데이터 검증, 전처리, 학습, 평가, 배포를 표준화된 컴포넌트로 제공. – Apache Beam 기반으로 대규모 데이터 처리 가능. – TensorFlow와 긴밀하게 통합되며, 모델 서빙을 위한 TensorFlow Serving과 연계 용이. – 재현성과 추적성을 위해