AI: 모니터링/실행
ㅁ 모니터링/실행
1. Data Drift Detection
ㅇ 정의:
데이터 분포가 시간에 따라 변화하여 모델 성능이 저하되는 현상을 감지하는 기법.
ㅇ 특징:
– 입력 데이터의 통계적 특성을 지속적으로 추적.
– KS 검정, PSI, KL Divergence 등의 통계 기법 활용.
– 비지도 방식으로 운영 환경에서 자동 감지 가능.
ㅇ 적합한 경우:
– 실시간 예측 시스템에서 데이터 특성이 변할 가능성이 높은 경우.
– 계절성, 트렌드 변화가 있는 데이터.
ㅇ 시험 함정:
– Drift 감지와 모델 성능 저하 원인을 동일시하는 오류.
– 데이터 품질 문제와 Drift를 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “운영 데이터의 분포 변화를 탐지하여 모델 재학습 시점을 판단하는 절차”
– X: “모델의 하이퍼파라미터를 자동으로 최적화하는 절차”
================================
2. Model Registry
ㅇ 정의:
모델 버전, 메타데이터, 배포 이력 등을 저장/관리하는 중앙 저장소.
ㅇ 특징:
– 모델 버전 관리 및 롤백 지원.
– 실험 결과와 함께 저장하여 재현성 보장.
– 접근 제어 및 감사 로그 제공.
ㅇ 적합한 경우:
– 여러 모델 버전을 운영 환경에서 테스트/배포하는 경우.
– 규제 산업에서 모델 변경 이력을 추적해야 하는 경우.
ㅇ 시험 함정:
– 단순 파일 저장소와 동일시하는 오류.
– 코드 저장소(Git)와 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “모델 버전과 메타데이터를 중앙에서 관리하여 추적 가능성을 높이는 시스템”
– X: “데이터 전처리 파이프라인의 로그를 저장하는 전용 시스템”
================================
3. Model Monitoring
ㅇ 정의:
운영 중인 모델의 성능, 응답 시간, 오류율, 데이터 품질 등을 지속적으로 추적하는 활동.
ㅇ 특징:
– 실시간 대시보드와 알림 시스템 포함.
– 데이터 Drift, 성능 저하, SLA 위반 등을 탐지.
– 로그 분석 및 지표 기반 경고 설정.
ㅇ 적합한 경우:
– 서비스 가용성과 품질이 중요한 실시간 예측 서비스.
– 규제 또는 SLA 준수가 필수인 환경.
ㅇ 시험 함정:
– 단순 모델 학습 로그 확인과 동일시.
– 모니터링과 재학습 자동화를 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “운영 모델의 성능과 입력 데이터 상태를 지속적으로 추적하는 활동”
– X: “모델 학습 속도를 높이는 하드웨어 최적화 과정”
================================
4. CI/CD Pipeline
ㅇ 정의:
모델 및 코드 변경을 자동으로 빌드, 테스트, 배포하는 일련의 자동화 프로세스.
ㅇ 특징:
– Continuous Integration과 Continuous Deployment/Delivery 포함.
– 코드 및 모델 변경 시 자동 테스트와 배포.
– 재현성과 배포 속도 향상.
ㅇ 적합한 경우:
– 모델 업데이트 주기가 짧고, 신속한 배포가 필요한 환경.
– 여러 개발자가 협업하는 프로젝트.
ㅇ 시험 함정:
– CI와 CD의 차이를 혼동.
– 데이터 파이프라인 자동화와 동일시.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “모델 변경 시 자동으로 테스트와 배포를 수행하는 프로세스”
– X: “데이터 수집 속도를 높이는 네트워크 최적화 작업”
================================
5. Feature Store
ㅇ 정의:
머신러닝 모델에 사용되는 특징(Feature)을 저장, 관리, 재사용할 수 있는 중앙 저장소.
ㅇ 특징:
– 온라인/오프라인 저장소로 분리 가능.
– 피처 생성 로직과 데이터 일관성 보장.
– 재사용성과 협업 효율성 향상.
ㅇ 적합한 경우:
– 동일 피처를 여러 모델에서 재사용하는 경우.
– 실시간 피처 제공이 필요한 서비스.
ㅇ 시험 함정:
– 단순 데이터베이스와 동일시.
– 피처 엔지니어링 도구와 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “모델 학습과 예측에 필요한 피처를 중앙에서 관리하여 재사용성을 높이는 시스템”
– X: “모델의 하이퍼파라미터를 저장하는 전용 시스템”
ㅁ 추가 학습 내용
추가 학습 정리
1. Data Drift Detection
– 개념적 Drift(Concept Drift): 입력 데이터와 출력 라벨 간의 관계가 시간이 지나면서 변하는 현상. 예: 고객 행동 패턴 변화로 모델의 예측 로직이 맞지 않게 되는 경우.
– 데이터 분포 Drift: 입력 데이터의 통계적 분포가 변하는 현상. 예: 특정 피처 값의 평균이나 분산이 변동.
2. Model Registry 주요 도구 비교
– MLflow Model Registry: 오픈소스, 다양한 환경에서 사용 가능, 버전 관리와 단계 전환(Stage Transition) 기능 제공, 커뮤니티 지원 활발.
– SageMaker Model Registry: AWS 환경에 최적화, SageMaker와 긴밀 통합, 보안·권한 관리 강점, AWS 종속성 존재.
3. Model Monitoring
– 지표 선택 기준:
• 분류 모델: F1-score, Precision, Recall, AUC 등 목적과 데이터 불균형 여부에 따라 선택.
• 회귀 모델: RMSE, MAE, R² 등 예측 오차 관점에서 선택.
– 알림 임계값 설정: 과거 성능 데이터 기반으로 정상 범위 정의, 임계값 초과 시 경고 또는 재학습 트리거.
4. CI/CD Pipeline 배포 전략
– Canary Deployment: 일부 트래픽만 신규 버전에 배정하여 성능 검증 후 점진적 확대. 위험 분산 가능.
– Blue-Green Deployment: 기존 버전(Blue)과 신규 버전(Green)을 동시에 운영, 전환 시 전체 트래픽을 한 번에 변경. 롤백이 용이.
5. Feature Store 관리
– 피처 버저닝: 피처 정의와 데이터셋 버전을 관리하여 재현성과 실험 추적성 확보.
– 데이터 동기화 문제 해결: 배치·실시간 데이터 간 시간 차이, 지연(latency) 문제를 모니터링하고 동기화 로직 구현.
6. 개념 간 연계성
Drift Detection → Model Monitoring → 재학습 자동화 → CI/CD 배포로 이어지는 파이프라인 흐름 이해. Drift 발생 시 Monitoring 시스템이 감지하고, 재학습 프로세스를 자동 실행, 검증 후 CI/CD를 통해 신규 모델을 안전하게 배포.