AI 시스템 구축: 모델 모니터링 – 성능 모니터링
ㅁ 모델 모니터링
ㅇ 정의:
머신러닝/딥러닝 모델이 운영 환경에서 예측 성능을 지속적으로 유지하는지 관찰하고, 성능 저하나 이상 징후를 조기에 탐지하는 활동.
ㅇ 특징:
– 실시간 또는 배치 단위로 모델 출력과 실제 결과를 비교.
– 데이터 분포 변화(데이터 드리프트)와 개념 변화(컨셉 드리프트) 감지.
– 성능 지표(정확도, F1-score, AUC 등)를 지속적으로 기록.
– 알림 시스템과 연계해 이상 시 자동 경고.
ㅇ 적합한 경우:
– 모델이 장기간 운영되며 입력 데이터 특성이 변할 가능성이 높은 경우.
– 금융 사기 탐지, 추천 시스템, 제조 불량 예측 등 지속적 정확도가 중요한 서비스.
ㅇ 시험 함정:
– 학습 데이터 성능만 보고 운영 성능을 동일하다고 착각.
– 데이터 드리프트와 컨셉 드리프트의 차이를 혼동.
– 모니터링을 단순 로그 수집으로만 이해.
ㅇ 시험 대비 “패턴 보기” 예시:
O: 운영 환경에서 모델 예측 성능을 지속적으로 측정하고 이상을 탐지하는 활동이다.
X: 모델 학습 단계에서만 성능을 측정하는 것을 의미한다.
================================
1. 성능 모니터링
ㅇ 정의:
운영 중인 모델의 성능 지표를 주기적으로 수집·분석하여, 예측 품질을 유지하거나 개선하기 위한 모니터링 기법.
ㅇ 특징:
– 예측값과 실제값을 비교하여 정확도, 정밀도, 재현율, F1-score, ROC-AUC 등을 추적.
– 실시간 대시보드와 경고 시스템을 통해 성능 저하를 빠르게 인지.
– 데이터 및 모델 버전과 성능 변화를 함께 기록.
ㅇ 적합한 경우:
– 고객 경험 품질이 모델 성능에 직접적으로 영향을 받는 서비스.
– 규제 준수를 위해 모델의 지속적 성능 보고가 필요한 산업.
ㅇ 시험 함정:
– 단일 지표만으로 성능을 평가하는 경우.
– 성능 저하 원인을 데이터 문제와 모델 문제로 구분하지 못하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
O: 운영 모델의 예측 정확도와 기타 성능 지표를 주기적으로 측정하여 품질을 유지하는 활동이다.
X: 모델 학습 시점의 최고 성능만을 기록하는 것을 의미한다.
ㅁ 추가 학습 내용
성능 모니터링에서는 단순 정확도뿐만 아니라 Precision, Recall, F1-score, ROC-AUC, Log Loss 등 다양한 지표를 함께 추적하는 것이 중요하다.
데이터 드리프트 감지를 위해서는 입력 특성의 통계량 변화를 모니터링하고, 컨셉 드리프트 감지를 위해 예측과 실제 결과 간의 관계 변화를 분석해야 한다.
운영 환경에서는 지연(latency), 처리량(throughput), CPU/GPU 및 메모리 사용량 등 시스템 성능 지표도 고려해야 하며, 성능 저하가 감지되면 자동 재학습 파이프라인과 연계하는 것이 중요하다.
시험에서는 오프라인 평가와 온라인 모니터링의 차이, 데이터 드리프트와 컨셉 드리프트의 구분, 실시간 모니터링의 필요성이 자주 출제된다.