AI 시스템 구축: 모델 모니터링 – Concept Drift

ㅁ 모델 모니터링

ㅇ 정의:
모델 모니터링은 운영 환경에서 배포된 AI/ML 모델의 성능, 입력 데이터 분포, 예측 결과 등을 지속적으로 추적하고 분석하여 모델의 이상 징후를 조기에 발견하는 과정이다.

ㅇ 특징:
– 데이터 분포 변화, 성능 저하, 예측 편향 등을 실시간 또는 주기적으로 감시
– 경고 알림, 자동 재학습 트리거, 대시보드 시각화 기능 포함
– 운영 환경의 데이터 품질 문제를 조기에 발견 가능

ㅇ 적합한 경우:
– 장기간 운영되는 모델이 외부 환경 변화에 영향을 받을 때
– 규제 준수나 서비스 품질 유지가 필수적인 금융, 의료, 제조 분야

ㅇ 시험 함정:
– 단순 성능 모니터링과 모델 모니터링의 차이를 혼동
– 데이터 품질 모니터링과 모델 성능 모니터링을 동일시하는 오류

ㅇ 시험 대비 “패턴 보기” 예시:
O: “운영 환경에서 모델 입력 데이터의 통계적 특성을 지속 추적하는 활동”
X: “모델 학습 시 하이퍼파라미터를 조정하는 과정”

================================

1. Concept Drift

ㅇ 정의:
시간이 지남에 따라 입력 데이터의 통계적 특성과 목표 변수 간의 관계가 변하여 모델의 예측 성능이 저하되는 현상.

ㅇ 특징:
– 데이터 분포 변화(데이터 드리프트)와 목표 변수 관계 변화(개념 드리프트)로 구분
– 갑작스러운 변화(Sudden Drift), 점진적 변화(Gradual Drift), 주기적 변화(Seasonal Drift) 등이 존재
– 모델이 과거 패턴에 과적합되어 새로운 패턴에 적응하지 못하는 경우 발생

ㅇ 적합한 경우:
– 금융 사기 탐지, 고객 행동 예측, 날씨 예측 등 환경 변화가 잦은 분야에서 모니터링 필요

ㅇ 시험 함정:
– 단순히 입력 데이터 분포가 변하는 것(Data Drift)과 혼동
– 개념 드리프트를 모델 학습 오류나 과적합과 동일시하는 오류

ㅇ 시험 대비 “패턴 보기” 예시:
O: “시간 경과에 따라 입력과 출력 간의 관계가 변하여 예측력이 저하되는 현상”
X: “모델 학습 데이터의 양이 부족하여 발생하는 일반적인 과적합 현상”

ㅁ 추가 학습 내용

Concept Drift 탐지 방법에는 다음이 있다.
– 통계적 검정: KS-test, Chi-square test 등을 사용하여 데이터 분포 변화 여부를 검정한다.
– 분포 거리 측정: KL Divergence, Jensen-Shannon Divergence 등을 활용하여 분포 간 거리를 측정한다.
– 모델 기반 모니터링: 참조 모델의 성능과 현재 모델의 성능을 비교하여 변화 여부를 판단한다.

Drift 대응 방법에는 주기적 재학습, 온라인 학습, 가중치 조정, 데이터 샘플링 기법이 포함된다.

시험 대비를 위해 다음 개념을 구분해야 한다.
– Concept Drift: 입력과 출력 간의 관계가 시간에 따라 변하는 현상. 예) 스팸 메일의 특징 변화.
– Data Drift: 입력 데이터의 분포가 변하는 현상. 예) 센서 측정값의 분포 변화.
– Covariate Shift: 입력 데이터 분포는 변하지만, 입력과 출력 간의 관계는 변하지 않는 현상. 예) 계절 변화에 따른 고객 연령대 분포 변화.

또한 Drift 감지 시 알림을 보내고 자동 재학습 파이프라인을 실행하는 MLOps 구현 사례를 숙지하는 것이 좋다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*