AI 시스템 구축: 모델 모니터링 – 데이터 드리프트

ㅁ 모델 모니터링

ㅇ 정의:
모델 모니터링은 운영 중인 AI 모델의 성능, 입력 데이터 분포, 예측 결과를 지속적으로 관찰하고 이상 여부를 감지하는 과정이다.

ㅇ 특징:
– 실시간 또는 배치 형태로 데이터와 모델 성능을 추적
– 데이터 품질, 데이터 분포, 성능 지표(F1-score, AUC 등) 모니터링
– 알람 및 자동 재학습 트리거 가능

ㅇ 적합한 경우:
– 데이터 환경이 자주 변하는 실시간 서비스
– 규제 준수 및 품질 보증이 중요한 산업(금융, 의료 등)

ㅇ 시험 함정:
– 단순 로깅과 모니터링을 혼동
– 모델 모니터링은 학습 데이터만 보는 것이 아니라 운영 데이터까지 포함

ㅇ 시험 대비 “패턴 보기” 예시:
O: 운영 환경에서 입력 데이터 분포 변화를 감지하는 것은 모델 모니터링의 주요 기능이다.
X: 모델 모니터링은 모델 학습 단계에서만 수행된다.

================================

1. 데이터 드리프트

ㅇ 정의:
데이터 드리프트는 운영 환경에서 모델이 받는 입력 데이터의 통계적 분포가 학습 시점과 달라지는 현상이다.

ㅇ 특징:
– 입력 특성(feature) 값의 평균, 분산, 분포 형태 변화
– 모델 예측 성능 저하의 주요 원인
– 원인은 계절성 변화, 사용자 행동 변화, 센서 성능 저하 등 다양

ㅇ 적합한 경우:
– 장기간 운영되는 예측 모델 모니터링
– 외부 환경 변화가 빈번한 서비스

ㅇ 시험 함정:
– 개념 드리프트와 혼동: 데이터 드리프트는 입력 데이터 분포 변화, 개념 드리프트는 입력-출력 관계 변화
– 단순한 이상치 발생과 동일시하면 안 됨

ㅇ 시험 대비 “패턴 보기” 예시:
O: 데이터 드리프트는 입력 데이터의 분포가 시간이 지남에 따라 변하는 현상을 의미한다.
X: 데이터 드리프트는 모델의 가중치가 운영 중에 변경되는 현상이다.

ㅁ 추가 학습 내용

데이터 드리프트 유형
– 코변량 드리프트(Covariate Drift): 입력 변수의 분포가 시간에 따라 변하는 경우. 목표 변수의 조건부 분포는 변하지 않을 수 있음.
– 표적 드리프트(Target Drift): 목표 변수 자체의 분포가 변하는 경우.
– 조건부 분포 드리프트(Conditional Distribution Drift): 입력 변수에 대한 목표 변수의 조건부 분포가 변하는 경우.

데이터 드리프트 탐지 방법
– KS-검정(Kolmogorov-Smirnov Test): 두 분포 간의 차이를 통계적으로 검정.
– PSI(Population Stability Index): 기준 시점과 현재 시점의 분포 차이를 지표화.
– KL Divergence(Kullback–Leibler Divergence): 두 확률 분포 간의 차이를 비대칭적으로 측정.

데이터 드리프트 대응 전략
– 주기적 재학습: 최신 데이터로 모델을 재훈련하여 변화 반영.
– 특성 엔지니어링 변경: 변화한 데이터 패턴에 맞게 입력 특성 재설계.
– 데이터 수집 파이프라인 개선: 데이터 품질과 일관성 확보를 위한 수집 과정 점검 및 수정.

데이터 드리프트와 개념 드리프트 차이점

구분 | 데이터 드리프트 | 개념 드리프트
— | — | —
정의 | 입력 데이터의 분포 변화 | 입력과 목표 변수 간 관계의 변화
영향 | 모델 입력의 통계적 특성이 변함 | 모델이 학습한 규칙 자체가 변함
탐지 | 입력 분포 비교(KS, PSI, KL 등) | 성능 저하 및 조건부 분포 변화 분석
대응 | 데이터 전처리, 재학습 | 모델 구조 변경, 재학습, 특성 재설계

시험 출제 포인트
– 데이터 드리프트가 모델 성능 저하로 이어지는 인과관계 설명
– 각 드리프트 유형에 적합한 탐지 지표 연결
– 데이터 드리프트와 개념 드리프트의 정의 및 차이 구분

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*