AI: 모니터링/실행 – Data Drift Detection
ㅁ 모니터링/실행
ㅇ 정의:
운영 중인 AI 모델의 입력 데이터 분포가 학습 시점과 달라지는 현상을 탐지하는 기법.
ㅇ 특징:
– 데이터의 통계적 특성(평균, 분산, 분포 형태 등)을 주기적으로 분석.
– KS검정, Chi-square, PSI(Population Stability Index) 등 통계 검정을 활용.
– 모델 성능 저하의 사전 경고 역할.
ㅇ 적합한 경우:
– 실시간 또는 배치 데이터가 지속적으로 유입되는 환경.
– 금융, 제조, 의료 등 데이터 환경 변화가 모델 성능에 직접 영향을 미치는 산업.
ㅇ 시험 함정:
– Concept Drift(목표 변수 분포 변화)와 혼동하기 쉬움.
– 단순히 모델 정확도 하락만으로 Drift를 판단하는 것은 오답.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “학습 데이터와 운영 데이터의 입력 변수 분포 차이를 통계적으로 검정한다.”
X: “정확도 하락이 발생하면 무조건 Data Drift가 발생한 것이다.”
ㅁ 추가 학습 내용
추가 학습 정리
1. Data Drift 유형
– Covariate Shift: 입력 변수의 분포가 변화하는 경우
– Prior Probability Shift: 레이블의 비율이 변화하는 경우
2. 탐지 주기 설정
– 실시간 모니터링 방식
– 일정 주기마다 배치 분석 방식
3. Drift 감지 후 대응 방안
– 모델 재학습
– 특징 엔지니어링 수정
– 데이터 수집 전략 변경
4. MLOps 파이프라인에서의 역할
– Drift Detection은 모델 재배포를 트리거하는 요소로 활용됨
5. 데이터 샘플링 크기와 통계 검정
– 샘플링 크기가 클수록 통계 검정의 민감도가 높아짐
6. Drift 탐지 시 오탐/미탐 가능성
– False Positive와 False Negative 발생 가능
– 이를 줄이기 위해 다중 지표를 활용한 모니터링 필요