AI 시스템 구축: 실시간 로그 및 피드백 – 모델 드리프트 감지

ㅁ 실시간 로그 및 피드백

ㅇ 정의:
– 실시간으로 모델의 입력, 출력, 성능 지표를 수집하고 이를 기반으로 모델 상태를 모니터링하는 기법.
– 운영 환경에서 발생하는 데이터 변화를 즉시 반영하여 품질 저하를 방지.

ㅇ 특징:
– 데이터 파이프라인과 연계되어 즉각적인 이상 탐지가 가능.
– 로그 데이터는 주로 스트리밍 처리 기술(Kafka, Flink 등)로 수집.

ㅇ 적합한 경우:
– 금융 사기 탐지, 실시간 추천 시스템 등 예측 정확도가 즉시 중요한 서비스.

ㅇ 시험 함정:
– 단순 주기적 배치 모니터링과 혼동할 수 있음.
– 실시간이라고 해서 반드시 모든 데이터가 지연 없이 처리되는 것은 아님(마이크로 배치 포함 가능).

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) 스트리밍 로그 수집을 통해 모델 이상을 실시간 파악한다.
– (X) 실시간 로그 수집은 모델 재학습을 즉시 수행하는 것을 의미한다.

================================

1. 모델 드리프트 감지

ㅇ 정의:
– 시간 경과에 따라 입력 데이터 분포나 타겟 레이블 분포가 변하여 모델 성능이 저하되는 현상을 탐지하는 과정.
– 데이터 드리프트(입력 분포 변화)와 개념 드리프트(타겟 관계 변화)로 구분.

ㅇ 특징:
– 통계적 검정(KS-test, Chi-square test)이나 분포 거리 측정(KL Divergence, Jensen-Shannon Divergence) 활용.
– 레이블이 없는 경우 비지도 방식으로 입력 특성 분포만 비교.
– 장기 모니터링이 필요하며, 경계값 설정이 중요.

ㅇ 적합한 경우:
– 데이터 특성이 계절성, 트렌드 변동이 심한 산업(광고 클릭률 예측, 주식 예측 등).

ㅇ 시험 함정:
– 단순 성능 저하와 드리프트를 동일시하면 안 됨(성능 저하는 다른 원인일 수도 있음).
– 데이터 드리프트와 개념 드리프트 구분 문제 출제 가능.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) 모델 드리프트 감지는 입력 데이터 분포의 변화를 모니터링하는 과정이다.
– (X) 모델 드리프트는 항상 레이블이 필요한 지도 학습 기반에서만 발생한다.

ㅁ 추가 학습 내용

모델 드리프트 감지에서는 데이터 드리프트와 개념 드리프트의 차이를 명확히 이해해야 한다.
데이터 드리프트는 입력 데이터의 분포가 시간이 지나면서 변하는 현상이며, 개념 드리프트는 입력과 출력 간의 관계 자체가 변하는 현상을 의미한다.

각각의 탐지 방법으로는 KS-test, PSI, ADWIN, DDM 등이 있으며, 이들의 원리와 적용 사례를 숙지해야 한다.
드리프트가 발생했을 때의 대응 전략으로는 재학습 주기 조정, 피처 엔지니어링 변경, 알림 시스템 연동 등이 있다.

실시간 환경에서의 한계로는 레이블 지연 문제와 샘플링 편향이 존재한다.
시험에서는 드리프트 감지와 단순 이상치 탐지를 혼동하게 하는 문제나, 실시간 로그 수집과 오프라인 배치 모니터링의 차이를 묻는 문제가 자주 출제된다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*