모델 모니터링: 데이터 드리프트

ㅁ 모델 모니터링

ㅇ 정의:
AI/ML 모델의 성능과 안정성을 유지하기 위해 모델의 동작과 입력 데이터의 변화를 지속적으로 관찰하고 분석하는 과정.

ㅇ 특징:
– 실시간 또는 주기적으로 수행됨.
– 데이터와 모델 성능 간의 상관관계를 파악.
– 예기치 않은 성능 저하를 사전에 감지.

ㅇ 적합한 경우:
– 모델이 실시간 데이터를 처리하는 경우.
– 입력 데이터의 특성이 자주 변하는 환경.
– 비즈니스 의사결정에 모델 결과가 중요한 경우.

ㅇ 시험 함정:
– 모니터링 도구와 관리 도구를 혼동.
– 단순히 로그를 수집하는 것을 모니터링으로 오해.

ㅇ 시험 대비 “패턴 보기” 예시:
1) 모델 모니터링은 데이터 변경에 따른 모델 재훈련 여부를 결정할 수 있다. (O)
2) 모델 모니터링은 데이터 수집 단계에서만 수행된다. (X)

================================

1. 데이터 드리프트

ㅇ 정의:
데이터 드리프트는 모델이 훈련된 데이터와 실제 운영 환경에서 입력되는 데이터 간의 통계적 분포 차이를 의미함.

ㅇ 특징:
– 데이터 분포의 변화는 모델 성능 저하의 주요 원인.
– 입력 변수 또는 출력 변수의 분포가 모두 영향을 받을 수 있음.
– 점진적 또는 급격한 변화로 나타날 수 있음.

ㅇ 적합한 경우:
– 외부 환경 변화로 데이터 패턴이 달라지는 경우.
– 새로운 사용자 또는 시장 트렌드가 반영되는 경우.

ㅇ 시험 함정:
– 데이터 품질 문제와 데이터 드리프트를 동일시함.
– 모든 데이터 변화가 드리프트로 간주된다고 오해.

ㅇ 시험 대비 “패턴 보기” 예시:
1) 데이터 드리프트는 모델 성능 저하를 유발할 수 있다. (O)
2) 데이터 드리프트는 항상 데이터 품질 저하를 의미한다. (X)

ㅁ 추가 학습 내용

데이터 드리프트와 관련하여 학습하기 좋은 정리 내용은 다음과 같습니다.

1. 데이터 드리프트의 유형:
– 피처 드리프트: 입력 변수(독립 변수)의 분포가 시간에 따라 변화하는 현상.
– 레이블 드리프트: 출력 변수(종속 변수)의 분포가 변화하는 현상.

2. 데이터 드리프트를 감지하기 위한 주요 기법:
– K-S 테스트(Kolmogorov-Smirnov Test): 두 데이터 집합의 분포를 비교하여 차이를 측정하는 통계적 방법.
– PSI(Population Stability Index): 새로운 데이터와 기준 데이터의 분포 차이를 측정하여 안정성을 평가하는 지표.

3. 데이터 드리프트에 대한 대응 방안:
– 재훈련: 최신 데이터를 추가하여 모델을 재훈련.
– 데이터 재수집: 최신 데이터를 수집하여 데이터셋을 업데이트.
– 모델 업데이트: 새로운 데이터에 맞게 모델 구조를 변경하거나 하이퍼파라미터를 조정.

4. 데이터 드리프트와 개념 드리프트의 차이점:
– 데이터 드리프트: 데이터의 분포가 변화하는 현상에 초점.
– 개념 드리프트: 데이터와 레이블 간의 관계가 시간에 따라 변화하는 현상에 초점. 이는 모델이 학습한 패턴이 더 이상 데이터와 레이블 간 관계를 적절히 설명하지 못하는 경우를 의미.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*