모니터링/실행: Data Drift Detection

ㅁ 모니터링/실행

ㅇ 정의:
데이터 드리프트 감지는 머신러닝 모델에 입력되는 데이터 분포가 시간에 따라 변하는 현상을 탐지하는 과정을 의미함.

ㅇ 특징:
– 데이터 품질 저하를 사전에 감지하여 모델 성능 저하를 방지할 수 있음.
– 통계적 방법(예: K-S 검정, Chi-square 검정) 또는 머신러닝 기반 방법을 활용함.
– 실시간 모니터링이 가능하며, 경고 임계값 설정을 통해 자동화된 알림이 가능함.

ㅇ 적합한 경우:
– 데이터 입력이 정기적으로 업데이트되거나 실시간 스트리밍 데이터가 사용되는 경우.
– 모델 성능이 데이터 분포 변화에 민감한 경우.

ㅇ 시험 함정:
– 데이터 드리프트와 모델 드리프트를 혼동할 가능성이 있음.
– 데이터 분포 변화가 항상 모델 성능 저하로 이어지는 것은 아님.

ㅇ 시험 대비 “패턴 보기” 예시:
1. 데이터 드리프트는 데이터 분포의 변화와 관련이 있다. (O)
2. 데이터 드리프트는 항상 모델 성능 저하로 이어진다. (X)
3. K-S 검정은 데이터 드리프트를 탐지하는 데 사용되는 통계적 방법이다. (O)

================================

1. Data Drift Detection

ㅇ 정의:
데이터 드리프트 감지는 머신러닝 모델의 입력 데이터 분포가 시간에 따라 변화하는 현상을 탐지하고 분석하는 과정임.

ㅇ 특징:
– 통계적 방법과 머신러닝 기반 방법을 혼합하여 감지 가능함.
– 주기적인 데이터 샘플링과 비교를 통해 변화율을 계산함.
– 모델 성능 모니터링과 병행하여 사용됨.

ㅇ 적합한 경우:
– 금융, 헬스케어 등 데이터의 신뢰성이 중요한 도메인.
– 실시간 데이터 처리 시스템에서 데이터 품질 유지가 필요한 경우.

ㅇ 시험 함정:
– 데이터 드리프트 탐지와 원인 분석을 동일시하는 오류.
– 모든 데이터 변화가 모델 재학습을 필요로 한다는 오해.

ㅇ 시험 대비 “패턴 보기” 예시:
1. 데이터 드리프트는 모델 재학습의 필요성을 항상 시사한다. (X)
2. 데이터 드리프트 탐지에 K-S 검정을 사용할 수 있다. (O)
3. 데이터 드리프트는 입력 데이터의 분포 변화와 관련이 있다. (O)

ㅁ 추가 학습 내용

1. 데이터 드리프트와 개념 드리프트의 차이점
– 데이터 드리프트: 입력 데이터의 분포가 시간에 따라 변화하는 현상. 모델의 입력 데이터가 학습 시 사용된 데이터와 다를 경우 발생.
– 개념 드리프트: 입력 데이터와 출력 값 간의 관계가 변화하는 현상. 즉, 데이터의 의미적 관계가 변하거나 대상 문제 자체가 달라지는 경우.

2. 데이터 드리프트 탐지 후의 대응 방법
– 모델 재학습: 새로운 데이터로 모델을 다시 학습시켜 성능을 유지.
– 데이터 전처리 수정: 드리프트의 원인을 분석하고 데이터 전처리 과정을 조정.
– 모델 업데이트: 기존 모델을 보완하거나 새로운 알고리즘으로 교체.
– 모니터링 강화: 드리프트 발생을 지속적으로 감지하고 대응하기 위한 모니터링 시스템 강화.

3. 데이터 드리프트 탐지 도구
– Evidently AI: 데이터 드리프트를 시각화하고 분석할 수 있는 오픈소스 도구.
– Alibi Detect: 데이터 및 개념 드리프트 감지를 위한 Python 라이브러리.
– 기타 도구: TensorFlow Data Validation(TFDV), River 등도 유용.

4. 드리프트 탐지 시 사용하는 주요 통계적 방법의 수학적 원리
– Kullback-Leibler Divergence: 두 확률 분포 간의 차이를 측정.
– Kolmogorov-Smirnov Test: 두 샘플이 동일한 분포를 따르는지 검정.
– Chi-Square Test: 범주형 데이터의 분포 차이를 검정.
– Population Stability Index(PSI): 데이터 분포 차이를 평가하는 지표.
– Jensen-Shannon Divergence: Kullback-Leibler Divergence를 대칭적으로 변형한 거리 측정 방법.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*