운영/검증: Feature Drift
ㅁ 운영/검증
ㅇ 정의:
– 운영 중인 머신러닝 모델이 입력 데이터의 특성이 시간이 지남에 따라 변화하는 현상을 의미.
ㅇ 특징:
– 데이터 분포의 변화로 인해 모델 성능이 저하될 수 있음.
– 주로 외부 환경 변화, 사용자 행동 변화, 데이터 수집 방식의 변경 등으로 발생.
– 모델의 예측 결과가 신뢰성을 잃게 되는 주요 원인 중 하나.
ㅇ 적합한 경우:
– 실시간 데이터를 기반으로 예측을 수행하는 시스템에서 지속적인 성능 모니터링이 필요한 경우.
– 데이터 입력이 동적이고, 환경 변화가 잦은 애플리케이션.
ㅇ 시험 함정:
– Feature Drift와 Concept Drift를 혼동하여 출제되는 경우가 많음.
– Feature Drift는 입력 데이터의 특성 변화, Concept Drift는 출력 라벨의 분포 변화에 해당.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Feature Drift는 입력 데이터의 특성이 시간에 따라 변하는 현상이다.”
– X: “Feature Drift는 모델의 출력 값이 변동하는 것을 의미한다.”
================================
ㅁ 추가 학습 내용
Feature Drift와 관련된 주요 학습 내용을 정리하면 다음과 같습니다.
1. Feature Drift 탐지 방법:
– 통계적 테스트: Kolmogorov-Smirnov 테스트, Chi-Square 테스트, Jensen-Shannon Divergence 등을 활용해 과거와 현재 데이터의 분포 차이를 확인.
– 시각화 기법: 히스토그램, 박스 플롯, 분포 그래프 등을 사용하여 데이터 분포 변화를 직관적으로 파악.
– 드리프트 감지 알고리즘: ADWIN(Adaptive Windowing), DDM(Drift Detection Method) 등과 같은 알고리즘을 적용해 데이터 특성의 변화를 자동으로 탐지.
2. Feature Drift 해결 방안:
– 재학습: 새로운 데이터로 모델을 재학습하여 최신 데이터 분포를 반영.
– 데이터 샘플링: 과거와 현재 데이터를 균형 있게 샘플링하여 학습 데이터 구성.
– 피처 엔지니어링: 드리프트가 발생한 피처를 변환하거나 제거하고, 새로운 피처를 추가하여 모델 성능을 개선.
3. Feature Drift와 Concept Drift 구별 기준 및 사례:
– Feature Drift: 입력 데이터의 분포가 시간에 따라 변하지만, 출력 변수와의 관계는 유지되는 경우. 예: 날씨 데이터를 사용하는 모델에서 온도 분포가 계절에 따라 달라지는 경우.
– Concept Drift: 입력 데이터와 출력 변수 간의 관계가 시간에 따라 변하는 경우. 예: 고객의 구매 패턴이 시간이 지남에 따라 변화하여 동일한 입력 데이터에 대해 다른 결과가 나타나는 경우.
이 내용을 학습하면 Feature Drift와 Concept Drift를 명확히 이해하고, 관련 문제를 탐지하고 해결하는 데 유리할 것입니다.