AI 모델 개발: 성능 추적 – 성능 메트릭
ㅁ 성능 추적
ㅇ 정의:
모델이 운영 환경에서 예측을 수행하는 동안 정확도, 정밀도, 재현율, F1-score 등 다양한 성능 지표를 지속적으로 측정하고 분석하는 활동.
ㅇ 특징:
– 실시간 또는 주기적으로 성능 데이터를 수집.
– 데이터 분포 변화(데이터 드리프트)와 성능 저하를 조기에 감지.
– 비즈니스 KPI와 연계하여 모델 성능을 평가.
ㅇ 적합한 경우:
– 모델이 장기간 운영되며 데이터 특성이 변할 가능성이 높은 경우.
– 규제 산업(금융, 의료)에서 모델 성능을 지속적으로 검증해야 하는 경우.
ㅇ 시험 함정:
– 단일 지표만으로 모델 성능을 판단하는 것은 위험함.
– 학습 데이터 성능과 운영 데이터 성능을 혼동하는 경우.
– 데이터 드리프트와 개념 드리프트를 동일하게 보는 오류.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “운영 환경에서 모델 성능을 주기적으로 측정하는 것은 성능 추적의 핵심이다.”
X: “성능 추적은 모델 학습 시에만 필요한 활동이다.”
================================
1. 성능 메트릭
ㅇ 정의:
모델 예측 결과를 수치로 나타내어 성능을 객관적으로 평가하는 지표.
ㅇ 특징:
– 분류, 회귀, 추천 등 문제 유형에 따라 다양한 메트릭 존재.
– 예: 분류(정확도, 정밀도, 재현율, F1-score, ROC-AUC), 회귀(MAE, MSE, RMSE, R²).
– 단일 지표만으로 전반적인 성능을 판단하기 어려움.
ㅇ 적합한 경우:
– 모델의 품질을 수치로 비교·평가해야 하는 경우.
– 모델 개선 전후 성능을 비교하는 경우.
ㅇ 시험 함정:
– 불균형 데이터에서 정확도만 사용하는 오류.
– 회귀 문제에서 분류 지표를 사용하는 오류.
– ROC-AUC와 PR-AUC의 차이를 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “불균형 데이터에서는 정밀도와 재현율, F1-score를 함께 고려해야 한다.”
X: “불균형 데이터에서도 정확도만으로 충분하다.”
ㅁ 추가 학습 내용
시험 대비를 위해 알아야 할 성능 메트릭 관련 핵심 정리
1. 분류 문제에서의 혼동행렬 해석
– TP(True Positive): 실제 양성을 양성으로 예측
– FP(False Positive): 실제 음성을 양성으로 예측
– FN(False Negative): 실제 양성을 음성으로 예측
– TN(True Negative): 실제 음성을 음성으로 예측
– 각 셀의 의미와 이를 기반으로 한 정확도, 정밀도, 재현율, F1-score 계산 방법 숙지
2. ROC 곡선과 PR 곡선
– ROC 곡선: TPR(재현율)과 FPR(위양성률) 관계를 나타냄
– PR 곡선: 정밀도와 재현율 관계를 나타냄
– ROC는 클래스 불균형이 크지 않은 경우 유용
– PR 곡선은 양성 클래스가 희소한 경우 모델 비교에 더 적합
3. 회귀 문제에서의 비율 기반 지표
– MAPE(Mean Absolute Percentage Error): 예측 오차를 실제 값 대비 백분율로 표현
– 데이터 값의 스케일에 따라 MAE, RMSE, MAPE 등 적절한 지표 선택 필요
4. 운영 환경에서의 성능 저하 원인
– 데이터 분포 변화 외에도 시스템 지연, 피처 엔지니어링 오류, 소프트웨어 버전 차이 등 비데이터 요인 고려 필요
5. 규제 산업에서의 메트릭 관리
– 성능 메트릭 산출 과정과 결과를 감사 가능하게 기록
– 재현 가능성과 투명성을 위해 로그, 코드, 데이터 버전 관리 필수