AI 모델 개발: 평가지표

ㅁ 평가지표

ㅇ 정의:
모델이 예측한 결과를 정량적으로 평가하기 위해 사용하는 지표들의 집합. 문제 유형(분류, 회귀 등)과 데이터의 특성에 따라 적절한 지표를 선택해야 함.

ㅇ 특징:
– 데이터의 불균형 여부에 따라 지표의 신뢰도가 달라질 수 있음
– 단일 지표로 모든 상황을 평가하기 어려움
– 모델 개선 방향성을 제시하는 역할 수행

ㅇ 적합한 경우:
– 모델 성능을 객관적으로 비교해야 할 때
– 하이퍼파라미터 튜닝이나 모델 선택 과정에서 기준값이 필요할 때

ㅇ 시험 함정:
– 데이터 불균형 상황에서 Accuracy만 보고 성능이 높다고 착각
– Precision과 Recall의 trade-off 관계를 혼동
– ROC와 PR Curve의 차이를 모호하게 이해

ㅇ 시험 대비 “패턴 보기” 예시:
O: “데이터 불균형 상황에서는 Precision, Recall, F1 Score가 Accuracy보다 유용하다.”
X: “Accuracy는 데이터 불균형에 영향을 받지 않는다.”

================================

1. Accuracy

ㅇ 정의:
전체 예측 중에서 정답을 맞힌 비율. (정답 개수 / 전체 데이터 수)

ㅇ 특징:
– 직관적이고 계산이 단순
– 데이터 불균형에 취약
– 모든 클래스가 균형 잡혀 있을 때 신뢰성 높음

ㅇ 적합한 경우:
– 클래스 분포가 균등한 분류 문제
– 모델의 전반적인 성능을 빠르게 파악할 때

ㅇ 시험 함정:
– 불균형 데이터셋에서 Accuracy가 높아도 실제 성능이 낮을 수 있음
– 회귀 문제에는 부적합

ㅇ 시험 대비 “패턴 보기” 예시:
O: “전체 데이터 중 올바르게 예측한 비율을 의미한다.”
X: “Accuracy는 불균형 데이터 상황에서도 변하지 않는다.”

================================

2. Precision

ㅇ 정의:
모델이 ‘양성’이라고 예측한 것 중 실제로 양성인 비율. (TP / (TP+FP))

ㅇ 특징:
– False Positive를 줄이는 데 중점
– 양성 예측의 신뢰도를 나타냄

ㅇ 적합한 경우:
– 스팸 필터링(스팸 아님을 스팸으로 잘못 분류하면 안 되는 경우)
– 비용이 큰 오탐(False Positive)을 줄여야 하는 경우

ㅇ 시험 함정:
– Recall과 혼동
– Precision 높이기 위해 Recall이 낮아질 수 있음

ㅇ 시험 대비 “패턴 보기” 예시:
O: “양성 예측 중 실제로 양성인 비율이다.”
X: “Precision은 False Negative를 줄이는 데 초점을 둔다.”

================================

3. Recall

ㅇ 정의:
실제 양성 중에서 모델이 양성으로 맞게 예측한 비율. (TP / (TP+FN))

ㅇ 특징:
– False Negative를 줄이는 데 중점
– 양성을 놓치지 않는 능력을 나타냄

ㅇ 적합한 경우:
– 질병 진단(환자를 놓치면 안 되는 경우)
– 보안 탐지(위협을 놓치면 안 되는 경우)

ㅇ 시험 함정:
– Precision과 혼동
– Recall 높이면 Precision이 낮아질 수 있음

ㅇ 시험 대비 “패턴 보기” 예시:
O: “실제 양성 중에서 모델이 맞게 예측한 비율이다.”
X: “Recall은 False Positive를 줄이는 데 초점을 둔다.”

================================

4. F1

ㅇ 정의:
Precision과 Recall의 조화 평균. 2 * (Precision * Recall) / (Precision + Recall)

ㅇ 특징:
– Precision과 Recall의 균형을 평가
– 불균형 데이터에 유용
– 극단적으로 한쪽 지표가 낮으면 F1도 낮아짐

ㅇ 적합한 경우:
– Precision과 Recall 모두 중요한 경우
– 불균형 데이터셋의 모델 평가

ㅇ 시험 함정:
– Accuracy와 혼동
– Precision과 Recall 값이 비슷해야만 높은 값이 나오는 것 아님(둘 다 높아야 함)

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Precision과 Recall의 조화 평균을 사용한다.”
X: “F1 Score는 Precision과 Recall 중 하나만 높아도 높게 나온다.”

================================

5. AUC-ROC

ㅇ 정의:
ROC 곡선(민감도 vs 1-특이도)의 아래 면적. 클래스 구분 능력을 나타냄.

ㅇ 특징:
– 0.5는 무작위 분류기, 1.0은 완벽한 분류기 의미
– 클래스 불균형에도 비교적 안정적
– 전체 threshold 구간에서 성능을 평가

ㅇ 적합한 경우:
– 이진 분류 문제에서 모델의 분류 능력 비교
– 임계값 변화에 따른 성능 변화를 평가할 때

ㅇ 시험 함정:
– PR Curve와 혼동
– 다중 클래스 문제 적용 시 방식(One-vs-Rest 등)을 모르면 오류

ㅇ 시험 대비 “패턴 보기” 예시:
O: “AUC 값이 0.5이면 무작위 추측과 동일하다.”
X: “AUC-ROC는 클래스 불균형 상황에서 항상 신뢰할 수 없다.”

================================

6. PR Curve

ㅇ 정의:
Precision과 Recall의 관계를 threshold 변화에 따라 나타낸 곡선.

ㅇ 특징:
– 불균형 데이터셋에 더 적합
– Recall이 높아질수록 Precision이 낮아지는 경향 확인 가능

ㅇ 적합한 경우:
– 양성 클래스가 희귀한 경우
– 모델의 양성 탐지 능력 평가

ㅇ 시험 함정:
– ROC Curve와 혼동
– 곡선이 높을수록 좋은 모델이라는 점을 간과

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Precision과 Recall의 trade-off를 시각적으로 표현한다.”
X: “PR Curve는 False Positive Rate를 축으로 한다.”

================================

7. Log Loss

ㅇ 정의:
예측 확률과 실제 레이블의 차이를 로그 함수로 계산한 손실값. 낮을수록 좋음.

ㅇ 특징:
– 확률 예측 모델의 신뢰도를 평가
– 잘못된 예측일수록, 그리고 확신이 높을수록 손실이 커짐
– 0에 가까울수록 좋은 성능

ㅇ 적합한 경우:
– 확률 기반 분류 모델 평가
– 예측 확률의 품질을 확인하려는 경우

ㅇ 시험 함정:
– Accuracy와 혼동(정확도와 다른 개념)
– 로그 연산에서 0 확률 예측 시 무한대 손실 발생 가능

ㅇ 시험 대비 “패턴 보기” 예시:
O: “예측 확률이 실제와 다를수록 손실이 커진다.”
X: “Log Loss는 예측 클래스만 고려하고 확률은 무시한다.”

================================

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*