AI 모델 개발: 평가지표 – F1

ㅁ 평가지표

ㅇ 정의:
Precision과 Recall의 조화평균을 계산하여 모델의 성능을 하나의 값으로 나타내는 지표. 불균형 데이터셋에서 모델 성능을 종합적으로 평가할 때 사용됨.

ㅇ 특징:
– Precision과 Recall 모두를 고려하므로 한쪽에 치우친 성능평가를 방지.
– 값의 범위는 0~1이며, 1에 가까울수록 성능이 우수함.
– 데이터 불균형 상황에서 Accuracy보다 유용.

ㅇ 적합한 경우:
– 긍정/부정 클래스 비율이 크게 차이 나는 경우.
– 스팸메일 탐지, 사기거래 탐지 등 Recall과 Precision 모두 중요한 경우.

ㅇ 시험 함정:
– F1은 Accuracy와 혼동하기 쉬움.
– F1은 단순 평균이 아닌 조화평균임을 놓치기 쉬움.
– Precision이나 Recall 중 하나가 0이면 F1도 0이 됨.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “F1 Score는 Precision과 Recall의 조화평균이다.”
O: “데이터 불균형 상황에서 Accuracy보다 F1 Score가 더 유용하다.”
X: “F1 Score는 Precision과 Recall의 산술평균이다.”
X: “Precision이 높으면 무조건 F1 Score도 높다.”

ㅁ 추가 학습 내용

F1 Score의 변형 지표로 Fβ Score가 있으며, 이는 Precision과 Recall의 조화평균에서 β 값을 통해 두 지표의 중요도를 조절한다. β > 1이면 Recall을 더 중시하고, β < 1이면 Precision을 더 중시한다. 다중 클래스 분류에서는 F1 Score를 계산하는 방식에 따라 Macro-F1, Micro-F1, Weighted-F1로 나뉜다. - Macro-F1: 각 클래스별 F1 Score를 계산한 뒤 단순 평균 - Micro-F1: 전체 TP, FP, FN을 합산하여 F1 Score 계산 - Weighted-F1: 각 클래스별 F1 Score에 클래스별 샘플 수 비율을 가중하여 평균 F1 Score 계산 시 TP(True Positive), FP(False Positive), FN(False Negative)가 어떻게 도출되는지 이해해야 한다. 불균형 데이터셋에서는 Accuracy가 높은 값으로 나타나더라도 실제로 모델이 특정 클래스만 잘 맞추고 다른 클래스는 거의 맞추지 못할 수 있어 성능을 과대평가하는 오해가 발생할 수 있다. 예를 들어, 전체 데이터의 95%가 한 클래스에 속하는 경우, 모든 샘플을 그 클래스라고 예측하면 Accuracy는 95%이지만, 다른 클래스에 대한 예측 성능은 전혀 없는 상태가 된다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*