AI 모델 개발: 불확실성 추정 – Calibration

ㅁ 불확실성 추정

ㅇ 정의:
모델이 예측한 확률 값과 실제 정답 간의 일치 정도를 측정하여, 예측의 신뢰도를 평가하는 기법.

ㅇ 특징:
– 예측 확률이 실제 발생 빈도와 얼마나 일치하는지 확인.
– 분류 모델에서 softmax 출력값이 과도하게 자신감 있는 경우(overconfident) 보정 필요.
– Reliability diagram, Expected Calibration Error(ECE) 등의 지표 사용.

ㅇ 적합한 경우:
– 의료 진단, 금융 리스크 평가 등 예측 불확실성이 중요한 분야.
– 모델의 확률값을 의사결정에 직접 활용하는 경우.

ㅇ 시험 함정:
– Accuracy가 높다고 해서 Calibration이 좋은 것은 아님.
– Calibration은 모델의 확률값 품질과 관련, 분류 정확도와 혼동하지 말 것.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) “모델의 예측 확률이 실제 빈도와 일치하면 잘 보정된 모델이다.”
– (X) “정확도가 높으면 항상 Calibration이 잘 되어 있다.”

================================

1. Calibration

ㅇ 정의:
예측 모델의 출력 확률이 실제 사건 발생 확률과 얼마나 일치하는지를 평가하고 조정하는 과정.

ㅇ 특징:
– 모델의 신뢰도(reliability)와 직접 관련.
– Platt Scaling, Isotonic Regression 등의 방법으로 보정 가능.
– Calibration curve를 통해 시각적으로 평가.

ㅇ 적합한 경우:
– 분류 모델에서 출력 확률을 의사결정 기준으로 활용할 때.
– 확률 기반 순위화, 리스크 점수화가 필요한 서비스.

ㅇ 시험 함정:
– Calibration이 좋아도 분류 정확도가 낮을 수 있음.
– Calibration 지표(ECE, MCE 등)와 정확도 지표를 혼동하지 말 것.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) “Platt Scaling은 로지스틱 회귀를 이용한 Calibration 기법이다.”
– (X) “Calibration은 모델의 정확도를 높이는 기법이다.”

1.1 Platt Scaling

ㅇ 정의:
모델의 출력 점수를 로지스틱 회귀에 통과시켜 확률로 변환하는 Calibration 기법.

ㅇ 특징:
– 간단하고 계산량이 적음.
– 이진 분류에서 주로 사용.
– 과적합 위험이 적으나, 데이터 분포 가정에 민감.

ㅇ 적합한 경우:
– SVM 등 점수 기반 모델의 확률 보정.
– 데이터 샘플 수가 충분하지 않은 경우.

ㅇ 시험 함정:
– Platt Scaling은 비선형 보정이 어려움.
– 다중 클래스 문제에 바로 적용 불가(One-vs-Rest 필요).

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) “Platt Scaling은 점수를 로지스틱 회귀로 변환하여 확률을 얻는다.”
– (X) “Platt Scaling은 다중 클래스 문제에 바로 적용 가능하다.”

1.2 Isotonic Regression

ㅇ 정의:
단조 증가 함수 형태로 예측 점수와 실제 확률을 매핑하는 비모수적 Calibration 기법.

ㅇ 특징:
– 데이터에 유연하게 적합 가능.
– 과적합 위험이 Platt Scaling보다 높음.
– 데이터 양이 많을수록 성능 안정.

ㅇ 적합한 경우:
– 데이터 샘플이 많고, 점수-확률 관계가 비선형일 때.
– 확률 보정이 복잡한 패턴을 가질 때.

ㅇ 시험 함정:
– 샘플 수가 적으면 과적합 발생.
– 단조 증가 제약을 위배하는 데이터에 부적합.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) “Isotonic Regression은 단조 증가 제약을 가진 비모수적 보정 기법이다.”
– (X) “Isotonic Regression은 항상 Platt Scaling보다 과적합 위험이 낮다.”
================================

ㅁ 추가 학습 내용

Calibration 관련 추가 학습 정리

1. Temperature Scaling
– 딥러닝 모델에서 주로 사용하는 Calibration 기법
– Softmax 출력 확률을 단일 스칼라 파라미터(Temperature)로 조정
– 모델의 예측 확률 분포를 재조정하여 Calibration 성능을 개선

2. Reliability Diagram
– 예측 확률과 실제 정답 비율의 관계를 시각적으로 표현
– x축: 예측 확률 구간, y축: 해당 구간의 실제 정답 비율
– 대각선에 가까울수록 잘 보정된 모델

3. Calibration 성능 지표
– Expected Calibration Error (ECE): 각 확률 구간에서의 예측 정확도와 실제 정확도의 차이를 가중 평균
– Maximum Calibration Error (MCE): 모든 구간 중 최대 오차값
– ECE는 전반적인 Calibration 수준을, MCE는 최악의 구간 오차를 나타냄

4. Underconfidence와 Overconfidence
– Underconfidence: 모델이 실제보다 낮은 확률을 예측
– Overconfidence: 모델이 실제보다 높은 확률을 예측
– 두 경우 모두 의사결정에 부정적 영향을 줄 수 있음

5. Calibration과 Discrimination 지표의 차이
– Calibration: 예측 확률이 실제 확률과 얼마나 일치하는가 (ECE, MCE 등)
– Discrimination: 클래스 구분 능력 (AUC, ROC 등)
– 두 개념은 독립적일 수 있으며, 높은 AUC가 반드시 좋은 Calibration을 의미하지 않음

6. Calibration의 산업적 중요성
– 자율주행: 위험 상황 판단 시 확률이 잘못 보정되면 사고 위험 증가
– 의료 영상 분석: 병변 존재 확률 제공 시 부정확한 Calibration은 오진 가능성 증가

7. Calibration이 잘못되었을 때의 위험성
– 과도한 자신감으로 잘못된 결정을 내릴 위험
– 실제보다 위험을 과소평가하여 대응 실패 가능성
– 신뢰 기반 시스템에서 사용자 신뢰도 저하

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*