AI 모델 개발: 불확실성 추정

ㅁ 불확실성 추정

ㅇ 정의:
모델이 예측한 결과에 대해 신뢰도를 수치로 표현하는 기법으로, 예측값의 분포나 변동성을 분석하여 모델의 불확실성을 정량화함.

ㅇ 특징:
– 단일 예측값뿐 아니라 예측 분포를 고려함
– 의사결정의 위험도를 줄이는 데 활용
– 데이터 부족, 분포 변화 상황에서 중요

ㅇ 적합한 경우:
– 의료 진단, 자율주행 등 오판의 비용이 큰 분야
– 데이터 분포 변화(데이터 드리프트) 탐지

ㅇ 시험 함정:
– 정확도(Accuracy)와 혼동하는 경우
– 불확실성이 낮다고 항상 정답이라는 의미는 아님

ㅇ 시험 대비 “패턴 보기” 예시:
O: “불확실성 추정은 예측 결과의 신뢰도를 수치화한다.”
X: “불확실성 추정은 모델의 정확도를 높이는 전처리 기법이다.”

================================

1. Bayesian Neural Network

ㅇ 정의:
신경망의 가중치를 확률 변수로 간주하여 학습 시 사전분포(prior)와 사후분포(posterior)를 추정하는 방식.

ㅇ 특징:
– 예측값의 분포를 직접 추정 가능
– 계산량이 많고 학습이 느림
– MCMC, Variational Inference 등 사용

ㅇ 적합한 경우:
– 데이터 수가 적고 불확실성 정밀 추정이 필요한 경우
– 고위험 의사결정 시스템

ㅇ 시험 함정:
– 일반적인 딥러닝과 동일하게 가중치를 고정값으로 본다고 착각
– 사전분포 설정의 중요성을 간과

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Bayesian Neural Network는 가중치를 확률변수로 취급한다.”
X: “Bayesian Neural Network는 가중치를 고정된 상수로 학습한다.”

================================

2. Dropout 기반 추정

ㅇ 정의:
학습과 추론 시 모두 Dropout을 적용하여 여러 번 추론한 결과의 분산으로 불확실성을 추정하는 방법(MC Dropout).

ㅇ 특징:
– 기존 모델에 쉽게 적용 가능
– 계산 비용이 비교적 낮음
– 추론 시 반복 실행 필요

ㅇ 적합한 경우:
– 대규모 데이터셋에서 빠른 불확실성 추정이 필요한 경우
– 기존 모델 구조 변경이 어려운 경우

ㅇ 시험 함정:
– Dropout을 학습 시에만 사용하는 일반적 용도와 혼동
– 반복 추론 없이도 불확실성을 알 수 있다고 오해

ㅇ 시험 대비 “패턴 보기” 예시:
O: “MC Dropout은 추론 시에도 Dropout을 적용한다.”
X: “Dropout 기반 추정은 학습 시에만 Dropout을 사용한다.”

================================

3. Ensemble 불확실성

ㅇ 정의:
서로 다른 초기값, 데이터 샘플, 모델 구조로 학습한 여러 모델의 예측 분산을 이용해 불확실성을 추정하는 방법.

ㅇ 특징:
– 다양한 모델 관점 반영
– 계산 및 저장 비용이 큼
– Out-of-distribution 데이터 탐지 성능 우수

ㅇ 적합한 경우:
– 계산 자원이 충분하고 높은 신뢰도 요구
– 데이터 분포 변화 감지 필요

ㅇ 시험 함정:
– 단일 모델의 반복 학습과 구분하지 못하는 경우
– 모든 모델이 동일 구조·데이터로 학습되면 효과 저하

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Ensemble 불확실성은 여러 모델의 예측 분산을 활용한다.”
X: “Ensemble 불확실성은 단일 모델의 반복 추론 결과만 사용한다.”

================================

4. Calibration

ㅇ 정의:
모델의 예측 확률이 실제 정답 확률과 일치하도록 조정하는 과정.

ㅇ 특징:
– 예측 확률과 실제 빈도의 차이를 줄임
– Reliability diagram, Expected Calibration Error(ECE)로 평가
– Platt scaling, Temperature scaling 등이 대표 기법

ㅇ 적합한 경우:
– 모델이 과신(overconfident)하는 경향이 있을 때
– 확률 기반 의사결정이 필요한 경우

ㅇ 시험 함정:
– Calibration이 정확도를 높이는 기법이라고 착각
– Calibration 후에도 분류 경계는 변하지 않는다는 사실을 간과

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Calibration은 예측 확률을 실제 빈도와 맞춘다.”
X: “Calibration은 모델의 분류 경계를 변경하여 정확도를 높인다.”

ㅁ 추가 학습 내용

추가 학습 정리

1. 불확실성의 유형
– Aleatoric Uncertainty: 데이터 자체의 내재적 변동성에서 기인. 측정 방법 예: 출력 분포의 분산 추정, 회귀 문제에서 예측 분산 분석.
– Epistemic Uncertainty: 모델의 불완전한 지식에서 발생. 데이터가 많아질수록 감소 가능. 측정 방법 예: Bayesian Neural Network, Ensemble 기반 분산 분석.

2. Bayesian Neural Network 근사 기법
– Variational Inference: 복잡한 사후분포를 간단한 분포로 근사하여 최적화. Evidence Lower Bound(ELBO) 최대화.
– Laplace Approximation: 사후분포를 MAP 추정치 주변의 가우시안으로 근사. 2차 도함수(헤세 행렬) 활용.

3. MC Dropout
– 수학적 근거: Dropout을 확률적 모델의 근사로 해석하여 추론 시에도 Dropout 적용 → Bayesian Approximation.
– Dropout 확률 영향: 확률이 높을수록 모델 불확실성 증가, 과도하면 성능 저하.

4. Ensemble 기법의 모델 생성 전략
– Bagging: 데이터 샘플링(부트스트랩)으로 서로 다른 학습 데이터셋 생성.
– Boosting: 이전 모델의 오차를 보완하는 방식으로 순차적 학습.
– Random Initialization: 동일 데이터셋이지만 초기 가중치만 다르게 설정.

5. Calibration 지표
– Expected Calibration Error(ECE): 예측 확률과 실제 정확도의 차이를 구간별로 평균.
– Maximum Calibration Error(MCE): 예측 확률과 실제 정확도의 최대 차이.
– Brier Score: 예측 확률과 실제 라벨 간의 제곱 오차 평균.

6. 불확실성 기반 의사결정 전략
– 임계값 조정: 불확실성이 높은 샘플을 제외하거나 보류.
– Human-in-the-loop: 불확실성이 높은 경우 사람의 판단 개입.

7. OOD 탐지와 불확실성
– 관계: OOD 데이터는 보통 높은 불확실성을 유발.
– 활용 사례: 안전-critical 시스템에서 OOD 탐지를 통해 잘못된 예측 방지.

시험 대비 체크리스트

[ ] Aleatoric과 Epistemic 불확실성의 정의와 차이 설명 가능
[ ] 각 불확실성 유형의 대표적인 측정 방법 예시 제시 가능
[ ] Variational Inference와 Laplace Approximation의 수학적 원리 이해
[ ] MC Dropout의 Bayesian 근사 개념과 Dropout 확률 변화 영향 설명 가능
[ ] Bagging, Boosting, Random Initialization의 차이와 장단점 비교 가능
[ ] ECE, MCE, Brier Score의 계산식과 해석 방법 암기
[ ] 불확실성 추정을 활용한 임계값 조정과 Human-in-the-loop 전략 설명 가능
[ ] OOD 탐지와 불확실성 추정의 연관성 및 사례 설명 가능

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*