AI: 설명가능 인공지능(XAI) 핵심기법 – Faithfulness

ㅁ 설명가능 인공지능(XAI) 핵심기법

1. Faithfulness

ㅇ 정의:
모델이 제공하는 설명이 실제 모델의 의사결정 과정과 얼마나 일치하는지를 나타내는 성질. 즉, 설명이 모델 내부의 진짜 작동 원리를 충실히 반영하는 정도.

ㅇ 특징:
– 설명이 직관적으로 이해되더라도 실제 모델의 내부 로직과 다르면 Faithfulness가 낮음.
– 모델의 예측 결과 변경 시 설명도 일관되게 변해야 함.
– 복잡한 딥러닝 모델에서는 높은 Faithfulness 확보가 어려움.

ㅇ 적합한 경우:
– 모델의 결정 과정을 규제 준수나 책임성 측면에서 검증해야 하는 경우.
– 의료, 금융 등 설명의 정확성이 중요한 분야.

ㅇ 시험 함정:
– ‘설명이 이해하기 쉽다’와 ‘설명이 Faithful하다’를 혼동하는 문제.
– 모델 출력과 설명의 변화가 불일치해도 Faithfulness가 높다고 오답 유도.
– 단순히 설명이 시각적으로 그럴듯하다고 해서 Faithfulness가 보장되는 것은 아님.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Faithfulness는 모델의 실제 의사결정 과정을 충실히 반영하는 설명의 특성을 의미한다.”
– X: “Faithfulness는 설명이 사용자가 이해하기 쉬운 정도를 의미한다.”
– O: “Faithfulness가 높으려면 모델 예측이 변할 때 설명도 일관되게 변해야 한다.”
– X: “Faithfulness는 설명이 시각적으로 보기 좋은 정도를 의미한다.”

ㅁ 추가 학습 내용

Faithfulness는 모델의 설명이 실제 모델의 내부 의사결정 과정과 얼마나 일치하는지를 나타내는 개념이다. 이에 비해 Plausibility는 사용자가 보기에 그럴듯하게 느껴지는 설명을 의미하지만, 실제 모델의 의사결정 과정과는 일치하지 않을 수 있다.

Faithfulness 평가 방법으로는 입력 특징을 제거하거나 변형했을 때 예측이 어떻게 변하는지를 관찰하는 Perturbation Test, Feature Occlusion 등이 있다.

시험에서는 LIME, SHAP과 같은 설명 기법이 Faithfulness를 얼마나 보장하는지, 그리고 Post-hoc 설명 기법이 Faithfulness 측면에서 가지는 한계에 대해 물을 수 있다. 특히 복잡한 비선형 모델에서는 설명이 직관적으로 타당해 보여도 실제 Faithfulness가 낮을 수 있다는 점에 유의해야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*