AI: 설명 가능 AI(XAI)

By - meet
Posted on 2025년 08월 31일
Posted in AI 이론

AI: 설명 가능 AI(XAI)

ㅁ 설명 가능 AI(XAI)

ㅇ 정의:
인공지능 모델의 예측 결과를 사람이 이해할 수 있도록 설명하는 기술 및 방법론.

ㅇ 특징:
복잡한 블랙박스 모델의 의사결정 과정을 투명하게 하여 신뢰성, 책임성을 높임.

ㅇ 적합한 경우:
금융, 의료, 법률 등 설명 책임이 중요한 분야.

ㅇ 시험 함정:
XAI는 항상 모델 성능을 높이는 것이 목적이 아님. 설명력과 성능 간 트레이드오프 존재.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “XAI는 모델의 예측 근거를 제공하여 사용자가 신뢰할 수 있도록 한다.”
X: “XAI는 모든 경우에 모델의 정확도를 향상시킨다.”

================================

1. Counterfactual Explanations

ㅇ 정의:
현재 예측 결과를 바꾸기 위해 입력 데이터의 최소한의 변경을 제시하는 설명 방법.

ㅇ 특징:
‘만약 ~였다면’ 시나리오 제공, 사용자가 변경 요인을 직관적으로 이해 가능.

ㅇ 적합한 경우:
개인화된 피드백 제공, 대출 승인/거절 사유 설명.

ㅇ 시험 함정:
실제로 변경 가능한 특성과 불가능한 특성을 구분해야 함.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Counterfactual은 입력 변경으로 결과를 바꾸는 최소 조건을 제시한다.”
X: “Counterfactual은 항상 실제로 가능한 변경만 제시한다.”

================================

2. Rule Extraction

ㅇ 정의:
복잡한 모델의 의사결정 규칙을 사람이 이해할 수 있는 형태(규칙 집합)로 추출하는 기법.

ㅇ 특징:
의사결정나무, if-then 규칙 등으로 표현, 전역적 설명에 적합.

ㅇ 적합한 경우:
규제 준수, 모델의 전반적 동작 이해 필요 시.

ㅇ 시험 함정:
규칙 수가 많아지면 오히려 해석이 어려워질 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Rule Extraction은 블랙박스 모델을 규칙 기반 모델로 근사한다.”
X: “Rule Extraction은 항상 간단하고 적은 수의 규칙만 생성한다.”

================================

3. Concept Activation Vectors

ㅇ 정의:
신경망 내부 표현과 사람이 이해하는 개념을 연결하기 위해, 특정 개념을 나타내는 벡터를 정의하는 방법.

ㅇ 특징:
신경망의 은닉층 활성화와 개념 간 선형 관계 분석.

ㅇ 적합한 경우:
모델이 특정 개념을 어떻게 인식하는지 분석할 때.

ㅇ 시험 함정:
개념 정의의 주관성, 데이터셋 의존성.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “CAV는 은닉층 표현과 인간 개념을 매핑하여 해석한다.”
X: “CAV는 비선형 관계만 분석할 수 있다.”

================================

4. SHAP Interaction Values

ㅇ 정의:
SHAP 값을 확장하여 특징 간 상호작용이 예측에 미치는 영향을 정량화하는 방법.

ㅇ 특징:
두 개 이상의 특징이 함께 작용할 때의 기여도를 분리해 분석.

ㅇ 적합한 경우:
특징 간 상관관계나 시너지 효과 분석.

ㅇ 시험 함정:
상호작용 값이 항상 양수라는 오해 (음수일 수도 있음).

ㅇ 시험 대비 “패턴 보기” 예시:
O: “SHAP Interaction Values는 특징 간 상호작용 기여도를 계산한다.”
X: “SHAP Interaction Values는 단일 특징의 영향만 측정한다.”

ㅁ 추가 학습 내용

학습 정리

1. LIME (Local Interpretable Model-agnostic Explanations)
– 정의: 개별 예측에 대해 주변 데이터 샘플을 생성하고, 단순하고 해석 가능한 모델(예: 선형 회귀, 의사결정나무)을 학습시켜 원래 모델의 예측을 근사하는 기법
– 특징: 모델 불가지론적, 국소(local) 설명 제공, 계산 복잡도는 샘플 수와 대체 모델 학습 비용에 비례

2. Partial Dependence Plot (PDP)
– 정의: 특정 특징(feature) 하나 또는 둘이 예측에 미치는 평균적인 영향을 시각화하는 기법
– 특징: 주로 전역(global) 설명 제공, 모델 불가지론적, 계산 복잡도는 특징 조합과 데이터 크기에 비례

3. Integrated Gradients
– 정의: 신경망의 입력에서 기준점(baseline)까지의 경로를 따라 기울기를 적분하여 각 특징의 기여도를 계산하는 기법
– 특징: 주로 딥러닝 모델에 사용, 국소(local) 설명, 모델 불가지론적 아님(모델 내부 구조 필요), 계산 복잡도는 경로 분할 수와 모델 추론 비용에 비례

4. 계산 복잡도 비교
– LIME: 중간, 샘플링 및 대체 모델 학습 필요
– PDP: 중간~높음, 데이터 크기와 특징 수에 따라 증가
– Integrated Gradients: 중간~높음, 경로 분할 수에 따라 증가

5. 모델 불가지론적 여부
– LIME, PDP: 모델 불가지론적
– Integrated Gradients: 모델 불가지론적 아님

6. 전역 vs 국소 설명
– 전역: PDP
– 국소: LIME, Integrated Gradients

7. 산업 적용 시 법적·윤리적 고려
– 예: GDPR의 설명권(Right to Explanation)
– 모델 설명 가능성, 편향 방지, 개인정보 보호 준수 필요

8. Counterfactual
– Actionable Recourse: 사용자가 실제로 실행 가능한 변경을 통해 원하는 예측 결과를 얻을 수 있도록 하는 개념

9. Rule Extraction
– Fidelity 지표: 추출된 규칙이 원래 모델의 예측을 얼마나 잘 재현하는지 측정

10. CAV (Concept Activation Vector)
– TCAV(Test with CAV) 절차: 개념 벡터를 학습한 후, 모델 예측에 대한 개념의 민감도를 측정하여 해석

11. SHAP Interaction Values
– TreeSHAP vs KernelSHAP: TreeSHAP은 트리 기반 모델에 최적화된 SHAP 계산 방법, KernelSHAP은 모델 불가지론적이지만 계산 비용이 높음
– 상호작용 값 계산: 두 특징이 함께 예측에 미치는 기여도를 분리하여 계산

Meet AI

최신 글

최신 댓글

보관함

카테고리

AI: 설명 가능 AI(XAI)

Previous Article

Next Article

답글 남기기 응답 취소