AI 모델 개발: 시각화 기반 – SHAP
ㅁ 시각화 기반
ㅇ 정의:
머신러닝 모델의 예측 결과에 대해 각 입력 특성이 결과에 기여한 정도를 직관적으로 시각화하여 설명하는 기법.
ㅇ 특징:
– 모델 불가지론(Model-agnostic) 방식으로 다양한 알고리즘에 적용 가능
– 개별 예측에 대한 국소(local) 설명 제공
– 바 그래프, 요약 플롯, 의존 플롯 등 다양한 시각화 형태 제공
ㅇ 적합한 경우:
– 모델의 예측 근거를 사용자나 이해관계자에게 설명해야 하는 경우
– 규제 산업(금융, 의료)에서 투명성 확보가 필요한 경우
ㅇ 시험 함정:
– SHAP 값은 특성 중요도와 동일하지 않음 (특성 중요도는 전체 데이터 기준, SHAP은 개별 예측 기준)
– SHAP 값의 부호는 영향 방향(양의 영향/음의 영향)을 의미함
ㅇ 시험 대비 “패턴 보기” 예시:
O: “SHAP은 개별 예측에 대한 각 특성의 기여도를 시각적으로 표현할 수 있다.”
X: “SHAP은 오직 선형 회귀 모델에서만 사용 가능하다.”
================================
1. SHAP
ㅇ 정의:
Shapley Additive exPlanations의 약자로, 게임이론의 Shapley 값을 기반으로 각 특성이 예측값에 기여한 정도를 계산하고 이를 시각적으로 표현하는 설명 가능 인공지능 기법.
ㅇ 특징:
– 모든 특성 조합에 대한 평균 기여도를 계산하여 공정한 기여도 분배
– 모델의 복잡성과 관계없이 적용 가능
– 전역(global) 및 국소(local) 설명 모두 제공 가능
– 계산량이 많아 대규모 데이터셋에서는 근사 기법 필요
ㅇ 적합한 경우:
– 블랙박스 모델(Random Forest, XGBoost, Neural Network 등)의 예측 근거 분석
– 개별 고객/환자 단위의 의사결정 근거 제시
ㅇ 시험 함정:
– SHAP 값이 항상 양수는 아니며, 음수 값은 예측값을 낮추는 방향의 기여를 의미
– SHAP의 계산 복잡도를 간과하면 실무 적용이 어려움
ㅇ 시험 대비 “패턴 보기” 예시:
O: “SHAP은 게임이론의 Shapley 값을 활용하여 각 특성의 기여도를 계산한다.”
X: “SHAP은 전역 설명만 제공하며 개별 예측에 대한 설명은 불가능하다.”
ㅁ 추가 학습 내용
SHAP 학습 정리
1. Shapley 값의 수학적 정의와 계산 원리
– 모든 특성 조합에 대해 해당 특성이 추가될 때 기여도를 계산
– 각 조합에서의 기여도를 평균 내어 공정성을 확보
– 게임이론 기반으로 각 특성의 기여도를 균등하게 평가
2. SHAP의 주요 변형 기법
– Kernel SHAP: 모델 불가지론적, 샘플링 기반 근사, 범용성 높지만 계산량 많음
– Tree SHAP: 트리 기반 모델에 최적화, 빠른 계산 가능
– Deep SHAP: 딥러닝 모델에 특화, DeepLIFT와 SHAP 결합
3. 시각화 해석 방법
– 요약 플롯(Summary Plot): 색상은 특성 값의 크기(보통 빨강=높음, 파랑=낮음), x축 위치는 예측에 미친 영향 방향과 크기
– Force Plot: 화살표 방향은 예측값을 증가시키는지 감소시키는지, 길이는 영향 크기를 의미
4. SHAP과 LIME 비교
– LIME: 국소적 선형 모델로 근사, 샘플 주변 국소 영역에서 해석
– SHAP: Shapley 값 기반, 전역적 일관성과 공정성 보장
– SHAP 값은 개별 예측에 대한 기여도이며, 단순 특성 중요도(모델 전반 평균 영향도)와 개념적으로 다름