XAI: 심층 기법
ㅁ 심층 기법
1. Counterfactual Explanations
ㅇ 정의:
– 모델 예측 결과를 바꾸기 위해 입력 변수 값을 최소한으로 변경한 가상의 사례를 제시하여, 왜 해당 예측이 나왔는지 설명하는 기법.
ㅇ 특징:
– 사용자가 원하는 결과를 얻기 위해 어떤 입력을 바꿔야 하는지 직관적으로 제시.
– 개별 예측 단위에서 설명이 가능하며, 모델의 내부 구조를 몰라도 적용 가능.
ㅇ 적합한 경우:
– 금융 대출 승인/거절 사유 설명.
– 의료 진단에서 특정 판정 변경 조건 안내.
ㅇ 시험 함정:
– 실제 데이터 분포에 존재하지 않는 비현실적 변경 제안 가능성.
– ‘모델 해석’이 아닌 ‘모델 수정’과 혼동하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “입력 변수의 최소 변경으로 예측 결과를 바꾸는 설명 기법이다.”
– X: “모델의 모든 가중치를 분석하여 규칙을 도출한다.”
2. Rule Extraction
ㅇ 정의:
– 복잡한 블랙박스 모델의 의사결정을 사람이 이해할 수 있는 규칙(If-Then 형태)으로 변환하는 기법.
ㅇ 특징:
– 전역적 설명 제공.
– 의사결정 트리, 규칙 리스트 등으로 표현.
ㅇ 적합한 경우:
– 규제 산업에서 모델 의사결정 근거를 문서화해야 하는 경우.
ㅇ 시험 함정:
– 규칙이 많아질수록 해석이 어려워질 수 있음.
– 전역적 설명만 가능하다고 단정하면 오답.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “복잡한 모델을 사람이 이해할 수 있는 If-Then 규칙으로 변환한다.”
– X: “모델 입력을 미세 조정하여 결과를 바꾸는 기법이다.”
3. Concept Activation Vectors
ㅇ 정의:
– 신경망 내부 표현과 사람 정의 개념 사이의 관계를 벡터로 표현하여, 모델이 해당 개념을 얼마나 인식하는지 측정하는 기법.
ㅇ 특징:
– 고차원 특징 공간에서 개념 방향성을 추출.
– 특정 개념이 예측에 미치는 영향을 정량화 가능.
ㅇ 적합한 경우:
– 이미지 분류 모델에서 ‘얼굴’, ‘색상’ 개념 영향 분석.
ㅇ 시험 함정:
– 개념 정의가 주관적일 수 있음.
– 단일 샘플 설명보다 개념 수준 분석에 적합.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “모델의 내부 표현과 사람이 정의한 개념 간의 관계를 벡터로 나타낸다.”
– X: “모델의 출력 확률을 직접 변경하는 기법이다.”
4. SHAP Interaction Values
ㅇ 정의:
– SHAP 값을 확장하여 두 변수 간 상호작용이 예측에 미치는 영향을 정량화하는 기법.
ㅇ 특징:
– 변수 단독 효과와 상호작용 효과를 분리하여 분석.
– SHAP 기반으로 해석 일관성 유지.
ㅇ 적합한 경우:
– 마케팅 캠페인에서 변수 간 시너지 효과 분석.
ㅇ 시험 함정:
– 단일 변수 영향만 설명한다고 오해하는 경우.
– 상호작용 값이 항상 양수라고 착각.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “두 변수 간 상호작용이 예측에 미치는 영향을 SHAP 기반으로 분석한다.”
– X: “모든 변수의 영향력을 동일하게 가정하는 기법이다.”
ㅁ 추가 학습 내용
Counterfactual Explanations에서는 Feasible Counterfactual 개념과 데이터 제약 조건을 고려해야 한다. Feasible Counterfactual은 현실적으로 가능하고 합리적인 반사실 설명을 의미하며, 나이·성별처럼 변경 불가능한 속성은 수정 대상에서 제외해야 한다.
Rule Extraction에서는 로컬 규칙 추출과 전역 규칙 추출의 차이를 구분해야 한다. 로컬 규칙 추출(local rule extraction)은 특정 데이터 서브셋 또는 개별 예측에 대해 규칙을 도출하는 것이고, 전역 규칙 추출(global rule extraction)은 전체 데이터와 모델 전반에 걸친 규칙을 도출하는 것이다.
Concept Activation Vectors에서는 TCAV(Testing with CAV) 절차와 개념 분류기 학습 방법을 숙지해야 한다. CAV는 신경망 내부 표현과 특정 개념 간의 방향 벡터를 학습하여 개념 민감도를 측정하는 방식이다.
SHAP Interaction Values에서는 SHAP 값 분해 공식과 TreeSHAP에서의 계산 최적화 방법이 중요하다. SHAP Interaction Values는 특징 간 상호작용 효과를 분리하여 해석할 수 있도록 한다.
각 기법의 장단점, 적용 사례, 전역 설명과 국소 설명 구분, 모델 접근 방식이 모델 비종속(model-agnostic)인지 모델 종속(model-specific)인지 여부를 정리해두면 시험 대비에 도움이 된다.