AI: 설명 가능 AI(XAI) – Concept Activation Vectors

By - meet
Posted on 2025년 09월 01일
Posted in AI 이론

AI: 설명 가능 AI(XAI) – Concept Activation Vectors

ㅁ 설명 가능 AI(XAI)

ㅇ 정의:
머신러닝 모델의 내부 표현과 개념적 의미를 연결하여, 모델이 특정 개념을 어떻게 인식하는지 설명하는 기법.

ㅇ 특징:
– 신경망의 은닉층 활성화 벡터를 분석하여 사람이 이해할 수 있는 개념과 매핑.
– 주로 이미지나 텍스트 분류 모델에서 사용.
– 개념별로 벡터 방향을 정의하여 모델의 의사결정과정 해석.

ㅇ 적합한 경우:
– 모델의 특정 클래스 예측 근거를 개념 단위로 설명해야 하는 경우.
– 규제나 감사 목적으로 모델의 해석 가능성이 요구되는 경우.

ㅇ 시험 함정:
– CAV는 모델의 구조를 변경하지 않고도 적용 가능하지만, 학습 데이터에 없는 개념은 설명 불가.
– 단순히 Feature Importance와 동일시하면 오답.

ㅇ 시험 대비 “패턴 보기” 예시:
O: CAV는 모델의 은닉층 표현과 사람 개념을 연결하여 해석 가능성을 높인다.
X: CAV는 반드시 모델 재학습이 필요하다.

================================

1. Concept Activation Vectors

ㅇ 정의:
신경망의 은닉층에서 추출한 활성화 벡터와 특정 개념을 매핑하여, 해당 개념이 모델 예측에 미치는 영향을 정량화하는 방법.

ㅇ 특징:
– 주어진 개념에 해당하는 데이터셋을 활용해 벡터 방향을 정의.
– 모델의 중간 표현을 기반으로 하므로 아키텍처 변경 없이 적용 가능.
– TCAV(Testing with CAV) 기법으로 개념 중요도를 측정.

ㅇ 적합한 경우:
– 이미지 분류 모델에서 ‘줄무늬’, ‘날개’ 등 시각적 개념이 예측에 미치는 영향 분석.
– 텍스트 모델에서 특정 주제나 키워드의 영향 평가.

ㅇ 시험 함정:
– CAV는 모델의 학습 파라미터를 변경하지 않는다.
– CAV는 데이터셋의 개념 라벨 품질에 크게 의존.
– TCAV와 CAV를 혼동하면 오답.

ㅇ 시험 대비 “패턴 보기” 예시:
O: CAV는 모델의 중간 표현과 개념을 연결하여 해석한다.
X: CAV는 모델의 파라미터를 재학습하여 개념을 반영한다.

ㅁ 추가 학습 내용

TCAV(Testing with CAV)의 절차는 다음과 같다. 먼저 특정 개념을 나타내는 개념 데이터셋을 수집한다. 다음으로 신경망의 은닉층에서 해당 데이터셋의 벡터 표현을 추출한다. 이후 개념 데이터와 비개념 데이터를 구분하기 위해 선형 분리기를 학습시킨다. 마지막으로 학습된 개념 벡터를 이용해 모델 예측에 대한 중요도를 측정한다.

CAV의 수학적 원리는 개념 벡터 방향과 입력 데이터의 은닉층 벡터 간의 내적을 계산하여 해당 개념이 모델 예측에 미치는 영향을 정량적으로 평가하는 것이다.

CAV 적용 시 주의할 점으로는 개념 데이터셋이 해당 개념을 충분히 대표해야 하며, 여러 개념을 동시에 분석할 경우 개념 간 상관성이 높으면 해석에 혼동이 생길 수 있다는 점이 있다.

다른 XAI 기법과 비교하면, LIME과 SHAP은 개별 예측에 대한 국소적 설명을 제공하는 반면, TCAV는 모델 전반에 걸친 특정 개념의 중요도를 측정한다. LIME과 SHAP은 입력 특징 단위의 해석에 강점이 있고, TCAV는 고차원 특징 공간에서 의미 있는 개념 단위 해석에 강점이 있다.

실제 사례로는 Google Brain에서 발표한 TCAV 논문이 있으며, 의료 영상 분석 분야에서도 특정 질병 관련 개념이 모델 예측에 얼마나 기여하는지 분석하는 데 활용된 바 있다.

Meet AI

최신 글

최신 댓글

보관함

카테고리

AI: 설명 가능 AI(XAI) – Concept Activation Vectors

Previous Article

Next Article

답글 남기기 응답 취소