AI: 핵심 원리 – KL Divergence

ㅁ 핵심 원리

ㅇ 정의:
두 확률분포 P와 Q의 차이를 측정하는 비대칭적인 척도로, VAE에서는 인코더가 생성한 잠재변수 분포와 사전분포(prior) 간의 차이를 최소화하는 데 사용됨.

ㅇ 특징:
– 항상 0 이상의 값을 가지며, 두 분포가 동일할 때 0이 됨.
– 비대칭적이므로 KL(P||Q) ≠ KL(Q||P)임.
– VAE 학습 시 재구성 손실과 함께 목적함수의 한 부분으로 사용됨.

ㅇ 적합한 경우:
– 생성모델에서 잠재공간의 분포를 정규화하거나 제약을 줄 때.
– 확률분포 간의 유사도를 측정하여 모델이 과도하게 특정 영역에 치우치지 않도록 할 때.

ㅇ 시험 함정:
– KL Divergence는 거리(metric)가 아님 → 대칭성, 삼각부등식 성립하지 않음.
– ‘KL Divergence가 0이면 두 분포가 유사하다’는 표현은 틀림 → 0이면 두 분포가 ‘동일’함.
– VAE에서 KL 항이 크면 좋은 것이라는 오해 → 실제로는 너무 크면 잠재공간이 prior와 동떨어짐.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “VAE의 손실 함수는 재구성 손실과 KL Divergence 항으로 구성된다.”
X: “KL Divergence는 두 분포 간의 대칭적인 거리 척도이다.”

ㅁ 추가 학습 내용

KL Divergence는 두 확률분포 P와 Q의 차이를 측정하는 비대칭 척도로, 다음과 같이 정의된다.
이산형: KL(P||Q) = ∑ P(x) log(P(x) / Q(x))
연속형: KL(P||Q) = ∫ P(x) log(P(x) / Q(x)) dx

VAE에서 KL 항은 잠재변수 z의 사후분포 q(z|x)와 사전분포 p(z)의 차이를 최소화하는 역할을 하며, 이를 통해 잠재공간이 사전분포 형태에 맞춰지도록 유도한다.

시험 포인트
1. KL Divergence와 JS Divergence의 차이
– KL은 비대칭, JS는 대칭이며 항상 유한한 값
2. Cross-Entropy와의 관계
– Cross-Entropy = 엔트로피 + KL Divergence
3. KL 항이 0이 되는 조건
– 두 분포가 완전히 동일할 때
4. β-VAE에서 KL 항 가중치 조정
– β 값을 크게 하면 잠재공간이 사전분포에 더 맞춰져 생성물 다양성이 높아지지만 재구성 품질이 떨어질 수 있음
– β 값을 작게 하면 재구성 품질이 좋아지지만 잠재공간 구조가 사전분포와 덜 맞춰짐

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*