AI 모델 개발: 에너지 기반 모델

ㅁ 에너지 기반 모델

ㅇ 정의:
– 확률분포를 에너지 함수로 표현하고, 낮은 에너지 값을 갖는 상태를 더 높은 확률로 간주하는 모델 계열.

ㅇ 특징:
– 명시적 확률 계산이 어려운 경우가 많아 MCMC 등 샘플링 기반 학습 필요.
– 비지도 학습, 생성 모델링에 활용.

ㅇ 적합한 경우:
– 데이터의 복잡한 분포 학습이 필요할 때.
– 라벨이 부족한 상황에서 비지도 학습을 수행할 때.

ㅇ 시험 함정:
– 에너지 기반 모델이 항상 명시적 확률분포를 제공한다고 단정하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “에너지 기반 모델은 에너지 함수를 통해 상태의 확률을 정의한다.”
– X: “에너지 기반 모델은 항상 정확한 확률값을 즉시 계산할 수 있다.”

================================

1. Boltzmann Machine

ㅇ 정의:
– 노드 간 완전 연결된 확률적 신경망으로, 상태의 에너지를 기반으로 확률 분포를 학습.

ㅇ 특징:
– 대칭 연결 가중치 사용.
– Gibbs 샘플링 기반 학습.
– 학습이 느리고 대규모 데이터에 비효율적.

ㅇ 적합한 경우:
– 소규모 데이터셋에서 비지도 학습.
– 변수 간 복잡한 상호작용 탐구.

ㅇ 시험 함정:
– 은닉층이 없는 단층 구조임을 간과.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Boltzmann Machine은 대칭 연결 가중치를 갖는다.”
– X: “Boltzmann Machine은 항상 여러 은닉층을 가진다.”

================================

2. RBM

ㅇ 정의:
– Restricted Boltzmann Machine, 은닉층과 가시층 간 연결만 존재하는 제약형 BM.

ㅇ 특징:
– 층 내 연결이 없으므로 학습 효율이 높음.
– Contrastive Divergence로 빠른 근사 학습 가능.

ㅇ 적합한 경우:
– 차원 축소, 특징 추출.
– 딥빌리프네트워크(DBN) 사전학습.

ㅇ 시험 함정:
– RBM이 층 내 연결을 허용한다고 착각.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “RBM은 가시층과 은닉층 간에만 연결된다.”
– X: “RBM은 은닉층 노드끼리 연결될 수 있다.”

================================

3. Score-based Model

ㅇ 정의:
– 데이터의 로그 확률밀도 함수의 기울기(Score function)를 추정하여 샘플링 및 생성에 활용하는 모델.

ㅇ 특징:
– 확률분포를 직접 추정하지 않고, 점별 기울기 정보를 이용.
– 노이즈 주입과 확산과정 역추적을 활용.

ㅇ 적합한 경우:
– 고차원 데이터 생성.
– 이미지, 오디오 등 연속 데이터 생성.

ㅇ 시험 함정:
– Score-based Model이 명시적으로 확률분포 값을 계산한다고 오해.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Score-based Model은 로그 확률의 기울기를 학습한다.”
– X: “Score-based Model은 확률분포 함수를 직접 출력한다.”

================================

4. Diffusion

ㅇ 정의:
– 데이터에 점진적으로 노이즈를 추가한 후, 이를 제거하는 역과정을 학습해 원본 데이터를 생성하는 확산 기반 모델.

ㅇ 특징:
– 안정적인 학습과 높은 생성 품질.
– 계산량이 많고 샘플링 속도가 느림.

ㅇ 적합한 경우:
– 고품질 이미지 생성.
– 데이터 다양성 확보.

ㅇ 시험 함정:
– Diffusion 모델이 항상 빠른 샘플링 속도를 제공한다고 생각.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Diffusion 모델은 노이즈 제거 과정을 학습한다.”
– X: “Diffusion 모델은 한 번의 단계로 이미지를 생성한다.”

ㅁ 추가 학습 내용

정리 내용
1. 에너지 기반 모델(Energy-Based Model, EBM) 학습 방법 비교
– Contrastive Divergence(CD): 데이터로부터 시작해 제한된 단계의 Gibbs Sampling으로 근사 학습. RBM 학습에 주로 사용. 빠르지만 샘플링이 부정확할 수 있음.
– Persistent Contrastive Divergence(PCD): 샘플 체인을 계속 유지하며 업데이트. 수렴 안정성이 높으나 구현 복잡도 증가.
– Langevin Dynamics: 확률적 미분방정식을 이용해 샘플링. 노이즈와 기울기 정보를 함께 사용.
– Hamiltonian Monte Carlo(HMC): 물리 기반 모멘텀을 도입해 샘플링 효율성을 높임. 고차원 데이터에서 더 효율적이나 계산량이 큼.

2. Boltzmann Machine(BM) vs Restricted Boltzmann Machine(RBM)
– BM: 모든 노드가 연결 가능. 학습 난이도와 계산 복잡도가 매우 높음.
– RBM: 가시층과 은닉층 간만 연결. 구조 단순화로 학습이 용이하고 계산량 감소.

3. Score-based Model과 Diffusion Model 관계
– Score-based Model: 데이터 분포의 score function(∇x log p(x))을 학습.
– Diffusion Model: 데이터에 점진적으로 노이즈를 추가하고 역과정을 학습.
– Score-based Diffusion: 두 접근을 결합한 형태. 노이즈 수준별 score function을 학습하여 역확산 과정 구현.

4. Diffusion 모델 변형 및 샘플링 가속
– DDPM(Denoising Diffusion Probabilistic Model): 확률적 역확산.
– DDIM(Denoising Diffusion Implicit Model): 비확률적, 더 적은 스텝으로 샘플링 가능.
– 샘플링 가속 기법: 스텝 수 감소, ODE 기반 역과정 등으로 추론 시간 단축.

5. Score Matching 수학적 정의와 Fisher Divergence
– Score Matching: ∇x log p(x)를 직접 추정하는 방법.
– Fisher Divergence 최소화: 데이터 분포와 모델 분포 간 score function 차이의 제곱 적분을 최소화.

시험 대비 체크리스트
– [ ] Contrastive Divergence, Persistent CD, Langevin Dynamics, HMC의 개념과 차이점 설명 가능
– [ ] BM과 RBM의 구조 차이, 학습 난이도 및 계산 복잡도 비교 가능
– [ ] Score-based Model과 Diffusion Model의 차이와 Score-based Diffusion 개념 이해
– [ ] DDPM과 DDIM의 특징 및 차이점 설명 가능
– [ ] Diffusion 모델의 샘플링 가속 기법 종류와 원리 이해
– [ ] Score Matching의 정의(∇x log p(x))와 Fisher Divergence 최소화 의미 설명 가능

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*