AI 모델 개발: 에너지 기반 모델
ㅁ 에너지 기반 모델
ㅇ 정의:
– 데이터의 확률분포를 에너지 함수로 표현하고, 낮은 에너지를 가지는 상태가 높은 확률을 갖도록 모델링하는 기법.
ㅇ 특징:
– 확률분포 추정에 강점이 있으나, 학습 시 복잡한 정규화 상수 계산이 필요.
– 샘플링 기반 학습(MCMC 등) 필요.
ㅇ 적합한 경우:
– 데이터의 잠재 구조를 학습하거나 생성 모델로 활용할 때.
ㅇ 시험 함정:
– 모든 에너지 기반 모델이 지도학습에 적합하다고 착각하기 쉬움.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “에너지 기반 모델은 확률분포를 에너지 함수로 표현한다.”
– X: “에너지 기반 모델은 항상 폐쇄형 해를 가진다.”
================================
1. Boltzmann Machine
ㅇ 정의:
– 확률적 신경망의 일종으로, 노드 간 완전 연결 구조를 가지며, 에너지 함수를 최소화하는 방향으로 학습.
ㅇ 특징:
– 은닉층과 가시층 모두 노드 간 연결이 가능.
– Gibbs Sampling을 통한 학습.
ㅇ 적합한 경우:
– 복잡한 확률분포 모델링, 조합 최적화 문제.
ㅇ 시험 함정:
– 학습 속도가 느리고 스케일 확장이 어려움.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Boltzmann Machine은 확률적 생성 모델이다.”
– X: “Boltzmann Machine은 항상 단일 은닉층만 가진다.”
================================
2. RBM
ㅇ 정의:
– Restricted Boltzmann Machine, 은닉층과 가시층 간만 연결되고, 같은 층 내 연결은 없는 제약형 구조.
ㅇ 특징:
– 학습이 BM보다 빠르고, Contrastive Divergence 알고리즘 사용.
– 차원 축소, 특징 추출, 사전학습에 활용.
ㅇ 적합한 경우:
– 대규모 데이터 전처리, 딥러닝 사전 학습.
ㅇ 시험 함정:
– RBM이 지도학습 모델이라고 오해.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “RBM은 같은 층 내 노드 간 연결이 없다.”
– X: “RBM은 은닉층 간 연결이 가능하다.”
================================
3. Score-based Model
ㅇ 정의:
– 데이터의 로그 확률밀도 함수의 기울기(Score function)를 학습하여 샘플링과 생성에 활용하는 모델.
ㅇ 특징:
– 직접 확률밀도를 계산하지 않고, 점진적으로 노이즈를 제거하며 데이터를 복원.
– 최근 확률적 미분방정식(SDE) 기반 접근과 결합.
ㅇ 적합한 경우:
– 고차원 데이터 생성, 이미지 복원.
ㅇ 시험 함정:
– Score function이 확률밀도 그 자체라고 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Score-based Model은 로그 확률밀도의 기울기를 학습한다.”
– X: “Score-based Model은 확률밀도를 직접 계산한다.”
================================
4. Diffusion
ㅇ 정의:
– 데이터에 점진적으로 노이즈를 추가한 후, 이를 역과정으로 제거하며 원본 데이터를 생성하는 확률적 생성 모델.
ㅇ 특징:
– 전방과정(노이즈 추가)과 역과정(노이즈 제거)으로 구성.
– 안정적 학습과 고품질 샘플 생성 가능.
ㅇ 적합한 경우:
– 이미지 생성, 오디오 합성 등 고해상도 생성 작업.
ㅇ 시험 함정:
– 전방과정에서 학습이 이루어진다고 착각.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Diffusion 모델은 노이즈를 점진적으로 제거하여 데이터를 생성한다.”
– X: “Diffusion 모델은 전방과정에서 파라미터를 학습한다.”
ㅁ 추가 학습 내용
에너지 기반 모델 학습에서 Partition Function(정규화 상수)은 모델의 확률분포를 계산하는 데 필수적이지만, 모든 상태의 에너지를 합산해야 하므로 계산이 매우 어렵다. 이를 해결하기 위해 MCMC(Markov Chain Monte Carlo)나 Contrastive Divergence(CD)와 같은 근사 기법이 사용된다. MCMC는 표본을 생성해 분포를 근사하는 방식이고, CD는 실제 데이터 분포와 모델 분포의 차이를 빠르게 추정하여 학습 속도를 높인다.
Boltzmann Machine(BM)과 Restricted Boltzmann Machine(RBM)은 연결 구조와 학습 효율성에서 차이가 있다. BM은 모든 노드가 서로 연결될 수 있지만, RBM은 은닉층과 가시층 간의 이분 그래프 구조를 사용해 학습을 단순화한다. RBM은 딥빌리프네트워크(DBN)의 기본 구성 요소로 사용되며, 심층 생성 모델의 초기 발전에 중요한 역할을 했다.
Score-based Model과 Diffusion 모델은 최근 결합 연구가 활발하다. 이들은 확률적 미분방정식(SDE)을 기반으로 한 샘플링 기법과 Langevin Dynamics, Denoising Score Matching(DSM) 알고리즘을 활용한다. DSM은 데이터에 노이즈를 추가하고 이를 제거하는 방향의 점수 함수를 학습하는 방식이다.
Diffusion 모델의 변형으로는 DDPM(Denoising Diffusion Probabilistic Model)과 DDIM(Denoising Diffusion Implicit Model)이 있으며, 두 방식은 샘플링 속도와 생성 품질 사이의 트레이드오프를 가진다. DDPM은 안정적인 품질을 제공하지만 속도가 느리고, DDIM은 속도를 높이면서도 품질을 유지하려는 시도를 한다.