AI 모델 개발: 에너지 기반 모델 – RBM
ㅁ 에너지 기반 모델
ㅇ 정의:
확률 분포를 에너지 함수로 표현하고, 낮은 에너지 상태가 높은 확률을 가지도록 설계된 모델. 주로 샘플링 기반 학습을 통해 데이터의 잠재 구조를 학습함.
ㅇ 특징:
– 에너지 함수로 데이터와 은닉 변수의 관계를 정의
– 확률 분포 계산 시 정규화 상수(Partition function) 필요
– 샘플링 기반 학습(Gibbs Sampling, Contrastive Divergence) 활용
– 생성 모델로서 새로운 샘플 생성 가능
ㅇ 적합한 경우:
– 비지도 학습에서 데이터의 잠재 표현 학습
– 추천 시스템, 차원 축소, 특성 추출 등
– 데이터 분포를 근사하거나 생성해야 하는 경우
ㅇ 시험 함정:
– 에너지 기반 모델이 반드시 지도 학습에만 사용된다고 오해하는 경우 (X)
– Partition function 계산이 항상 쉬운 것으로 착각 (X)
– Gibbs Sampling이 유일한 학습 방법이라고 단정 (X)
ㅇ 시험 대비 “패턴 보기” 예시:
– “에너지 기반 모델은 낮은 에너지 상태일수록 확률이 높다” (O)
– “에너지 기반 모델은 항상 지도 학습에만 사용된다” (X)
– “Partition function은 계산이 간단하다” (X)
================================
1. RBM
ㅇ 정의:
Restricted Boltzmann Machine의 약자로, 가시층과 은닉층 간 완전 연결되지만, 같은 층 내에서는 연결이 없는 에너지 기반 확률 생성 모델.
ㅇ 특징:
– 대칭 구조의 양방향 연결
– 은닉층과 가시층 간의 연결만 존재 (intra-layer connection 없음)
– Contrastive Divergence(CD) 알고리즘으로 효율적 학습 가능
– 확률적 은닉 노드 사용
– 비지도 학습 및 사전 학습(pre-training)에 활용
ㅇ 적합한 경우:
– 이미지, 음성 등 고차원 데이터의 특징 추출
– 심층 신경망의 사전 학습
– 추천 시스템(사용자-아이템 행렬 복원)
ㅇ 시험 함정:
– RBM이 지도학습 모델이라고 착각 (X)
– 은닉층 간 연결이 있다고 오해 (X)
– CD 알고리즘이 항상 정확한 확률을 보장한다고 생각 (X)
ㅇ 시험 대비 “패턴 보기” 예시:
– “RBM은 은닉층과 은닉층 간 연결이 없다” (O)
– “RBM은 비지도 학습에 사용될 수 있다” (O)
– “Contrastive Divergence는 항상 정확한 확률 분포를 계산한다” (X)
ㅁ 추가 학습 내용
RBM의 수학적 정의는 에너지 함수 E(v,h) = -Σ_i a_i v_i – Σ_j b_j h_j – Σ_i Σ_j v_i W_ij h_j 로 표현된다. 여기서 v는 가시층, h는 은닉층, a와 b는 각 층의 편향, W는 가중치를 의미한다.
Partition function Z = Σ_{v,h} exp(-E(v,h))는 모든 v,h 조합에 대한 합을 계산해야 하므로 계산 복잡도가 매우 높아 근사 기법이 필요하다.
Gibbs Sampling은 가시층에서 은닉층, 다시 가시층으로 순환하며 샘플링하는 방식으로 학습에 사용된다.
RBM의 은닉층 뉴런 활성화는 확률적 시그모이드 함수를 사용한다.
RBM은 심층 신뢰 신경망(DBN)의 기본 블록으로 활용된다.
변형 모델로는 연속형 입력 처리를 위한 Gaussian-Bernoulli RBM, 시계열 데이터 처리를 위한 Conditional RBM이 있다.
학습 시 초기 가중치 설정과 학습률 조정은 수렴 속도와 성능에 큰 영향을 미친다.
과적합 방지를 위해 weight decay, dropout 등의 기법을 적용할 수 있다.