AI: 생성 모델 – Latent Diffusion Models

ㅁ 생성 모델

ㅇ 정의:
확률적 과정을 통해 데이터의 잠재 공간(latent space)에서 점진적으로 노이즈를 제거하며 새로운 데이터를 생성하는 모델로, 고차원 데이터 생성을 효율화하기 위해 잠재 표현을 활용하는 방식.

ㅇ 특징:
– 고해상도 이미지 생성에서 메모리와 연산 효율성이 높음
– 오토인코더를 사용하여 입력 데이터를 잠재 공간으로 압축 후, 확산(diffusion) 과정을 적용
– 학습 시 노이즈 주입과 제거 과정을 반복하며 데이터 분포를 학습
– 텍스트 조건부 생성(예: Stable Diffusion) 가능

ㅇ 적합한 경우:
– 제한된 GPU 메모리 환경에서 고품질 이미지 생성이 필요한 경우
– 텍스트-이미지 변환, 이미지 복원, 스타일 변환 등 다양한 생성 작업

ㅇ 시험 함정:
– Latent Diffusion Models는 원본 데이터 공간에서 직접 확산 과정을 수행하지 않는다는 점을 혼동하기 쉬움 (잠재 공간에서 수행)
– GAN과 비교 시, 판별자(discriminator)가 없다는 특징을 놓치기 쉬움

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Latent Diffusion Models는 잠재 공간에서 노이즈를 점진적으로 제거하며 데이터를 생성한다.”
X: “Latent Diffusion Models는 원본 데이터 공간에서 직접 확산 과정을 수행한다.”
O: “Latent Diffusion Models는 오토인코더를 사용하여 데이터 차원을 축소한다.”
X: “Latent Diffusion Models는 판별자를 사용해 생성물의 품질을 평가한다.”

ㅁ 추가 학습 내용

Latent Diffusion Models 학습에서 Variational Autoencoder(VAE)는 고차원 이미지 데이터를 저차원 잠재 공간(latent space)으로 인코딩하고, 다시 이를 복원하는 디코딩 과정을 담당한다. 이를 통해 연산량과 메모리 사용량을 줄이며 효율적인 학습이 가능하다. 구조적으로는 인코더(Encoder)와 디코더(Decoder)로 구성되며, 인코더는 입력 이미지를 잠재 벡터로 변환하고, 디코더는 잠재 벡터를 다시 이미지로 복원한다.

Forward process는 원본 데이터에 점진적으로 노이즈를 추가하여 순차적으로 분포를 표준 정규분포에 가깝게 만드는 과정이다. Reverse process는 주어진 노이즈 상태에서 점차 노이즈를 제거해 원본 데이터 분포로 복원하는 과정이다. 이 두 과정은 시간 단계(time step) t에 따라 정의되며, 각 단계는 확률적 변환으로 수식화된다.

DDIM(Denoising Diffusion Implicit Models)는 확률적 샘플링 대신 결정론적 경로를 통해 샘플링 속도를 높이는 방식으로, 기존 DDPM에 비해 적은 스텝으로도 고품질 이미지를 생성할 수 있다.

Classifier-free guidance는 조건부 생성에서 별도의 분류기를 사용하지 않고, 조건 없는 모델과 조건 있는 모델의 출력을 조합하여 조건 신호를 강화함으로써 생성 품질을 높이는 기법이다.

Stable Diffusion, Midjourney 등은 Latent Diffusion을 실제로 적용한 사례로, Latent Diffusion은 Pixel-space Diffusion에 비해 잠재 공간에서 연산을 수행하므로 데이터 차원이 낮아져 메모리와 연산 효율성이 크게 향상된다. 이 효율성은 입력 차원 축소로 인한 연산량 감소를 수식으로 표현할 수 있다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*