AI 트렌드: 생성형 AI – Stable Diffusion
ㅁ 생성형 AI
ㅇ 정의:
대량의 데이터 학습을 통해 새로운 텍스트, 이미지, 음성, 영상 등을 생성하는 인공지능 기술로, 기존 데이터를 단순 변형하는 것이 아니라 새로운 콘텐츠를 창작하는 능력을 갖춘 모델.
ㅇ 특징:
– 대규모 딥러닝 모델과 고성능 컴퓨팅 자원을 필요로 함
– 비지도학습 또는 자기지도학습 기법을 활용
– 생성 결과의 품질은 학습 데이터의 다양성과 품질에 크게 의존
– 텍스트-이미지, 텍스트-음성 등 멀티모달 생성 가능
ㅇ 적합한 경우:
– 광고, 디자인, 게임 등 창의적 시각 자료 생성
– 시뮬레이션 데이터 생성
– 개인화된 콘텐츠 제작
ㅇ 시험 함정:
– 단순 데이터 증강(Data Augmentation)과 혼동
– 생성형 AI=GAN으로만 한정하는 오해
– ‘새로운 데이터 생성’을 ‘기존 데이터 변형’과 동일시하는 오류
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Stable Diffusion은 텍스트 입력으로부터 이미지를 생성하는 확산 기반 생성형 AI 모델이다.”
X: “Stable Diffusion은 기존 이미지를 압축 저장하는 알고리즘이다.”
================================
1. Stable Diffusion
ㅇ 정의:
텍스트 설명을 입력받아 해당 내용을 반영한 이미지를 생성하는 딥러닝 기반 확산(diffusion) 모델로, 잠재 공간(latent space)에서 노이즈를 점진적으로 제거하며 이미지를 생성하는 방식.
ㅇ 특징:
– 오픈소스 기반으로 공개되어 누구나 모델을 수정·활용 가능
– Latent Diffusion 방식을 사용하여 고해상도 이미지 생성 시 메모리 사용량 감소
– 프롬프트(텍스트 입력)에 따라 다양한 스타일과 구도를 생성 가능
– 로컬 환경에서도 실행 가능하여 개인정보 보호 측면에서 유리
ㅇ 적합한 경우:
– 맞춤형 이미지 제작이 필요한 디자이너, 마케터
– 데이터셋 확보가 어려운 이미지 생성 연구
– 개인화된 아트워크 제작
ㅇ 시험 함정:
– GAN과 혼동하여 생성 원리를 잘못 서술하는 경우
– ‘Stable Diffusion=이미지 압축 기술’로 오해
– 텍스트 입력 없이 작동한다고 잘못 이해
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Stable Diffusion은 잠재 공간에서 노이즈를 제거하며 이미지를 생성하는 Latent Diffusion 모델이다.”
X: “Stable Diffusion은 이미지를 무손실 압축하는 알고리즘이다.”
ㅁ 추가 학습 내용
Stable Diffusion과 같은 확산 모델은 두 단계로 구성된다.
첫째, Forward Process(노이즈 추가) 단계에서는 원본 이미지에 점진적으로 노이즈를 더한다.
둘째, Reverse Process(노이즈 제거) 단계에서는 노이즈를 제거하여 원본 이미지를 복원하는 과정을 거친다.
학습 과정에서는 이러한 노이즈 추가와 제거 과정을 반복적으로 학습한다.
Latent Diffusion은 원본 이미지 공간이 아니라 압축된 잠재 공간에서 확산 과정을 수행함으로써 연산 효율성을 높인다.
시험에서는 GAN, VAE, Diffusion Model의 차이를 비교하는 문제가 자주 출제된다.
각 모델의 생성 방식과 장단점을 구분할 수 있어야 한다.
– GAN: 생성자와 판별자가 경쟁하며 학습, 고품질 이미지 생성 가능하지만 학습 불안정 가능성 있음
– VAE: 인코더와 디코더 구조로 확률적 잠재 공간에서 샘플링, 학습 안정적이나 이미지 선명도가 낮을 수 있음
– Diffusion Model: 노이즈를 점진적으로 제거하며 이미지 생성, 안정적이고 다양성 높지만 연산량이 많음
Stable Diffusion에서는 프롬프트 엔지니어링이 중요하다.
이는 텍스트 프롬프트를 설계하여 원하는 이미지 생성 결과를 유도하는 기술이다.
이미지 생성 품질에는 하이퍼파라미터의 영향이 크다.
– steps: 노이즈 제거 단계 수, 많을수록 품질 향상 가능하나 생성 시간 증가
– guidance scale: 텍스트 프롬프트를 얼마나 강하게 반영할지 조절, 너무 높으면 부자연스러운 결과 가능