AI: 생성 모델 – Classifier-Free Guidance
ㅁ 생성 모델
1. Classifier-Free Guidance
ㅇ 정의:
사전 학습된 분류기를 사용하지 않고, 조건부와 비조건부 생성 모델을 함께 학습하여 샘플 생성 시 조건의 영향을 조절하는 기법.
ㅇ 특징:
– 별도의 분류기 없이 하나의 모델로 조건부/비조건부 모두 학습.
– 샘플 생성 시 guidance scale(스케일 파라미터)을 조절하여 조건 반영 정도를 제어.
– 텍스트-투-이미지, 오디오 생성 등 다양한 생성 모델에서 활용.
– 분류기 기반 기법 대비 노이즈 민감도가 낮고 구현이 단순.
ㅇ 적합한 경우:
– 조건부 생성 품질을 높이고 싶지만 별도 분류기 학습이 어려운 경우.
– 분류기 오차로 인한 생성 품질 저하를 방지하고자 할 때.
– 다양한 조건 강도를 실험하며 최적의 결과를 찾고자 할 때.
ㅇ 시험 함정:
– “Classifier-Free Guidance는 반드시 별도의 사전 학습 분류기가 필요하다” → X (필요 없음)
– “Guidance scale이 높을수록 항상 품질이 좋아진다” → X (너무 높으면 왜곡 발생)
– “조건부와 비조건부 모델을 각각 따로 훈련해야 한다” → X (하나의 모델로 가능)
ㅇ 시험 대비 “패턴 보기” 예시:
– O: Classifier-Free Guidance는 조건부와 비조건부 확률을 함께 사용하여 조건 강도를 조절한다.
– X: Classifier-Free Guidance는 분류기 출력을 필수로 사용한다.
– O: Guidance scale은 조건 반영 강도를 조절하는 하이퍼파라미터이다.
– X: Guidance scale이 낮을수록 항상 품질이 향상된다.
ㅁ 추가 학습 내용
Classifier-Free Guidance는 diffusion 모델에서 조건부 확률 P(x|y)와 비조건부 확률 P(x)를 모두 추정한 뒤, 샘플링 시 두 확률의 차이를 guidance scale로 조정하여 조건의 영향을 강화하는 기법이다. guidance scale이 1이면 조건이 반영되지 않으며, 일반적으로 3~7 범위의 값이 자주 사용된다. 값이 너무 크면 이미지 왜곡이나 비현실적인 결과가 나타날 수 있다. 이 방법은 CLIP 기반 텍스트 임베딩과 함께 사용되어 텍스트-투-이미지 생성 품질을 크게 향상시킨다. 시험에서는 분류기 기반 guidance와의 비교가 중요한데, 주요 차이점으로는 별도의 분류기 필요 여부, 노이즈에 대한 민감도, 구현 복잡도 등이 있다.