데이터 전처리: 생성 기법 – GAN 기반 합성
ㅁ 생성 기법
ㅇ 정의:
실제 데이터의 분포를 학습하여 유사한 새로운 데이터를 생성하는 방법 중 하나로, GAN(Generative Adversarial Network)을 활용해 합성 데이터를 만드는 기법.
ㅇ 특징:
– 생성자(Generator)와 판별자(Discriminator)가 경쟁적으로 학습하며 데이터의 품질을 점진적으로 향상시킴
– 이미지, 음성, 텍스트 등 다양한 형태의 데이터 합성 가능
– 대량의 라벨링된 데이터 없이도 학습 가능
– 학습이 불안정하거나 모드 붕괴(Mode Collapse) 문제가 발생할 수 있음
ㅇ 적합한 경우:
– 실제 데이터 수집이 어렵거나 개인정보 보호가 중요한 경우
– 데이터 불균형 문제를 해결하기 위해 소수 클래스 데이터를 증강할 때
– 이미지 해상도 향상, 노이즈 제거, 스타일 변환 등 데이터 품질 개선이 필요한 경우
ㅇ 시험 함정:
– GAN은 지도학습이 아니라 비지도학습 또는 준지도학습 범주에 속함
– GAN은 데이터 증강(Data Augmentation)과 동일하지 않음
– GAN 기반 합성 데이터는 항상 원본 데이터와 동일한 분포를 보장하지 않음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “GAN은 생성자와 판별자가 경쟁적으로 학습하여 데이터 품질을 높인다.”
O: “GAN은 이미지, 음성, 텍스트 등 다양한 데이터 형태를 합성할 수 있다.”
X: “GAN은 반드시 지도학습 방식으로만 학습된다.”
X: “GAN 기반 합성 데이터는 원본 데이터와 완전히 동일하다.”
ㅁ 추가 학습 내용
GAN 기반 합성에서 중요한 개념은 다음과 같다.
1. 모드 붕괴(Mode Collapse)
생성기가 일부 패턴에만 집중하여 다양한 데이터를 생성하지 못하는 현상.
2. 학습 불안정성
생성기와 판별기의 학습 균형이 맞지 않아 학습이 수렴하지 않거나 발산하는 문제.
3. 변형 모델
– Wasserstein GAN(WGAN): 학습 안정성을 높이고 모드 붕괴 완화에 도움.
– 조건부 GAN(Conditional GAN, cGAN): 특정 클래스나 조건을 반영하여 데이터 생성.
4. GAN 구조
– Generator: 입력 노이즈로부터 데이터를 생성.
– Discriminator: 입력 데이터가 실제인지 생성된 것인지 판별.
5. 손실 함수 특성
생성기와 판별기의 대립적 학습을 통해 최적화되며, 전통적인 GAN은 JS Divergence를 사용하나 WGAN은 Wasserstein distance를 사용.
6. 데이터 증강과의 차이점
데이터 증강은 기존 데이터를 변형하는 것이고, GAN 합성은 새로운 데이터를 생성한다는 점에서 다르다.
7. 합성 데이터 활용 시 주의사항
– 편향: 학습 데이터의 편향이 합성 데이터에도 반영될 수 있음.
– 개인정보 재식별 위험: 실제 데이터와 유사한 개인 식별 정보가 생성될 수 있음.
8. 다른 합성 기법과의 비교
– VAE(Variational Autoencoder): 확률적 인코딩-디코딩 구조, 생성물의 다양성은 높으나 선명도가 낮을 수 있음.
– Diffusion Models: 점진적 노이즈 제거를 통한 고품질 생성, 학습 및 생성 속도가 느릴 수 있음.
– GAN: 상대적으로 빠른 생성, 고해상도 이미지 생성 가능하나 학습 불안정성이 존재.
각 기법의 구조, 작동 원리, 장단점을 비교하여 숙지하는 것이 중요하다.