데이터 전처리: 이미지 증강 – GAN 기반 증강
ㅁ 이미지 증강
ㅇ 정의:
이미지 데이터의 다양성을 늘리기 위해 기존 이미지를 변형하거나 새로운 이미지를 생성하는 기법으로, 모델의 일반화 성능을 향상시키기 위해 사용됨.
ㅇ 특징:
– 회전, 이동, 크기 조절, 색상 변화 등의 전통적 변환 기법과 딥러닝 기반 생성 모델을 활용한 증강 기법이 존재함.
– 데이터 부족 문제를 완화하고 오버피팅을 방지함.
ㅇ 적합한 경우:
– 학습 데이터셋이 적거나 특정 클래스 데이터가 불균형할 때.
– 이미지 인식, 객체 탐지, 의료 영상 분석 등 시각 데이터 기반 AI 모델 학습 시.
ㅇ 시험 함정:
– 단순 변환 기법과 생성 모델 기반 증강 기법의 차이를 혼동.
– 증강 데이터가 원본 데이터의 분포를 왜곡하면 오히려 성능 저하 가능.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “이미지 증강은 데이터 다양성을 높여 모델의 일반화 성능을 향상시킬 수 있다.”
X: “이미지 증강은 항상 모델 성능을 향상시킨다.”
================================
1. GAN 기반 증강
ㅇ 정의:
생성적 적대 신경망(Generative Adversarial Network, GAN)을 활용하여 기존 데이터의 분포를 학습하고, 이를 기반으로 새로운 이미지를 생성하는 데이터 증강 기법.
ㅇ 특징:
– 생성자(Generator)와 판별자(Discriminator)의 경쟁 학습을 통해 고품질의 합성 이미지를 생성.
– 단순 변환이 아닌 새로운 패턴을 포함한 데이터를 생성 가능.
– 데이터 부족 및 클래스 불균형 문제 해결에 효과적.
ㅇ 적합한 경우:
– 의료 영상, 위성 이미지 등 데이터 확보가 어려운 분야.
– 실제 데이터 수집 비용이 높거나 제한이 있는 경우.
ㅇ 시험 함정:
– GAN이 항상 원본 데이터와 동일한 품질의 이미지를 생성한다고 단정하는 오류.
– 생성된 데이터의 품질 검증 절차를 생략하면 모델 성능이 저하될 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “GAN 기반 증강은 데이터 분포를 학습하여 새로운 이미지를 생성할 수 있다.”
X: “GAN 기반 증강은 단순히 이미지를 회전하거나 확대하는 기법이다.”
ㅁ 추가 학습 내용
GAN 기반 데이터 증강에는 다양한 변형 모델이 존재한다.
Conditional GAN(cGAN)은 조건부 생성에 특화되어 특정 클래스나 속성에 맞춘 데이터 생성을 가능하게 한다.
StyleGAN은 고해상도 이미지 생성에 강점을 가지며, 세밀하고 사실적인 이미지를 만들어낸다.
CycleGAN은 도메인 간 이미지 변환에 특화되어 서로 다른 이미지 스타일이나 영역 간 변환을 수행한다.
시험에서는 GAN의 한계와 문제점도 자주 다루는데, 대표적으로 학습 불안정성, 모드 붕괴(mode collapse), 데이터 분포 왜곡 가능성이 있다.
또한, GAN 기반 증강은 단순히 데이터 양을 늘리는 목적뿐 아니라, 민감한 데이터를 대체하여 데이터 프라이버시를 보호하는 용도로도 활용될 수 있다.