AI: 데이터 증강
ㅁ 데이터 증강
ㅇ 정의:
기존 데이터에 변형, 합성, 노이즈 추가 등을 통해 새로운 학습 데이터를 생성하여 모델의 일반화 성능을 높이는 기법.
ㅇ 특징:
– 데이터 부족 문제를 완화하고, 과적합을 방지.
– 이미지, 음성, 텍스트 등 다양한 도메인에서 활용 가능.
– 원본 데이터의 레이블을 유지하거나 변형된 데이터에 맞게 조정 필요.
ㅇ 적합한 경우:
– 데이터 수집이 어려운 경우.
– 클래스 불균형이 심한 경우.
– 다양한 환경에서의 모델 성능 향상이 필요한 경우.
ㅇ 시험 함정:
– 데이터 증강 기법이 항상 성능을 높이는 것은 아님.
– 잘못된 증강은 데이터 분포를 왜곡하여 성능 저하 가능.
ㅇ 시험 대비 “패턴 보기” 예시:
O: 데이터 증강은 과적합 방지에 도움을 줄 수 있다.
X: 데이터 증강은 원본 데이터와 완전히 무관한 데이터를 생성한다.
================================
1. CutMix
ㅇ 정의:
두 이미지를 잘라서 일부 영역을 서로 섞고, 레이블도 해당 비율로 혼합하는 데이터 증강 기법.
ㅇ 특징:
– 이미지의 일부 영역을 잘라 다른 이미지의 동일 위치에 삽입.
– 레이블은 잘린 영역의 비율에 따라 가중 평균.
– 객체의 부분적 정보 학습 가능.
ㅇ 적합한 경우:
– 이미지 내 여러 객체가 존재하는 경우.
– 모델이 부분적 특징에 강인하도록 학습시키고자 할 때.
ㅇ 시험 함정:
– 단순히 이미지를 합치는 것이 아니라 비율에 따라 레이블도 조정해야 함.
ㅇ 시험 대비 “패턴 보기” 예시:
O: CutMix는 이미지 일부를 다른 이미지로 대체하고 레이블을 비율로 혼합한다.
X: CutMix는 항상 원본 레이블을 그대로 유지한다.
================================
2. MixUp
ㅇ 정의:
두 이미지를 픽셀 단위로 선형 혼합하고, 레이블도 동일 비율로 혼합하는 기법.
ㅇ 특징:
– 전체 이미지를 섞어 새로운 샘플 생성.
– 부드러운 결정 경계 학습에 도움.
– 노이즈에 강인한 모델 생성.
ㅇ 적합한 경우:
– 클래스 간 경계가 모호한 데이터.
– 과적합 방지와 일반화 성능 향상이 필요한 경우.
ㅇ 시험 함정:
– MixUp은 이미지 일부가 아닌 전체를 혼합함.
ㅇ 시험 대비 “패턴 보기” 예시:
O: MixUp은 두 이미지와 레이블을 동일 비율로 선형 혼합한다.
X: MixUp은 이미지 일부만 섞는다.
================================
3. RandAugment
ㅇ 정의:
사전에 정의된 여러 이미지 변환 중 무작위로 선택하여 적용하는 데이터 증강 기법.
ㅇ 특징:
– 변환 종류와 강도를 랜덤하게 선택.
– 하이퍼파라미터 수를 최소화하여 자동화.
– 다양한 변환 조합 시도 가능.
ㅇ 적합한 경우:
– 다양한 시각적 변형에 강인한 모델 필요.
– 수동 증강 설계가 어려운 경우.
ㅇ 시험 함정:
– RandAugment는 사전 정의된 변환 세트를 기반으로 함.
ㅇ 시험 대비 “패턴 보기” 예시:
O: RandAugment는 변환의 종류와 강도를 무작위로 적용한다.
X: RandAugment는 항상 동일한 변환을 적용한다.
================================
4. SpecAugment
ㅇ 정의:
음성 인식에서 스펙트로그램에 대해 특정 구간 마스킹, 시간 왜곡 등의 변형을 적용하는 데이터 증강 기법.
ㅇ 특징:
– 주파수 마스킹, 시간 마스킹, 시간 왜곡 포함.
– 추가 데이터 수집 없이 음성 인식 성능 향상.
ㅇ 적합한 경우:
– 음성 인식 모델 학습.
– 다양한 발화 속도와 잡음 환경에 대응 필요.
ㅇ 시험 함정:
– SpecAugment는 원시 오디오가 아닌 스펙트로그램에 적용됨.
ㅇ 시험 대비 “패턴 보기” 예시:
O: SpecAugment는 주파수·시간 마스킹을 적용한다.
X: SpecAugment는 원시 오디오 파형을 직접 변형한다.
================================
5. Synthetic Minority Oversampling
ㅇ 정의:
클래스 불균형 문제 해결을 위해 소수 클래스 샘플을 합성하여 생성하는 기법.
ㅇ 특징:
– 기존 소수 클래스 샘플 간 보간을 통해 새로운 샘플 생성(SMOTE 등).
– 데이터 분포 왜곡 최소화.
ㅇ 적합한 경우:
– 소수 클래스 데이터가 부족한 분류 문제.
ㅇ 시험 함정:
– 단순 복제가 아니라 보간을 통한 합성임.
ㅇ 시험 대비 “패턴 보기” 예시:
O: Synthetic Minority Oversampling은 소수 클래스 샘플을 보간하여 합성한다.
X: Synthetic Minority Oversampling은 소수 클래스 샘플을 단순 복제한다.
ㅁ 추가 학습 내용
기법 비교표
기법명 / 혼합·적용 방식 / 특징
CutMix / 이미지의 일부 영역을 잘라 다른 이미지의 일부로 대체 / 부분 혼합, 객체 위치 정보 보존 가능
MixUp / 두 이미지를 픽셀 단위로 가중 평균 / 전체 혼합, 부드러운 라벨 생성
RandAugment / 사전에 정의된 변환 목록에서 무작위 조합 적용, 변환 강도와 개수만 설정 / 정책 수동 정의, 단순·빠름
AutoAugment / 탐색 알고리즘으로 최적 변환 정책 자동 학습 / 데이터셋별 맞춤 정책, 탐색 비용 큼
SpecAugment / 스펙트로그램에 시간·주파수 마스킹, 왜곡 적용 / 음성 데이터 전처리 단계에서 사용, 원시 오디오가 아닌 스펙트로그램 대상
Synthetic Minority Oversampling / 소수 클래스 샘플을 합성하여 클래스 불균형 완화 / SMOTE(선형 보간), Borderline-SMOTE(경계 근처 샘플 위주), ADASYN(분류 어려운 영역 위주 샘플 생성)
데이터 증강의 영향
– 모델 편향(bias): 다양한 데이터 변형 제공으로 편향 감소 가능
– 모델 분산(variance): 데이터 다양성 증가로 분산 감소, 과적합 위험 완화
– 과적합 방지 메커니즘: 훈련 데이터의 다양성 확대 → 모델이 특정 패턴에 과도하게 맞추는 것을 방지
– 학습 시간과 자원 소모: 실시간 증강 시 연산량 증가, 저장형 증강 시 저장 공간 필요
시험에서 주의할 적용 도메인 함정
– SpecAugment는 이미지가 아니라 음성(스펙트로그램)에 적용
– 이미지 증강 기법과 음성 증강 기법을 혼동하지 않도록 주의