데이터 전처리: 스마트 증강 – Mixup
ㅁ 스마트 증강
ㅇ 정의:
서로 다른 두 개 이상의 데이터를 선형 결합하여 새로운 학습 데이터를 생성하는 기법으로, 주로 이미지나 음성 데이터에서 사용된다.
ㅇ 특징:
– 원본 데이터 간의 비율(λ)을 랜덤하게 설정하여 혼합.
– 데이터와 라벨 모두를 동일한 비율로 섞음.
– 모델이 경계 영역의 일반화 성능을 높일 수 있음.
ㅇ 적합한 경우:
– 이미지 분류, 음성 인식 등 라벨이 연속적으로 해석될 수 있는 경우.
– 데이터 수가 적거나 클래스 간 경계가 모호한 경우.
ㅇ 시험 함정:
– 라벨이 범주형이고 혼합이 의미 없는 경우(예: 고유 ID, 불연속 범주)는 부적합.
– 단순 데이터 합성이 아니라 선형 보간임을 구분해야 함.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Mixup은 두 샘플과 라벨을 선형 결합하여 새로운 학습 데이터를 만든다.”
X: “Mixup은 원본 데이터 하나에 노이즈를 추가하는 방식이다.”
================================
1. Mixup
ㅇ 정의:
두 개의 샘플 (x1, y1), (x2, y2)를 λ 가중치로 선형 결합하여 (x’, y’) = (λx1 + (1-λ)x2, λy1 + (1-λ)y2) 형태로 새로운 학습 데이터를 생성하는 데이터 증강 기법.
ㅇ 특징:
– λ는 Beta 분포에서 샘플링하여 다양성을 확보.
– 경계 근처의 샘플을 많이 생성하여 과적합 방지.
– 기존 데이터의 의미를 크게 왜곡하지 않으면서 일반화 성능 향상.
ㅇ 적합한 경우:
– 이미지, 음성, 시계열 데이터 등 연속적 특성을 가진 데이터.
– 클래스 간 경계가 불명확하거나 데이터 불균형이 있는 경우.
ㅇ 시험 함정:
– 단순히 픽셀 값을 섞는 것이 아니라 라벨도 함께 섞는다는 점.
– 데이터가 불연속적이거나 라벨 혼합이 불가능한 경우에는 적용 불가.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Mixup은 두 데이터와 라벨을 동일한 비율로 혼합하여 새로운 학습 샘플을 생성한다.”
X: “Mixup은 데이터만 섞고 라벨은 그대로 유지한다.”
ㅁ 추가 학습 내용
Mixup과 CutMix, Cutout의 차이를 이해해야 한다.
CutMix는 이미지 일부를 잘라 다른 이미지의 일부로 대체하며, 라벨도 해당 영역 비율에 맞게 혼합한다.
Mixup에서는 λ 값을 Beta(α, α) 분포에서 샘플링하며, α가 작으면 한쪽 데이터 비율이 극단적으로 치우친 샘플이, α가 크면 두 데이터가 균등하게 섞인 샘플이 많이 생성된다.
Mixup의 장점은 모델의 결정 경계를 부드럽게 하여 적대적 공격에 대한 강건성을 높이는 것이다.
시험에서는 Mixup이 데이터 증강 기법임에도 입력과 라벨을 동시에 변형한다는 점, 원본 데이터를 손실하지 않고 새로운 샘플을 생성한다는 점이 자주 강조된다.