데이터 전처리: 스마트 증강
ㅁ 스마트 증강
ㅇ 정의:
데이터 증강을 자동화하거나 고도화하여 모델 성능을 극대화하는 기법들의 집합.
ㅇ 특징:
– 기존 수작업 증강보다 효율적이며, 데이터 다양성을 극대화.
– 하이퍼파라미터 탐색, 확률 기반 조합, 이미지 혼합 등 다양한 방식 포함.
ㅇ 적합한 경우:
– 데이터셋이 제한적이며 일반화 성능 향상이 필요한 경우.
– 이미지 분류, 객체 탐지, 음성 인식 등 다양한 도메인.
ㅇ 시험 함정:
– 모든 증강이 항상 성능 향상으로 이어지는 것은 아님.
– 과도한 변형은 원본 데이터의 의미를 훼손할 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “스마트 증강 기법은 데이터셋의 다양성을 높여 일반화 성능을 향상시킨다.”
X: “스마트 증강은 항상 모델 정확도를 높인다.”
================================
1. AutoAugment
ㅇ 정의:
강화학습을 사용해 데이터 증강 정책을 자동으로 탐색하는 기법.
ㅇ 특징:
– 사전 정의된 변환 연산 집합에서 최적 조합 탐색.
– 탐색 과정이 계산 집약적.
ㅇ 적합한 경우:
– 대규모 연산 자원이 있고, 최적 증강 정책을 찾고자 할 때.
ㅇ 시험 함정:
– 소규모 데이터셋과 제한된 연산 환경에서는 비효율적.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “AutoAugment는 강화학습을 통해 증강 정책을 자동으로 찾는다.”
X: “AutoAugment는 수동으로 증강 정책을 설계한다.”
================================
2. RandAugment
ㅇ 정의:
증강 연산의 종류와 강도를 무작위로 선택하는 간소화된 자동 증강 기법.
ㅇ 특징:
– 하이퍼파라미터 수가 적어 탐색 비용이 낮음.
– 무작위성으로 다양한 데이터 생성.
ㅇ 적합한 경우:
– 연산 자원이 제한적이고 빠른 실험이 필요한 경우.
ㅇ 시험 함정:
– 무작위 선택이 항상 최적의 성능을 보장하지 않음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “RandAugment는 적은 하이퍼파라미터로 다양한 증강을 수행한다.”
X: “RandAugment는 강화학습을 필수적으로 사용한다.”
================================
3. Mixup
ㅇ 정의:
두 개 이상의 이미지를 픽셀 단위로 선형 결합하여 새로운 학습 샘플을 생성하는 기법.
ㅇ 특징:
– 데이터 경계 부드러움, 과적합 방지.
– 레이블도 동일 비율로 혼합.
ㅇ 적합한 경우:
– 클래스 간 경계가 불명확하거나 데이터가 부족한 경우.
ㅇ 시험 함정:
– 객체 위치 정보가 중요한 경우(예: 객체 탐지)에는 부적합.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Mixup은 이미지와 레이블을 선형 결합하여 학습 데이터를 확장한다.”
X: “Mixup은 원본 이미지를 그대로 사용한다.”
================================
4. CutMix
ㅇ 정의:
한 이미지의 일부 영역을 잘라 다른 이미지의 동일 위치에 붙여넣는 증강 기법.
ㅇ 특징:
– Mixup보다 공간적 정보 보존.
– 잘라 붙인 비율에 따라 레이블도 혼합.
ㅇ 적합한 경우:
– 객체의 위치 정보와 배경 다양성을 동시에 확보하고자 할 때.
ㅇ 시험 함정:
– 잘라낸 영역이 중요한 객체를 훼손할 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “CutMix는 이미지 일부를 다른 이미지로 대체하고 레이블을 혼합한다.”
X: “CutMix는 픽셀 단위 선형 결합을 사용한다.”
ㅁ 추가 학습 내용
학습 정리
스마트 증강 기법 확장성
– 이미지 도메인뿐 아니라 음성, 텍스트 등 다양한 데이터 유형에 적용 가능
– 도메인에 따라 적용 방식과 효과가 다를 수 있음
AutoAugment vs RandAugment
– 탐색 방식: AutoAugment는 정책 탐색을 통해 최적 증강 조합을 찾음, RandAugment는 무작위 선택 기반
– 하이퍼파라미터 수: AutoAugment는 많음, RandAugment는 적음
– 장단점: AutoAugment는 높은 성능 가능하지만 탐색 비용이 큼, RandAugment는 구현과 적용이 간단하고 빠름
Mixup vs CutMix
– 결합 방식: Mixup은 픽셀 단위 혼합, CutMix는 영역 단위 혼합
– 레이블 혼합: 두 기법 모두 혼합 비율에 따라 레이블을 가중 합산
– 성능 특성: CutMix는 객체 탐지에서 성능 향상을 보이는 경향, Mixup은 그렇지 않을 수 있음
시험 대비 체크리스트
1. 스마트 증강 기법이 이미지 외 다른 도메인(음성, 텍스트)에 적용 가능한 이유와 사례를 설명할 수 있는가
2. AutoAugment와 RandAugment의 탐색 방식 차이를 명확히 구분할 수 있는가
3. 두 기법의 하이퍼파라미터 개수 차이를 기억하고 있는가
4. AutoAugment의 탐색 비용과 RandAugment의 단순화 장단점을 비교할 수 있는가
5. Mixup과 CutMix의 결합 방식 차이를 정확히 설명할 수 있는가
6. 두 기법의 레이블 혼합 방식이 동일하다는 점을 알고 있는가
7. CutMix가 객체 탐지에서 성능 향상을 보이는 이유를 설명할 수 있는가
8. 각 기법이 적용 가능한 도메인과 제한 사항을 구체적으로 정리했는가