최신 AI 트렌드: 데이터 활용 – Data Augmentation
ㅁ 데이터 활용
ㅇ 정의:
기존 학습 데이터를 변형·확장하여 데이터 양과 다양성을 인위적으로 증가시키는 기법. 이미지, 텍스트, 오디오 등 다양한 데이터 유형에 적용 가능.
ㅇ 특징:
– 원본 데이터의 의미를 유지하면서 변형(회전, 크롭, 색상 변경, 동의어 치환 등)하여 과적합을 방지.
– 데이터 수집 비용 절감 및 모델 일반화 성능 향상.
– 도메인 특성에 맞춘 변형 기법 설계 필요.
ㅇ 적합한 경우:
– 데이터 수집이 어렵거나 비용이 높은 경우.
– 모델이 과적합되는 경향이 있는 경우.
– 다양한 입력 변형에 대한 강건성을 높이고자 할 때.
ㅇ 시험 함정:
– Data Augmentation이 항상 성능 향상을 보장하는 것은 아님.
– 변형 강도가 지나치면 원본 의미가 훼손되어 오히려 성능 저하.
– 데이터 불균형 문제를 완전히 해결하는 방법이 아님.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Data Augmentation은 모델의 일반화 성능 향상에 기여할 수 있다.”
X: “Data Augmentation은 모든 경우에 성능 향상을 보장한다.”
ㅁ 추가 학습 내용
Data Augmentation은 기존 데이터를 변형하거나 가공하여 학습 데이터의 다양성을 높이는 기법이다. 주요 기법은 도메인에 따라 다르다.
이미지 분야에서는
– Random Crop: 이미지의 일부를 무작위로 잘라 사용하여 위치 변화에 강건한 모델 학습
– Horizontal Flip: 이미지를 좌우 반전하여 대칭성에 대한 일반화 성능 향상
– Color Jitter: 밝기, 대비, 채도, 색조 등을 무작위로 변화시켜 조명 변화 대응
– Cutout: 이미지 일부 영역을 마스킹하여 일부 정보가 결손된 상황 학습
– Mixup: 두 이미지를 비율로 섞어 새로운 학습 샘플 생성
– CutMix: 이미지 일부를 다른 이미지의 일부로 대체하고 라벨도 혼합
자연어 처리 분야에서는
– Synonym Replacement: 단어를 동의어로 치환하여 문장 의미를 유지하며 변형
– Back Translation: 문장을 다른 언어로 번역 후 다시 원래 언어로 번역하여 표현 다양화
– Random Insertion: 문장에 관련 단어를 무작위로 삽입
– EDA(Easy Data Augmentation): Synonym Replacement, Random Insertion, Random Swap, Random Deletion 등을 포함한 간단한 증강 기법 모음
최근 기법으로는
– GAN 기반 데이터 생성: 생성적 적대 신경망을 활용해 새로운 데이터 샘플 생성
– Diffusion Model 기반 합성 데이터 생성: 점진적 노이즈 추가 및 제거 과정을 통해 고품질 데이터 생성
– SMOTE: 소수 클래스 데이터를 새로운 합성 샘플로 생성하여 데이터 불균형 문제 해결
Data Augmentation과 Data Synthesis의 차이
– Data Augmentation: 기존 데이터를 변형하여 새로운 샘플 생성
– Data Synthesis: 모델이나 알고리즘을 통해 완전히 새로운 데이터를 생성
오프라인 Augmentation과 온라인 Augmentation의 차이
– 오프라인: 증강된 데이터를 미리 생성하여 저장 후 학습에 사용
– 온라인: 학습 과정 중 배치마다 실시간으로 증강 수행
적용 시점
– 전처리 단계: 학습 전에 데이터를 변형하여 데이터셋에 포함
– 학습 중: 배치 생성 시 실시간으로 증강하여 매 epoch마다 다른 변형 데이터 제공