데이터: 신규 기법

By - meet
Posted on 2025년 08월 31일
Posted in AI 이론

데이터: 신규 기법

ㅁ 신규 기법

1. CutMix

ㅇ 정의:
– 이미지 데이터의 일부 영역을 잘라 다른 이미지의 동일 위치에 붙여 넣고, 라벨도 해당 비율로 혼합하는 데이터 증강 기법.

ㅇ 특징:
– 이미지 일부를 잘라 붙이는 방식으로 MixUp 대비 객체의 형태 보존 가능.
– 학습 시 다양한 배경과 객체 조합을 제공하여 일반화 성능 향상.

ㅇ 적합한 경우:
– 객체 탐지, 분류 등에서 다양한 배경/전경 조합이 필요할 때.
– 원본 이미지의 일부 정보 보존이 중요한 경우.

ㅇ 시험 함정:
– CutMix는 항상 성능 향상을 보장하지 않으며, 객체의 중요한 부분이 잘려나가면 오히려 성능 저하 가능.
– MixUp과 혼동하여 ‘픽셀 단위 선형 혼합’이라고 잘못 기술하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) CutMix는 이미지 일부를 잘라 다른 이미지에 붙이고 라벨을 혼합한다.
– (X) CutMix는 전체 이미지를 픽셀 단위로 선형 혼합한다.

================================

2. MixUp

ㅇ 정의:
– 두 개 이상의 이미지를 픽셀 단위로 선형 혼합하고, 라벨도 동일 비율로 혼합하는 기법.

ㅇ 특징:
– 데이터 간 매끄러운 전이 효과로 모델의 과적합 방지.
– 경계가 모호한 데이터 생성으로 일반화 성능 향상.

ㅇ 적합한 경우:
– 이미지 분류에서 클래스 간 경계 학습이 중요한 경우.

ㅇ 시험 함정:
– MixUp은 공간적 구조를 유지하지 않으므로 객체 탐지에는 부적합할 수 있음.
– CutMix와 혼동하여 ‘이미지 일부 교체’라고 잘못 설명하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) MixUp은 두 이미지를 픽셀 단위로 혼합하고 라벨도 비율로 혼합한다.
– (X) MixUp은 이미지 일부를 잘라 붙인다.

================================

3. RandAugment

ㅇ 정의:
– 사전 정의된 변환(회전, 색상 변화 등) 집합에서 무작위로 변환을 선택하고 강도를 조절하는 자동화된 증강 기법.

ㅇ 특징:
– 변환 종류와 강도만 설정하면 자동으로 다양한 증강 생성.
– 하이퍼파라미터 수가 적어 튜닝이 용이.

ㅇ 적합한 경우:
– 이미지 분류, 객체 탐지 등에서 증강 정책을 자동화하고자 할 때.

ㅇ 시험 함정:
– AutoAugment와 혼동하여 정책을 학습한다고 잘못 기술하는 경우.
– RandAugment는 학습 기반이 아니라 무작위 선택 기반임.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) RandAugment는 변환 종류와 강도만 설정하면 무작위로 증강을 적용한다.
– (X) RandAugment는 강화학습으로 증강 정책을 학습한다.

================================

4. SpecAugment

ㅇ 정의:
– 음성 인식에서 스펙트로그램에 시간 축, 주파수 축 마스킹 및 왜곡을 적용하는 증강 기법.

ㅇ 특징:
– 음성 데이터의 변형을 통해 잡음 환경, 발화 변화를 모사.
– 원본 오디오 변환 없이 스펙트로그램 단계에서 적용.

ㅇ 적합한 경우:
– 음성 인식, 화자 식별 등 음성 기반 모델 학습 시.

ㅇ 시험 함정:
– 이미지 데이터에 사용하는 것으로 오해할 수 있음.
– SpecAugment는 스펙트로그램 단계에서 적용됨을 기억.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) SpecAugment는 스펙트로그램에 마스킹과 왜곡을 적용한다.
– (X) SpecAugment는 원본 오디오 파일을 직접 잘라 붙인다.

================================

5. Synthetic Minority Oversampling

ㅇ 정의:
– 불균형 데이터셋에서 소수 클래스 샘플을 기존 샘플 기반으로 합성 생성하여 클래스 균형을 맞추는 기법(SMOTE 등).

ㅇ 특징:
– 단순 복제가 아닌 특성 공간에서 새로운 샘플 생성.
– 분류기의 소수 클래스 인식 능력 향상.

ㅇ 적합한 경우:
– 클래스 불균형이 심한 분류 문제.

ㅇ 시험 함정:
– 단순 오버샘플링과 혼동하여 기존 데이터를 복제한다고 잘못 설명하는 경우.
– SMOTE는 노이즈를 증폭시킬 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Synthetic Minority Oversampling은 소수 클래스 데이터를 특성 공간에서 합성 생성한다.
– (X) Synthetic Minority Oversampling은 소수 클래스 데이터를 단순 복제한다.

ㅁ 추가 학습 내용

각 기법의 장단점, 적용 시 주의사항, 유사 기법과의 차이점 정리

1. CutMix
– 장점: 이미지 일부를 잘라 다른 이미지로 대체하여 데이터 다양성 증가, 객체 위치 정보 유지 가능
– 단점: 잘린 부분이 중요한 정보를 포함할 경우 혼란 가능
– 주의사항: 잘라낼 영역 크기와 위치를 적절히 조절해야 함
– 유사 기법과 차이점: MixUp은 전체 이미지를 픽셀 단위로 혼합하지만 CutMix는 공간적으로 일부 영역만 교체

2. MixUp
– 장점: 두 이미지를 픽셀 단위로 선형 혼합하여 부드러운 라벨 생성, 과적합 완화
– 단점: 이미지 경계나 구조 정보가 손상될 수 있음
– 주의사항: 혼합 비율(알파 값) 설정이 중요
– 유사 기법과 차이점: CutMix는 공간적 혼합, MixUp은 전 영역 픽셀 혼합

3. RandAugment
– 장점: 단순한 파라미터로 다양한 증강 가능, 구현 용이
– 단점: 무작위성으로 인해 최적 성능 보장 어려움
– 주의사항: 증강 강도와 횟수 조절 필요
– 유사 기법과 차이점: AutoAugment는 학습 기반 정책 탐색, RandAugment는 무작위 선택 기반

4. SpecAugment
– 장점: 음성 인식에서 데이터 다양성 확보, 잡음 환경에 강건성 향상
– 단점: 이미지나 일반 데이터에는 적용 불가
– 주의사항: 주파수 마스킹, 시간 마스킹, 시간 왜곡 파라미터 설정 중요
– 유사 기법과 차이점: 이미지 증강 기법과 달리 음성 스펙트로그램 전용

5. Synthetic Minority Oversampling (SMOTE 등)
– 장점: 불균형 데이터셋에서 소수 클래스 데이터 보강
– 단점: 데이터 분포 왜곡 가능, 노이즈나 이상치 증폭 가능
– 주의사항: k-최근접 이웃 기반 합성 과정 이해, 노이즈 처리 방법 숙지
– 유사 기법과 차이점: 단순 복제 오버샘플링과 달리 새로운 합성 데이터를 생성

6. AugMix
– 장점: 다양한 증강 조합과 혼합으로 강건성 향상, 불확실성 추정 가능
– 단점: 구현 복잡도 다소 높음
– 주의사항: 혼합 비율과 증강 조합 수 조절 필요
– 유사 기법과 차이점: RandAugment는 단일 변환 무작위 선택, AugMix는 여러 변환 혼합

7. TrivialAugment
– 장점: 파라미터 탐색 불필요, 단순 무작위 단일 변환 적용
– 단점: 증강 다양성이 제한될 수 있음
– 주의사항: 변환 강도 범위 설정 필요
– 유사 기법과 차이점: RandAugment보다 더 단순하며 변환 개수 1개로 제한

8. CutOut
– 장점: 이미지 일부를 마스킹하여 모델이 국소적 정보에 덜 의존하게 함
– 단점: 중요한 정보가 가려질 경우 성능 저하 가능
– 주의사항: 마스킹 크기와 위치 조절 필요
– 유사 기법과 차이점: CutMix는 다른 이미지로 대체, CutOut은 단순히 가림

Meet AI

최신 글

최신 댓글

보관함

카테고리

데이터: 신규 기법

Previous Article

Next Article

답글 남기기 응답 취소