데이터 증강: 기법 및 효과

By - meet
Posted on 2025년 08월 31일
Posted in AI 이론

데이터 증강: 기법 및 효과

ㅁ 기법 및 효과

1. Random Erasing

ㅇ 정의:
– 이미지의 임의 영역을 선택하여 픽셀 값을 무작위 값이나 평균값 등으로 덮어씌우는 데이터 증강 기법.

ㅇ 특징:
– 모델이 특정 부분에 과도하게 의존하지 않도록 하여 일반화 성능 향상.
– 객체 일부가 가려진 상황에 대한 강인성(Robustness) 증가.

ㅇ 적합한 경우:
– 물체 일부가 가려지는 경우가 많은 객체 인식, 이미지 분류 문제.
– 데이터셋 크기가 작아 과적합 위험이 높은 경우.

ㅇ 시험 함정:
– Dropout과 혼동하는 경우가 있음(공간적 픽셀 단위 vs. 뉴런 단위).
– Cutout과 유사하지만 위치와 크기가 더 불규칙할 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) “이미지의 일부 영역을 무작위로 마스킹하여 모델의 일반화 성능을 높인다.”
– (X) “이미지 전체를 흐릿하게 만들어 잡음을 제거한다.”

================================

2. Gaussian Blur

ㅇ 정의:
– 가우시안 커널을 적용하여 이미지의 고주파 성분을 줄이고 부드럽게 만드는 필터링 기법.

ㅇ 특징:
– 노이즈 제거와 함께 이미지의 경계가 흐려짐.
– 커널 크기와 표준편차(σ)에 따라 흐림 정도 조절 가능.

ㅇ 적합한 경우:
– 데이터 증강에서 초점 흐림 상황을 모사.
– 전처리 단계에서 노이즈 완화.

ㅇ 시험 함정:
– 단순 평균 블러(Mean Blur)와 혼동 가능.
– 샤프닝(Sharpening)과 반대 개념임.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) “가우시안 함수를 기반으로 주변 픽셀 값을 가중 평균하여 흐림 효과를 준다.”
– (X) “픽셀 값을 무작위로 지워 경계 인식을 어렵게 한다.”

================================

3. Mixup

ㅇ 정의:
– 두 개 이상의 이미지를 픽셀 단위로 선형 결합하고, 레이블도 동일 비율로 혼합하는 데이터 증강 기법.

ㅇ 특징:
– 데이터 다양성 증가로 과적합 방지.
– 클래스 경계가 부드러워져 일반화 성능 향상.

ㅇ 적합한 경우:
– 클래스 간 경계가 모호한 이미지 분류 문제.
– 데이터 불균형이 심하지 않은 경우.

ㅇ 시험 함정:
– CutMix와 혼동 가능(영역 단위 vs. 전체 픽셀 단위 혼합).
– 레이블도 반드시 혼합해야 함.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) “두 이미지와 레이블을 같은 비율로 섞어 새로운 학습 샘플을 생성한다.”
– (X) “두 이미지를 이어 붙여 하나의 큰 이미지를 만든다.”

================================

4. ADASYN

ㅇ 정의:
– 데이터 불균형 문제를 해결하기 위해 소수 클래스의 어려운 샘플 근처에 합성 데이터를 더 많이 생성하는 알고리즘.

ㅇ 특징:
– 학습이 어려운 샘플에 가중치를 두어 합성.
– SMOTE의 변형 기법.

ㅇ 적합한 경우:
– 심각한 클래스 불균형이 있는 분류 문제.
– 소수 클래스의 경계 근처 학습이 중요한 경우.

ㅇ 시험 함정:
– 단순히 모든 소수 클래스 샘플에 균등하게 데이터를 생성하는 SMOTE와 차이 구분 필요.
– 데이터 증강이 아닌 오버샘플링 기법임.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) “분류가 어려운 소수 클래스 샘플 주변에 더 많은 합성 데이터를 만든다.”
– (X) “다수 클래스 데이터를 줄여 불균형을 해소한다.”

================================

5. SMOTE

ㅇ 정의:
– 소수 클래스 샘플 간의 선형 보간을 통해 새로운 합성 샘플을 생성하는 오버샘플링 기법.

ㅇ 특징:
– 단순 복제 방식보다 과적합 위험이 낮음.
– 데이터 공간을 확장하여 경계 학습 개선.

ㅇ 적합한 경우:
– 클래스 불균형이 존재하는 분류 문제.
– 데이터 양이 적어 모델 학습이 불안정한 경우.

ㅇ 시험 함정:
– ADASYN과 차이 구분 필요(균등 vs. 가중치 기반).
– 노이즈 샘플도 증폭될 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) “소수 클래스 샘플 사이를 보간하여 새로운 합성 데이터를 만든다.”
– (X) “다수 클래스 샘플을 무작위로 제거한다.”

ㅁ 추가 학습 내용

각 기법의 하이퍼파라미터는 모델 성능에 직접적인 영향을 미치므로 이해가 필요하다.
예시
– Random Erasing: 지울 영역 크기 범위
– Gaussian Blur: σ 값
– Mixup: α 파라미터
– ADASYN: k-최근접 이웃 수
– SMOTE: k 값

이미지 증강 기법과 오버샘플링 기법은 목적과 적용 시점이 다르다.
– 이미지 증강(Random Erasing, Gaussian Blur, Mixup): 학습 과정에서 실시간 적용
– 오버샘플링(ADASYN, SMOTE): 학습 데이터셋을 사전에 변형

시험에서는 유사 기법 간 차이를 묻는 문제가 자주 출제되므로 비교 정리가 필요하다.
예: CutMix, Cutout, Random Crop과의 차이점 구분

Meet AI

최신 글

최신 댓글

보관함

카테고리

데이터 증강: 기법 및 효과

Previous Article

Next Article

답글 남기기 응답 취소