데이터 증강: 적합성 평가
ㅁ 적합성 평가
1. Random Erasing 효과
ㅇ 정의:
– 이미지의 임의 영역을 사각형 형태로 제거(마스킹)하여 일부 픽셀 값을 무작위로 채우는 데이터 증강 기법.
ㅇ 특징:
– 모델이 특정 부분에만 의존하지 않고 전체적인 패턴을 학습하도록 유도.
– 과적합 방지 효과.
– 제거 영역 크기와 위치를 무작위로 설정.
ㅇ 적합한 경우:
– 객체 검출, 분류 모델에서 특정 부위에 대한 의존도를 낮추고자 할 때.
– 데이터셋 크기가 작고 다양한 잡음 환경을 모사해야 할 때.
ㅇ 시험 함정:
– Random Erasing은 항상 성능을 높이는 것은 아님(O). 모든 상황에서 성능이 향상된다고 단정(X).
– 이미지의 중요한 부분이 제거되면 오히려 성능 저하 가능.
ㅇ 시험 대비 “패턴 보기” 예시:
– “Random Erasing은 모델이 이미지의 일부 영역에만 의존하도록 만든다” → X
– “Random Erasing은 데이터 다양성을 높여 과적합을 완화할 수 있다” → O
================================
2. Gaussian Blur 한계
ㅇ 정의:
– 이미지에 가우시안 커널을 적용하여 흐리게 만드는 필터링 기법.
ㅇ 특징:
– 노이즈 제거, 경계 부드럽게 처리.
– 고주파 성분(세부 정보) 손실.
ㅇ 적합한 경우:
– 데이터 증강에서 흐림 효과를 통해 다양한 촬영 조건을 모사할 때.
– 저품질 이미지 환경을 학습시키고자 할 때.
ㅇ 시험 함정:
– Gaussian Blur는 항상 모델의 성능을 높인다(X).
– 흐림 강도를 높이면 객체 식별에 필요한 정보까지 손실될 수 있음(O).
ㅇ 시험 대비 “패턴 보기” 예시:
– “Gaussian Blur는 고주파 성분을 제거해 경계를 부드럽게 한다” → O
– “Gaussian Blur는 이미지의 모든 정보를 보존한다” → X
================================
3. ADASYN과 SMOTE 차이
ㅇ 정의:
– SMOTE: 소수 클래스 샘플을 기존 샘플과 인접한 샘플 사이에서 선형 보간하여 생성.
– ADASYN: SMOTE 기반이지만, 분류가 어려운 소수 클래스 샘플 주변에서 더 많은 합성 샘플을 생성.
ㅇ 특징:
– SMOTE: 모든 소수 클래스 샘플에 균등하게 합성.
– ADASYN: 난이도 기반 가중치를 적용해 합성 비율 조정.
ㅇ 적합한 경우:
– SMOTE: 소수 클래스 전반적으로 데이터 부족이 있을 때.
– ADASYN: 소수 클래스 중에서도 특히 분류 경계 근처의 데이터가 부족할 때.
ㅇ 시험 함정:
– ADASYN은 항상 SMOTE보다 성능이 우수하다(X).
– 데이터 분포에 따라 ADASYN이 과적합을 유발할 수 있음(O).
ㅇ 시험 대비 “패턴 보기” 예시:
– “SMOTE는 모든 소수 클래스 샘플에 대해 동일하게 합성한다” → O
– “ADASYN은 분류가 쉬운 샘플 주변에 더 많은 데이터를 생성한다” → X
ㅁ 추가 학습 내용
Random Erasing은 Cutout, CutMix 등과 비교하여 특징과 차이점을 이해해야 한다.
– Random Erasing: 이미지의 임의 영역을 지우고 노이즈나 평균값으로 채워서 모델의 강건성을 높이는 기법
– Cutout: 고정된 크기 또는 비율의 영역을 단순히 마스킹하여 제거
– CutMix: 이미지 일부를 잘라 다른 이미지의 일부와 교체하고 라벨도 혼합
Gaussian Blur는 커널 크기와 표준편차(sigma) 값에 따라 이미지 흐림 정도가 달라진다.
– 커널 크기 증가: 흐림 효과가 커짐
– sigma 증가: 픽셀 간 평균화 범위가 넓어져 부드러움이 증가
다른 블러 기법과의 차이
– Median Blur: 주변 픽셀의 중앙값으로 대체하여 잡음 제거에 효과적
– Bilateral Filter: 경계는 보존하면서 노이즈를 제거하는 필터
ADASYN과 SMOTE 비교 시 다음을 구분해야 한다.
– SMOTE: 소수 클래스 샘플 사이를 보간하여 새로운 데이터를 생성
– ADASYN: 분류가 어려운 소수 클래스 샘플에 더 많은 synthetic 데이터를 생성하여 학습 집중
변형 기법
– Borderline-SMOTE: 결정 경계 근처의 소수 클래스 샘플을 중심으로 생성
– KMeans-SMOTE: KMeans 클러스터링을 이용해 클러스터별로 소수 클래스 샘플 생성
불균형 데이터 처리 시 언더샘플링과의 조합 전략도 중요하다.
– 오버샘플링과 언더샘플링을 혼합하여 데이터 균형을 맞추고 과적합을 방지