AI: 조기 종료 및 정규화
ㅁ 조기 종료 및 정규화
ㅇ 정의:
– 모델 학습 시 과적합을 방지하고 일반화 성능을 높이기 위해 학습을 조기에 중단하거나 가중치에 제약을 주는 기법.
ㅇ 특징:
– 검증 데이터 성능이 더 이상 향상되지 않을 때 학습을 중단.
– 가중치 크기를 제한하거나 랜덤하게 뉴런을 비활성화해 모델 복잡도를 조절.
ㅇ 적합한 경우:
– 데이터셋이 작거나 노이즈가 많은 경우.
– 모델 파라미터 수가 많아 과적합 위험이 높은 경우.
ㅇ 시험 함정:
– 조기 종료는 학습률 감소와 동일하다고 혼동.
– 정규화 기법이 항상 정확도를 높인다고 단정.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “검증 손실이 증가하기 시작하면 학습을 멈추는 것이 조기 종료다.”
– X: “조기 종료는 학습률을 점차 줄여서 멈추는 기법이다.”
================================
1. Dropout 활용법
ㅇ 정의:
– 학습 시 일정 비율의 뉴런 출력을 무작위로 0으로 만들어 네트워크가 특정 노드에 과도하게 의존하는 것을 방지하는 정규화 기법.
ㅇ 특징:
– 학습 시만 적용하고, 추론 시에는 전체 뉴런을 사용하되 출력값을 비율에 맞게 조정.
– 모델의 앙상블 효과를 유사하게 제공.
ㅇ 적합한 경우:
– 심층 신경망에서 과적합이 발생하는 경우.
– 데이터가 제한적일 때 일반화 성능 향상을 위해.
ㅇ 시험 함정:
– Dropout 비율이 높을수록 항상 좋은 성능을 낸다고 오해.
– 추론 시에도 Dropout을 적용해야 한다고 착각.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Dropout은 학습 시 무작위로 뉴런을 비활성화하여 과적합을 줄인다.”
– X: “Dropout은 테스트 시에도 무작위로 뉴런을 꺼서 예측 안정성을 높인다.”
================================
2. L2 반영 경향
ㅇ 정의:
– 가중치의 제곱합에 비례하는 패널티를 손실 함수에 추가하여 큰 가중치가 형성되는 것을 억제하는 정규화 방법.
ㅇ 특징:
– 가중치가 0에 가까워지도록 유도하지만 완전히 0으로 만들지는 않음.
– Ridge Regression과 동일한 원리.
ㅇ 적합한 경우:
– 다중공선성이 있는 회귀 문제.
– 파라미터 값이 과도하게 커져서 모델이 불안정해질 때.
ㅇ 시험 함정:
– L2 정규화가 가중치를 완전히 제거한다고 오해.
– L1과 L2의 차이를 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “L2 정규화는 가중치 크기에 비례하는 제약을 추가하여 과적합을 줄인다.”
– X: “L2 정규화는 불필요한 가중치를 완전히 0으로 만들어 변수 선택을 한다.”
================================
3. BatchNorm 역할
ㅇ 정의:
– 각 미니배치 단위로 입력 데이터를 정규화하여 학습 안정성과 속도를 높이는 기법.
ㅇ 특징:
– 내부 공변량 변화(Internal Covariate Shift)를 줄임.
– 학습률을 높일 수 있고, 초기값에 덜 민감.
ㅇ 적합한 경우:
– 심층 네트워크에서 학습이 불안정하거나 느릴 때.
– 다양한 입력 분포 변화에 강인한 모델이 필요할 때.
ㅇ 시험 함정:
– BatchNorm이 항상 과적합을 줄인다고 단정.
– Dropout과 동일한 역할을 한다고 착각.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “BatchNorm은 미니배치 단위로 평균과 분산을 정규화하여 학습을 안정시킨다.”
– X: “BatchNorm은 학습 시 뉴런을 무작위로 꺼서 과적합을 줄인다.”
ㅁ 추가 학습 내용
Dropout과 BatchNorm을 함께 사용할 때는 일반적으로 BatchNorm을 Dropout보다 먼저 적용하는 것이 권장된다. Dropout의 비율은 네트워크의 깊이와 데이터 크기에 따라 조정해야 한다. L2 정규화의 하이퍼파라미터 λ 값이 클수록 가중치 감소가 강해지며, 너무 크게 설정하면 과소적합이 발생할 수 있다. BatchNorm은 학습 시와 추론 시 동작 방식이 다르며, 추론 시에는 학습 과정에서 계산한 이동평균과 이동분산을 사용한다. L1과 L2 정규화를 혼합한 Elastic Net 개념도 함께 이해하면 유사한 문제에서 혼동을 줄일 수 있다.