AI 모델 개발: 최적화 기법 – Weight Decay

ㅁ 최적화 기법

ㅇ 정의:
Weight Decay는 신경망 학습 시 가중치 값이 과도하게 커지는 것을 방지하기 위해 가중치에 패널티를 부여하는 정규화 기법으로, L2 정규화와 유사하게 손실 함수에 가중치 제곱합을 추가하여 모델의 복잡도를 줄인다.

ㅇ 특징:
– 손실 함수에 λ * ||w||² 항을 추가하여 가중치의 크기를 줄이는 방향으로 학습
– 과적합 방지에 효과적
– 학습률과 함께 조정 시 성능 최적화 가능
– AdamW와 같이 Weight Decay를 별도로 적용하는 최적화 알고리즘 존재

ㅇ 적합한 경우:
– 파라미터 수가 많고 과적합 위험이 높은 딥러닝 모델
– 데이터셋 크기가 작아 일반화가 어려운 경우
– 모델의 가중치가 불필요하게 커지는 경향이 있는 경우

ㅇ 시험 함정:
– Weight Decay와 Dropout을 혼동하는 경우
– L1 정규화와 L2 정규화의 차이를 묻는 문제에서 Weight Decay가 L2에 해당한다는 점을 간과
– Adam Optimizer의 기본 Weight Decay 적용 방식과 AdamW의 차이를 묻는 문제 출제 가능

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Weight Decay는 손실 함수에 가중치 제곱합을 추가하여 과적합을 방지한다.”
X: “Weight Decay는 학습률을 줄이는 방법이다.”
X: “Weight Decay는 L1 정규화 방식이다.”

ㅁ 추가 학습 내용

Weight Decay의 수학적 정의는 L(w) + λ * ||w||²이며, 여기서 L(w)는 원래의 손실 함수, ||w||²는 가중치 벡터의 제곱합, λ는 감쇠 계수로서 가중치 감소의 강도를 조절한다. λ 값이 클수록 가중치가 더 강하게 줄어들며, 작을수록 영향이 적다.

SGD에서는 Weight Decay가 단순히 매 스텝마다 가중치에 비례하는 감소 항을 추가하여 적용된다. Adam에서는 모멘텀과 적응적 학습률을 사용하는데, 많은 구현에서 Weight Decay 항이 모멘텀 업데이트와 섞여 적용되어 의도와 다르게 동작할 수 있다. AdamW는 이러한 문제를 해결하기 위해 Weight Decay를 모멘텀 업데이트와 분리하여 적용함으로써 성능과 일반화 능력을 개선한다.

L1 정규화는 가중치의 절대값 합을 최소화하며, 일부 가중치를 0으로 만들어 희소성을 유도한다. L2 정규화는 가중치의 제곱합을 최소화하여 모든 가중치를 전반적으로 작게 만든다.

Weight Decay는 과적합 방지 외에도 모델의 일반화 성능 향상과 학습 안정성에 기여한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*