AI 모델 개발: 최적화 기법 – Adam

ㅁ 최적화 기법

1. Adam

ㅇ 정의:
Adaptive Moment Estimation의 약자로, 확률적 경사 하강법(SGD)에 1차 모멘트(평균)와 2차 모멘트(분산)를 모두 고려하여 학습률을 조정하는 최적화 알고리즘.

ㅇ 특징:
– 모멘텀과 RMSProp의 장점을 결합하여 빠른 수렴과 안정성을 동시에 확보.
– 각 파라미터별로 개별 학습률을 적용.
– 초기 학습 단계에서 빠르게 수렴하나, 최종 수렴값이 최적값과 약간 차이날 수 있음.

ㅇ 적합한 경우:
– 대규모 데이터셋과 파라미터가 많은 심층 신경망 학습.
– 학습률 조정이 어려운 비정형 데이터 처리.

ㅇ 시험 함정:
– ‘Adam은 항상 SGD보다 좋다’는 틀린 문장 (데이터 특성에 따라 SGD가 더 나을 수 있음).
– ‘Adam은 모멘텀을 사용하지 않는다’는 틀린 문장 (모멘텀 개념 포함).

ㅇ 시험 대비 “패턴 보기” 예시:
O: Adam은 1차, 2차 모멘트를 모두 사용하여 학습률을 조정한다.
X: Adam은 모든 파라미터에 동일한 학습률을 적용한다.

ㅁ 추가 학습 내용

Adam 옵티마이저의 주요 하이퍼파라미터
– β1: 1차 모멘트 추정(모멘텀)의 지수 감소율. 기본값 0.9
– β2: 2차 모멘트 추정(분산)의 지수 감소율. 기본값 0.999
– 학습률(learning rate): 파라미터 업데이트 크기를 조절.
– epsilon: 0으로 나누는 것을 방지하기 위한 작은 상수. 기본값 1e-8

Adam의 변형 알고리즘과 차이점
– AdamW: L2 정규화를 weight decay 방식으로 적용하여 일반화 성능을 향상. 기존 Adam의 L2 정규화 적용 방식 문제를 개선.
– AMSGrad: 2차 모멘트 추정값이 감소하지 않도록 하여 이론적 수렴성을 보장하고 안정성을 높임.

Adam의 특성 및 주의점
– 작은 데이터셋에서는 파라미터가 빠르게 학습되어 과적합이 발생할 수 있음.
– 학습률 스케줄링과 병행 시 장점: 학습 후반 안정화, 최적점 근처에서의 미세 조정 가능.
– 학습률 스케줄링과 병행 시 단점: 스케줄링 설정이 잘못되면 학습이 느려지거나 수렴이 불안정해질 수 있음.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*