AI: 최적화 및 스케줄링 – RAdam

ㅁ 최적화 및 스케줄링

1. RAdam

ㅇ 정의:
Rectified Adam의 약자로, Adam 옵티마이저의 학습 초기에 발생하는 분산 추정 편향 문제를 보정하기 위해 제안된 최적화 알고리즘.

ㅇ 특징:
– Adam의 장점(적응적 학습률, 모멘텀)을 유지하면서 학습 초기에 학습률이 과도하게 커져 불안정해지는 문제를 완화.
– 학습 초기에 분산 추정값이 충분히 안정화될 때까지 학습률을 점진적으로 증가시키는 ‘rectification term’ 적용.
– 추가 하이퍼파라미터가 거의 없으며, 기존 Adam과 유사한 사용법.

ㅇ 적합한 경우:
– 데이터셋 크기가 작거나, 배치 사이즈가 작아 초기 단계에서 파라미터 업데이트의 변동성이 큰 경우.
– 학습 안정성이 중요한 자연어 처리(NLP) 또는 소규모 컴퓨터 비전(CV) 모델 학습.

ㅇ 시험 함정:
– Adam과 비교해 항상 더 좋은 성능을 내는 것은 아님 → 데이터 특성에 따라 차이가 있음.
– ‘Warmup’ 스케줄과 혼동하기 쉬움 → RAdam은 내부적으로 warmup-like 효과를 포함하지만 별도의 학습률 스케줄러와는 다름.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “RAdam은 Adam 옵티마이저의 초기 단계 분산 추정 편향을 보정한다.”
– X: “RAdam은 학습률을 무조건 감소시키는 스케줄러이다.”

ㅁ 추가 학습 내용

RAdam은 2019년 논문에서 제안된 옵티마이저로, 기존 Adam의 단점을 보완하기 위해 rectification term을 도입하였다. 이는 분산 추정치의 편향 보정 계수를 기반으로 학습률을 조정하여, 학습 초기 단계에서 불필요한 과적합이나 발산을 방지한다.
시험에서는 RAdam과 AdamW, Lookahead 등의 차이점을 비교하는 문제가 자주 출제될 수 있다.
RAdam은 warmup 스케줄 없이도 안정적인 수렴을 보이는 특징이 있으며, 이는 rectification term이 학습 초기에 학습률을 자동으로 조정해주기 때문이다.
하지만 충분히 큰 배치 사이즈를 사용하여 통계 추정이 안정적인 상황에서는 Adam보다 성능이 떨어질 수 있다는 점도 이해해야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*