AI: 학습 안정화 – Learning Rate Warm-up

ㅁ 학습 안정화

ㅇ 정의:
학습 초기 단계에서 학습률(Learning Rate)을 매우 작게 시작하여 일정 스텝(step) 또는 에포크(epoch)에 걸쳐 점진적으로 목표 학습률까지 증가시키는 기법.

ㅇ 특징:
– 초기 가중치가 불안정한 상태에서 큰 학습률로 인한 발산을 방지.
– 대규모 데이터셋 또는 대형 모델(예: Transformer) 학습 시 효과적.
– 보통 선형 증가(linear warm-up) 방식이 많이 사용되며, 이후 cosine decay 등과 결합 가능.

ㅇ 적합한 경우:
– 대규모 배치(batch) 학습 시.
– 사전 학습(pre-training) 모델을 미세 조정(fine-tuning)할 때.
– 학습 초기에 손실이 급격히 변동하는 경우.

ㅇ 시험 함정:
– Warm-up은 학습률을 줄이는 것이 아니라 ‘점진적으로 올리는 것’임.
– 초기 학습률이 너무 작으면 수렴 속도가 느려질 수 있음.
– Warm-up 단계가 너무 길면 학습 효율 저하.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “학습률을 점진적으로 증가시켜 초기 발산을 방지한다.”
X: “학습률을 점진적으로 감소시켜 초기 발산을 방지한다.”

ㅁ 추가 학습 내용

Warm-up은 학습 초기에 learning rate를 점진적으로 증가시키는 기법으로, 종종 learning rate scheduler와 함께 사용된다. 대표적인 예로 Transformer 모델에서 사용되는 Noam Scheduler가 있다. Warm-up 기간은 일반적으로 전체 학습 스텝의 1~5% 정도로 설정된다. 대규모 분산 학습에서는 batch size에 비례하여 학습률을 조정하는 LARS나 LAMB 옵티마이저와 함께 적용하면 학습 안정성이 향상된다. 시험에서는 Warm-up과 학습 후반에 학습률을 점진적으로 낮추는 Cooldown 기법을 혼동시키는 문제가 나올 수 있으므로 구분이 필요하다. Warm-up 없이 학습할 경우 초기 손실 폭발(loss explosion), NaN 발생, 불안정한 그래디언트 등의 문제가 발생할 수 있다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*