AI: 학습 안정화 – Cosine Annealing

ㅁ 학습 안정화

ㅇ 정의:
학습률을 점차 감소시키되, 코사인 함수를 이용해 학습률 변화를 부드럽게 조절하는 스케줄링 기법. 특정 주기마다 학습률을 초기값으로 재설정할 수도 있음.

ㅇ 특징:
– 학습 후반으로 갈수록 학습률이 서서히 낮아져 안정적인 수렴을 유도
– 코사인 곡선을 따라 감소하므로 급격한 변화 없이 부드러운 학습률 변동
– 주기적 리스타트(Cosine Annealing with Warm Restarts, SGDR)를 통해 지역 최소값 탈출 가능

ㅇ 적합한 경우:
– 딥러닝 모델에서 과적합 방지와 더 나은 전역 최적화를 위해 학습률 조절이 필요한 경우
– 학습 후반부의 진동을 줄이고 안정적인 수렴을 원하는 경우
– ResNet, Transformer 등 대규모 네트워크 학습 시

ㅇ 시험 함정:
– 단순 선형 감소와 혼동하기 쉬움
– Cosine Annealing은 학습률이 0까지 떨어지지만, Warm Restart를 사용하면 다시 초기값으로 올라감
– 지수적 감소(Exponential Decay)와 수식이 다름

ㅇ 시험 대비 “패턴 보기” 예시:
O: “코사인 함수를 이용하여 학습률을 점진적으로 감소시키는 방법이다.”
O: “Warm Restart를 적용하면 주기적으로 학습률이 초기값으로 돌아간다.”
X: “Cosine Annealing은 학습률이 일정하게 유지된다.”
X: “Cosine Annealing은 지수함수를 사용한다.”

ㅁ 추가 학습 내용

Cosine Annealing 학습률 스케줄은 다음 수식으로 표현된다.
η_t = η_min + 0.5(η_max – η_min)(1 + cos(π * T_cur / T_max))
여기서 T_cur는 현재 반복 횟수, T_max는 최대 반복 횟수이다. 학습률이 코사인 곡선을 따라 점진적으로 감소하며, 초반에는 완만하게 줄다가 후반에 급격히 감소하는 특징이 있다.

Warm Restarts(SGDR)는 T_max를 점차 증가시키면서 학습률 주기를 재시작하는 방식이다. 이를 통해 지역 최소값에서 벗어나 더 나은 해를 찾도록 돕는다.

다른 스케줄과의 비교
– Step Decay: 일정 주기마다 학습률을 갑작스럽게 감소시킴. 구현이 간단하나 변화가 불연속적이라 학습이 불안정할 수 있음.
– Exponential Decay: 학습률이 지수 함수 형태로 지속적으로 감소. 매 스텝마다 조금씩 줄어들며 부드러운 변화가 가능하지만 초기 감소 속도가 빠를 수 있음.
– Linear Decay: 선형적으로 일정 비율로 감소. 단순하고 예측 가능하나 후반 학습에서 너무 작은 학습률이 될 수 있음.
– Cosine Annealing: 코사인 곡선 형태로 감소. 초반에는 완만하게, 후반에는 급격히 감소하여 fine-tuning 단계에서 효과적임. 곡선 형태로 변동하므로 학습률 변화가 부드럽다.

Cosine Annealing은 validation loss가 plateau에 도달했을 때 warm restart 없이도 잘 작동할 수 있으며, 특히 fine-tuning 과정에서 좋은 성능을 보인다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*