스케줄링/조기종료: Learning Rate Scheduling
ㅁ 스케줄링/조기종료
ㅇ 정의:
학습 과정에서 학습률(Learning Rate)을 동적으로 조정하여 모델의 성능을 최적화하고 학습 속도를 개선하는 방법.
ㅇ 특징:
– 초기 학습률이 너무 크면 최적값을 지나칠 수 있고, 너무 작으면 수렴 속도가 느려질 수 있음.
– 다양한 스케줄링 기법이 존재하며, 모델과 데이터 특성에 따라 선택적으로 사용.
ㅇ 적합한 경우:
– 학습 초기에 빠르게 수렴하고자 할 때.
– 학습 후반부에 안정적으로 수렴하고자 할 때.
ㅇ 시험 함정:
– 학습률 감소 시점과 감소 폭을 잘못 설정하면 학습이 중단되거나 과적합 발생 가능.
ㅇ 시험 대비 “패턴 보기” 예시:
O: 학습률 스케줄링은 학습 초기에는 큰 학습률을 사용하고, 점진적으로 감소시키는 방식이다.
X: 학습률 스케줄링은 항상 일정한 학습률을 유지하는 것을 의미한다.
================================
1. Learning Rate Scheduling
ㅇ 정의:
학습 과정 중 학습률을 조정하여 모델이 더 빠르고 안정적으로 수렴하도록 돕는 기법.
ㅇ 특징:
– 학습률 변화를 통해 학습 초기와 후반의 요구 사항을 모두 충족 가능.
– 주요 기법으로는 Step Decay, Exponential Decay, Cosine Annealing 등이 있음.
ㅇ 적합한 경우:
– 데이터에 따라 학습률이 고정된 경우 성능이 저하될 때.
– 최적화 과정에서 손실 함수가 특정 값에서 정체될 때.
ㅇ 시험 함정:
– 스케줄링 기법을 잘못 이해하거나 적용 시점을 혼동하면 학습 성능 저하.
ㅇ 시험 대비 “패턴 보기” 예시:
O: Step Decay는 학습률을 일정 간격으로 감소시키는 기법이다.
X: Cosine Annealing은 학습률을 항상 일정하게 유지하는 기법이다.
1.1 Step Decay
ㅇ 정의:
일정한 에포크 간격으로 학습률을 감소시키는 방식.
ㅇ 특징:
– 간단하고 구현이 용이함.
– 학습률 감소 시점이 고정되어 있음.
ㅇ 적합한 경우:
– 학습률 감소 시점이 명확한 경우.
– 학습 데이터가 비교적 균일한 경우.
ㅇ 시험 함정:
– 에포크 간격을 너무 짧게 설정하면 학습이 제대로 이루어지지 않음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: Step Decay는 학습률을 특정 간격으로 감소시키는 기법이다.
X: Step Decay는 학습률을 매 에포크마다 증가시키는 기법이다.
1.2 Exponential Decay
ㅇ 정의:
학습률을 특정 비율로 점진적으로 감소시키는 방식.
ㅇ 특징:
– 학습률이 지수 함수 형태로 감소.
– 학습 후반부로 갈수록 학습률 감소 폭이 작아짐.
ㅇ 적합한 경우:
– 학습률을 부드럽게 감소시키고자 할 때.
– 모델이 점진적으로 수렴하도록 유도하고자 할 때.
ㅇ 시험 함정:
– 감소율을 지나치게 작게 설정하면 학습이 정체될 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: Exponential Decay는 학습률을 일정 비율로 감소시키는 기법이다.
X: Exponential Decay는 학습률을 일정 간격으로 증가시키는 기법이다.
1.3 Cosine Annealing
ㅇ 정의:
학습률을 코사인 함수 형태로 점진적으로 감소시키는 방식.
ㅇ 특징:
– 학습률이 초기에는 크게, 후반부로 갈수록 작게 감소.
– 주기적인 변동을 통해 지역 최적점 탈출 가능.
ㅇ 적합한 경우:
– 학습 후반부에서 안정적으로 수렴하고자 할 때.
– 복잡한 손실 함수의 최적화를 수행할 때.
ㅇ 시험 함정:
– 주기 설정을 잘못하면 학습률이 지나치게 낮아지거나 높아질 수 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: Cosine Annealing은 학습률을 코사인 함수의 형태로 감소시키는 기법이다.
X: Cosine Annealing은 학습률을 일정하게 유지하는 기법이다.
ㅁ 추가 학습 내용
1. Warm Restart는 Cosine Annealing과 비슷한 방식으로 학습률을 조정하지만, 특정 주기마다 학습률을 초기화하여 반복적으로 감소시키는 특징이 있다. 이 방법은 학습률이 지나치게 낮아지는 것을 방지하고, 모델이 지역 최적점에서 벗어나 더 나은 최적점을 찾도록 돕는다.
2. 학습률 스케줄링과 관련된 하이퍼파라미터 튜닝은 모델 성능에 중요한 영향을 미친다. 주요 하이퍼파라미터로는 학습률 초기값, 학습률 감소 비율, 그리고 학습률 초기화 주기 등이 있다. 이러한 하이퍼파라미터를 최적화하기 위해 다양한 실험과 검증이 필요하며, 이를 통해 모델의 학습 성능을 극대화할 수 있다.
3. 학습률 스케줄링의 효과를 검증하기 위해 학습 곡선(Training Curve)을 활용한다. 학습 곡선은 모델의 손실 값이 학습 과정에서 어떻게 변하는지를 시각적으로 보여준다. 이를 통해 학습률 스케줄링이 손실 감소와 수렴 과정에 긍정적인 영향을 미쳤는지 평가할 수 있다. 학습 곡선이 부드럽게 감소하고, 수렴 속도가 빨라지는 경우 스케줄링이 효과적으로 작동했다고 판단할 수 있다.