AI: PEFT/Fine-tuning 초기화/설정 – 학습률

ㅁ PEFT/Fine-tuning 초기화/설정

1. 학습률

ㅇ 정의:
모델의 가중치를 업데이트할 때 변화량의 크기를 결정하는 하이퍼파라미터로, 경사하강법(Gradient Descent)에서 한 번의 스텝에 이동하는 정도를 의미함.

ㅇ 특징:
– 값이 너무 크면 발산하거나 최적값을 지나칠 수 있음.
– 값이 너무 작으면 수렴 속도가 느려지고 지역 최소값에 빠질 수 있음.
– Fine-tuning에서는 사전 학습된 가중치를 크게 변형하지 않도록 일반적으로 작은 값을 사용함.
– 학습률 스케줄링(Learning Rate Scheduling) 기법과 함께 사용되기도 함.

ㅇ 적합한 경우:
– 모델이 안정적으로 수렴하도록 하고 싶은 경우.
– 사전 학습 모델을 미세 조정(Fine-tuning)할 때 기존 지식을 보존하며 새로운 데이터에 적응시키고 싶은 경우.

ㅇ 시험 함정:
– 학습률이 크면 항상 빠르게 수렴한다고 착각하는 경우 (실제로는 발산 가능).
– Fine-tuning 시 학습률을 크게 설정하면 성능이 향상된다고 오해하는 경우.
– 학습률과 배치 크기의 상관관계를 무시하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
– “학습률이 너무 크면 모델이 빠르게 전역 최적점에 도달한다.” → X (발산 가능)
– “Fine-tuning 시 학습률을 작게 설정하는 이유는 사전 학습된 가중치를 크게 변경하지 않기 위해서다.” → O
– “학습률은 경사하강법에서 가중치 업데이트 크기를 결정하는 하이퍼파라미터다.” → O

ㅁ 추가 학습 내용

학습률은 고정값뿐 아니라 학습 과정에서 동적으로 조정하는 기법이 중요하다.
대표적인 스케줄링 방식으로는 Warm-up(초기에는 작은 학습률로 시작해 점진적으로 증가), Cosine Annealing, Step Decay 등이 있으며, 이는 시험에 자주 출제된다.
Adam, AdamW, SGD 등 옵티마이저별로 학습률에 대한 민감도가 다르다는 점을 기억해야 한다.
Fine-tuning 시에는 사전 학습된 레이어에는 작은 학습률을, 새로 추가된 레이어에는 큰 학습률을 적용하는 Layer-wise Learning Rate Decay 기법이 자주 사용된다.
시험에서는 학습률과 손실 함수의 관계, 학습률 탐색 방법(Learning Rate Finder) 등이 함께 출제될 수 있으므로 이 부분도 함께 학습해야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*