AI: 학습 안정화 – Gradient Clipping

ㅁ 학습 안정화

ㅇ 정의:
경사하강법(Gradient Descent) 기반 학습에서 기울기(gradient)의 크기가 비정상적으로 커져 학습이 불안정해지는 현상(gradient explosion)을 방지하기 위해 기울기의 최대 크기를 제한하는 기법.

ㅇ 특징:
– 기울기의 L2 노름(norm) 또는 각 요소별 절대값을 특정 임계값(threshold) 이하로 제한.
– 주로 RNN, LSTM과 같이 장기 의존성을 학습하는 모델에서 발생하는 기울기 폭주 문제 완화.
– 학습률 조정과 함께 사용 시 효과 극대화.

ㅇ 적합한 경우:
– 시계열 데이터 처리 모델에서 기울기 폭주가 빈번히 발생하는 경우.
– 딥러닝 학습 초기에 손실값이 불안정하게 변동하는 경우.

ㅇ 시험 함정:
– Gradient Clipping은 기울기 소실(vanishing gradient) 문제를 해결하지 못함.
– 모든 모델에서 반드시 필요한 기법은 아님.
– 임계값 설정이 너무 낮으면 학습 속도가 저하될 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Gradient Clipping은 기울기 폭주를 방지하기 위해 사용된다.”
X: “Gradient Clipping은 기울기 소실 문제를 해결하는 대표적 방법이다.”

ㅁ 추가 학습 내용

Gradient Clipping은 기울기 폭발 문제를 완화하기 위한 기법으로, 대표적으로 두 가지 방식이 있다.
(1) Norm Clipping: 전체 기울기 벡터의 L2 노름이 임계값을 초과하면 비율에 맞게 스케일링한다.
(2) Value Clipping: 각 기울기 요소를 임계값 범위 내로 제한한다.

일반적으로 Norm Clipping이 더 자주 사용된다. Gradient Clipping은 Optimizer 단계에서 적용되며, 학습률과 상호작용하기 때문에 임계값과 학습률을 함께 조정해야 한다.

시험에서는 Gradient Clipping이 RNN 계열 모델에서 특히 중요하다는 점과 폭발적 기울기 문제와의 직접적인 연관성을 묻는 문제가 자주 출제된다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*