AI: 학습 안정화

ㅁ 학습 안정화

ㅇ 정의:
– 학습 과정에서 손실 값 폭주, 기울기 폭발/소실, 과적합 등을 방지하여 모델의 수렴 속도와 성능을 안정적으로 유지하는 기법들의 총칭.

ㅇ 특징:
– 학습률, 기울기, 손실 함수의 변동성을 제어.
– 초기 학습 안정성과 장기적인 일반화 성능을 모두 고려.

ㅇ 적합한 경우:
– 대규모 데이터셋, 심층 신경망, 불안정한 학습 환경.

ㅇ 시험 함정:
– 각 기법의 목적과 적용 시점을 혼동.
– 유사 용어(regularization, normalization 등)와의 차이 구분.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “기울기 폭주를 방지하기 위해 특정 임계값으로 기울기를 제한하는 기법은 Gradient Clipping이다.”
– X: “Label Smoothing은 기울기 폭주를 방지하는 대표적인 방법이다.”

================================

1. Gradient Clipping

ㅇ 정의:
– 역전파 시 기울기의 L2 노름이 특정 임계값을 초과하면 비율을 조정하여 기울기를 제한하는 방법.

ㅇ 특징:
– 기울기 폭주(gradient explosion) 방지.
– 학습 안정성 향상.

ㅇ 적합한 경우:
– RNN, LSTM 등 장기 의존성 모델.
– 깊은 네트워크에서 불안정한 학습이 발생할 때.

ㅇ 시험 함정:
– 기울기 소실 문제에는 직접적 해결책이 아님.
– weight clipping과 혼동.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Gradient Clipping은 임계값을 초과하는 기울기를 줄여 학습 안정성을 높인다.”
– X: “Gradient Clipping은 학습률을 점진적으로 증가시키는 기법이다.”

================================

2. Label Smoothing

ㅇ 정의:
– 정답 레이블의 원-핫 인코딩 벡터를 완전히 0과 1로 두지 않고, 1에는 (1-ε), 0에는 ε/(K-1) 값을 부여하여 모델의 과도한 확신을 완화하는 기법.

ㅇ 특징:
– 과적합 방지.
– 모델의 일반화 성능 향상.
– 클래스 간 유사성 반영.

ㅇ 적합한 경우:
– 다중 클래스 분류.
– 데이터셋 라벨에 노이즈가 있는 경우.

ㅇ 시험 함정:
– softmax 온도 조절과 혼동.
– 레이블 분포 변경이 손실 함수 변경과 동일하다고 착각.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Label Smoothing은 모델이 정답 클래스 확률을 1로 예측하는 것을 방지한다.”
– X: “Label Smoothing은 학습률을 점진적으로 증가시키는 방법이다.”

================================

3. Learning Rate Warm-up

ㅇ 정의:
– 학습 초기에 학습률을 작은 값에서 시작하여 일정 스텝 동안 점진적으로 증가시키는 기법.

ㅇ 특징:
– 초기 불안정한 기울기 업데이트 완화.
– 대규모 배치 학습에서 효과적.

ㅇ 적합한 경우:
– Transformer, BERT 등 대규모 모델.
– 초기 학습률이 크면 발산 위험이 있는 경우.

ㅇ 시험 함정:
– 학습률 감소 기법과 혼동.
– warm-up 없이도 안정적인 경우가 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Learning Rate Warm-up은 초기 학습률을 점진적으로 증가시켜 학습을 안정화한다.”
– X: “Learning Rate Warm-up은 학습 후반에 학습률을 줄이는 방법이다.”

================================

4. Cosine Annealing

ㅇ 정의:
– 학습률을 코사인 함수 형태로 점진적으로 감소시키는 스케줄링 기법.

ㅇ 특징:
– 학습 후반에 미세한 학습률 조정 가능.
– 주기적 재시작(Cosine Annealing with Restarts, SGDR)과 함께 사용 가능.

ㅇ 적합한 경우:
– Fine-tuning, 장기 학습.
– 학습 후반에 미세 조정이 필요한 경우.

ㅇ 시험 함정:
– 지수적 감소와 혼동.
– warm-up과 병행 시 순서 혼동.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Cosine Annealing은 학습률을 코사인 곡선 형태로 감소시킨다.”
– X: “Cosine Annealing은 학습률을 점진적으로 증가시키는 기법이다.”

ㅁ 추가 학습 내용

Gradient Clipping은 기울기의 폭주를 방지하기 위해 기울기 크기를 제한하는 기법으로, global norm clipping과 per-variable clipping의 차이를 이해해야 한다.
– global norm clipping은 모든 파라미터의 기울기를 하나의 벡터로 보고 L2 norm을 계산하여 전체를 스케일링한다.
– per-variable clipping은 각 변수(파라미터)별로 L2 norm을 계산하고 개별적으로 스케일링한다.
L2 norm은 각 원소 제곱의 합의 제곱근으로 계산된다.

Label Smoothing은 정답 레이블의 원-핫 벡터를 부드럽게 만들어 과적합을 방지하고 일반화를 돕는 기법이다.
– ε 값이 너무 크면 정답 클래스의 확률이 지나치게 낮아져 모델이 제대로 학습하지 못하는 부작용이 발생할 수 있다.
– Cross-Entropy 손실과 결합 시, 정답 클래스에는 1−ε, 나머지 클래스에는 ε/(K−1) 값을 부여하는 형태의 수식을 숙지해야 한다.

Learning Rate Warm-up은 학습 초기에 학습률을 서서히 증가시키는 기법이다.
– Linear Warm-up, Exponential Warm-up 등 다양한 변형이 있으며, warm-up 이후 cosine annealing, step decay 등과 결합하는 사례가 많다.

Cosine Annealing은 학습률을 코사인 곡선 형태로 점진적으로 줄이는 방법이다.
– 주기적 재시작(SGDR) 개념이 있으며, 각 주기마다 최대 학습률이 점점 줄어드는 방식이 시험에 나올 수 있다.

이 네 가지 기법 모두 Adam, SGD 등 다양한 옵티마이저와의 궁합 및 적용 시점이 중요하며, 실무와 시험 모두에서 자주 다뤄진다.

Previous Article

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*