AI 모델 개발: 최적화 기법

ㅁ 최적화 기법

1. Adam

ㅇ 정의:
– Adaptive Moment Estimation의 약자로, 1차 모멘트(평균)와 2차 모멘트(분산)을 모두 고려하여 학습률을 조정하는 최적화 알고리즘.

ㅇ 특징:
– 모멘텀과 RMSProp의 장점을 결합.
– 학습률을 각 파라미터별로 동적으로 조절.
– 초기 학습 속도가 빠르고, 비교적 적은 튜닝으로도 좋은 성능.

ㅇ 적합한 경우:
– 데이터 특성이 다양하고 비정규화된 경우.
– 딥러닝 모델의 빠른 수렴이 필요한 경우.

ㅇ 시험 함정:
– Adam이 항상 최적은 아님. 일반화 성능이 떨어질 수 있음.
– 학습률 스케줄러와 함께 쓰면 더 나은 경우가 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: Adam은 1차, 2차 모멘트를 모두 사용하여 학습률을 조정한다.
– X: Adam은 고정 학습률만 사용하는 단순 경사하강법이다.

================================

2. RMSProp

ㅇ 정의:
– Root Mean Square Propagation의 약자로, 최근 기울기 제곱의 이동평균을 사용하여 학습률을 조절하는 알고리즘.

ㅇ 특징:
– 기울기 폭이 큰 파라미터의 학습률을 줄이고, 작은 파라미터의 학습률은 키움.
– 비정상(non-stationary) 문제에 강함.

ㅇ 적합한 경우:
– RNN과 같이 기울기 폭이 불균형한 네트워크.
– 온라인 러닝 환경.

ㅇ 시험 함정:
– 모멘텀과 혼동하기 쉬움.
– 전체 데이터 분포가 안정적일 때는 효과가 적을 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: RMSProp은 기울기 제곱의 이동평균을 사용하여 학습률을 조절한다.
– X: RMSProp은 모든 파라미터에 동일한 학습률을 적용한다.

================================

3. SGD

ㅇ 정의:
– Stochastic Gradient Descent, 전체 데이터가 아닌 일부 배치(batch)로 기울기를 계산하여 파라미터를 갱신하는 경사하강법.

ㅇ 특징:
– 메모리 효율적.
– 노이즈로 인해 지역 최소값 탈출 가능.
– 수렴 속도가 느릴 수 있음.

ㅇ 적합한 경우:
– 대규모 데이터셋.
– 온라인 학습.

ㅇ 시험 함정:
– 배치 크기에 따라 성능이 크게 달라질 수 있음.
– 모멘텀, 학습률 조정 없이 쓰면 수렴이 불안정할 수 있음.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: SGD는 일부 데이터 배치로 기울기를 계산하여 파라미터를 갱신한다.
– X: SGD는 항상 전체 데이터셋으로 기울기를 계산한다.

================================

4. Learning Rate Scheduler

ㅇ 정의:
– 학습 과정 중 학습률을 동적으로 변경하는 기법.

ㅇ 특징:
– 초기에는 큰 학습률로 빠르게 수렴, 후반에는 작은 학습률로 미세 조정.
– Step decay, Exponential decay, Cosine annealing 등 다양한 방식 존재.

ㅇ 적합한 경우:
– 학습 후반부에 손실 감소가 더딜 때.
– 과적합 방지를 위해 학습률을 점진적으로 줄이고자 할 때.

ㅇ 시험 함정:
– 학습률을 너무 빨리 줄이면 최적점에 도달하기 전에 멈출 수 있음.
– 일정 주기로 학습률을 올리는 Cyclical 방식과 혼동 가능.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: Learning Rate Scheduler는 학습 도중 학습률을 조정한다.
– X: Learning Rate Scheduler는 학습 시작 시 한 번만 학습률을 설정한다.

================================

5. Weight Decay

ㅇ 정의:
– 가중치 크기에 비례하는 패널티를 손실 함수에 추가하여 과적합을 방지하는 규제 기법.

ㅇ 특징:
– L2 정규화와 동일한 효과.
– 큰 가중치를 억제하여 모델 복잡도 감소.

ㅇ 적합한 경우:
– 파라미터 수가 많아 과적합 위험이 큰 모델.
– 일반화 성능 향상이 필요한 경우.

ㅇ 시험 함정:
– Dropout과 혼동 가능.
– Weight Decay는 학습률과 함께 조정해야 효과적.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: Weight Decay는 L2 정규화와 유사하게 큰 가중치를 억제한다.
– X: Weight Decay는 L1 정규화와 동일하다.

ㅁ 추가 학습 내용

Adam과 RMSProp 모두 학습률을 파라미터별로 조정하는 기법이지만, Adam은 모멘텀 개념을 포함하고 RMSProp은 포함하지 않는다는 차이가 있다.
SGD의 변형 기법으로는 모멘텀 SGD와 Nesterov Accelerated Gradient가 있으며, 시험에 자주 등장하므로 함께 학습하는 것이 좋다.
Learning Rate Scheduler의 다양한 유형으로는 Cosine Annealing, Cyclical Learning Rate, Warm Restarts 등이 있으며, 각 방식의 적용 시점과 장단점을 숙지하면 응용 문제에서 유리하다.
Weight Decay를 Adam 계열에서 분리 적용하는 방법인 AdamW가 있으며, Adam과 AdamW의 차이점을 이해해야 한다.
최적화 기법의 선택은 학습 속도와 일반화 성능에 영향을 미치므로, 하이퍼파라미터 튜닝 전략(학습률, 베타 값, 감쇠율 등)에 대한 이해가 필요하다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*