AI: 최적화 및 스케줄링

ㅁ 최적화 및 스케줄링

1. Lookahead Optimizer

ㅇ 정의:
– 기본 옵티마이저가 여러 스텝 동안 파라미터를 업데이트한 후, 이를 기반으로 ‘전진(lookahead)’하여 파라미터를 보정하는 메타 옵티마이저.

ㅇ 특징:
– 내부에 다른 옵티마이저(Adam, SGD 등)를 포함하여 안정성과 수렴 속도를 동시에 확보.
– 학습 곡선의 진동을 줄이고 일반화 성능을 향상.

ㅇ 적합한 경우:
– 학습이 불안정하거나, 로컬 미니마에 빠지는 경향이 있는 경우.
– 다양한 옵티마이저를 실험할 때 공통적으로 안정성을 확보하고 싶은 경우.

ㅇ 시험 함정:
– Lookahead Optimizer는 단독으로 동작하는 것이 아니라 내부 옵티마이저가 필요함.
– 파라미터 업데이트 주기(k-step)와 알파(보정 비율) 개념 혼동 주의.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Lookahead Optimizer는 내부 옵티마이저의 업데이트를 주기적으로 보정하여 안정성을 높인다.”
– X: “Lookahead Optimizer는 내부 옵티마이저 없이 단독으로 동작한다.”

2. RAdam

ㅇ 정의:
– Rectified Adam으로, Adam 옵티마이저의 학습 초기 불안정성을 보정하기 위해 분산의 편향 보정을 동적으로 조절하는 알고리즘.

ㅇ 특징:
– 학습 초기에 러닝레이트를 자동으로 조정하여 과도한 업데이트 방지.
– Adam 대비 안정적인 수렴과 일반화 성능 확보.

ㅇ 적합한 경우:
– 데이터셋 크기가 작거나 배치 크기가 작은 경우.
– 초기 학습 단계에서 발산 위험이 있는 경우.

ㅇ 시험 함정:
– RAdam은 항상 러닝레이트를 줄이는 것이 아니라, 분산 추정 안정성에 따라 조절함.
– Adam과 동일하다고 오인하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “RAdam은 학습 초기에 분산 안정화 단계를 거쳐 러닝레이트를 조절한다.”
– X: “RAdam은 Adam과 완전히 동일하게 동작한다.”

3. Warm Restarts

ㅇ 정의:
– 학습 중 주기적으로 러닝레이트를 초기값으로 되돌려주는 스케줄링 기법.

ㅇ 특징:
– Cosine Annealing과 함께 사용되는 경우가 많음.
– 지역 최적점 탈출과 다양한 파라미터 공간 탐색 가능.

ㅇ 적합한 경우:
– 복잡한 손실 함수 지형에서 전역 최적점을 찾고 싶은 경우.
– 장기 학습에서 과적합 방지.

ㅇ 시험 함정:
– Warm Restarts는 학습을 완전히 재시작하는 것이 아님.
– 러닝레이트만 초기화되며, 모델 파라미터는 유지됨.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Warm Restarts는 러닝레이트를 주기적으로 초기값으로 되돌려 탐색을 돕는다.”
– X: “Warm Restarts는 모델 파라미터를 초기화하여 학습을 처음부터 다시 시작한다.”

4. Stochastic Weight Averaging

ㅇ 정의:
– 학습 후반에 서로 다른 시점의 모델 가중치를 평균하여 일반화 성능을 높이는 기법.

ㅇ 특징:
– 여러 지점의 파라미터를 평균함으로써 평탄한 최소점을 찾음.
– 러닝레이트 스케줄링과 함께 사용 시 효과 극대화.

ㅇ 적합한 경우:
– 신경망의 일반화 성능을 높이고자 할 때.
– 과적합 위험이 있는 경우.

ㅇ 시험 함정:
– SWA는 학습 전반이 아니라 후반에 적용하는 것이 일반적임.
– 단일 시점의 가중치만 사용한다고 착각하는 경우.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “SWA는 학습 후반 여러 시점의 가중치를 평균하여 일반화 성능을 향상시킨다.”
– X: “SWA는 학습 초기에 가중치를 평균하여 학습 속도를 높인다.”

ㅁ 추가 학습 내용

Lookahead Optimizer는 내부 옵티마이저의 업데이트 주기(k)와 보정 비율(α)의 설정이 성능에 큰 영향을 미치며, 시험에서 이 두 하이퍼파라미터를 묻는 문제가 나올 수 있다.
RAdam은 Rectification term이 충분히 커질 때까지는 SGD처럼 동작하고, 이후에는 Adam의 장점을 활용한다.
Warm Restarts는 주기(T_cur)와 최대 주기(T_max) 개념이 있으며, Cosine Annealing과 함께 사용할 때 주기 증가 방식(T_mult)도 중요한 시험 포인트이다.
Stochastic Weight Averaging(SWA)은 Polyak-Ruppert Averaging에서 영감을 받았으며, 적용 시 BatchNorm 통계를 재계산해야 한다는 점이 자주 출제된다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*