학습: 최신
ㅁ 최신
1. Lookahead Optimizer
ㅇ 정의:
– 기존 옵티마이저(SGD, Adam 등)의 파라미터 업데이트를 보조하여 학습 안정성과 일반화를 향상시키는 메타 옵티마이저 기법.
– 빠르게 움직이는 ‘fast weights’와 느리게 움직이는 ‘slow weights’를 병행 업데이트.
ㅇ 특징:
– fast weights는 기존 옵티마이저로 여러 스텝 업데이트.
– slow weights는 fast weights를 일정 주기마다 보간하여 업데이트.
– 학습 진동 감소, 수렴 안정성 향상.
ㅇ 적합한 경우:
– 작은 데이터셋에서 일반화 성능을 높이고 싶을 때.
– 기존 옵티마이저의 불안정한 수렴을 개선할 때.
ㅇ 시험 함정:
– Lookahead는 옵티마이저의 종류가 아니라 옵티마이저를 감싸는 wrapper임.
– fast/slow weight 개념을 혼동하기 쉬움.
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Lookahead는 Adam, SGD 등과 함께 사용 가능하다.
– (X) Lookahead는 Adam의 변형 버전이다.
================================
2. RAdam
ㅇ 정의:
– Rectified Adam, Adam 옵티마이저의 학습 초반 불안정성을 보정한 변형.
– 학습 초기에 적응적 학습률 편차를 줄이기 위해 warmup-like 보정 적용.
ㅇ 특징:
– 학습 초반 분산이 큰 문제를 해결.
– 별도의 warmup 단계 없이 안정적 수렴.
– Adam 대비 초기 수렴 속도 향상.
ㅇ 적합한 경우:
– 학습 초기 불안정성이 큰 비정형 데이터.
– 별도 warmup 스케줄 없이 안정성을 확보하고 싶을 때.
ㅇ 시험 함정:
– RAdam은 warmup을 완전히 제거하는 것이 아니라, 필요한 경우만 보정함.
– Adam과 동일한 하이퍼파라미터를 그대로 사용 가능.
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) RAdam은 학습 초기에 분산 보정을 수행한다.
– (X) RAdam은 warmup 단계를 반드시 포함한다.
================================
3. Warm Restarts
ㅇ 정의:
– 학습률 스케줄링 기법 중 하나로, 주기적으로 학습률을 초기값으로 리셋하여 지역 최소값 탈출을 유도.
– Cosine Annealing과 함께 자주 사용됨.
ㅇ 특징:
– 학습률을 주기적으로 감소 후 리셋.
– 탐색(exploration)과 수렴(exploitation) 균형 유지.
– 주기 길이를 점차 늘리는 방식(TCosine Annealing with Warm Restarts, SGDR) 존재.
ㅇ 적합한 경우:
– 복잡한 손실 곡선에서 지역 최적해에 빠지기 쉬운 경우.
– 장기 학습 시 성능 향상을 기대할 때.
ㅇ 시험 함정:
– Warm Restarts는 옵티마이저가 아니라 학습률 스케줄링 기법.
– Cosine Annealing과 혼동하기 쉬움.
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Warm Restarts는 학습률을 주기적으로 초기화한다.
– (X) Warm Restarts는 학습률을 일정하게 유지한다.
================================
4. Stochastic Weight Averaging
ㅇ 정의:
– 학습 후반에 서로 다른 시점의 모델 가중치를 평균하여 일반화 성능을 높이는 기법.
– SGD의 평탄한 최소점(flat minima) 탐색을 활용.
ㅇ 특징:
– 주기적 학습률 변동과 함께 적용 시 효과 극대화.
– 여러 checkpoint의 가중치 평균.
– 추가 추론 비용 없음.
ㅇ 적합한 경우:
– 과적합 위험이 있는 상황에서 일반화 성능을 높이고 싶을 때.
– 학습 후반에 성능이 불안정할 때.
ㅇ 시험 함정:
– SWA는 앙상블 기법이 아니라 단일 모델의 가중치 평균.
– 학습률 스케줄과 함께 사용 시 효과가 크지만 필수는 아님.
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) SWA는 여러 시점의 가중치를 평균하여 사용한다.
– (X) SWA는 여러 모델의 예측값을 평균한다.
ㅁ 추가 학습 내용
Lookahead Optimizer의 주요 하이퍼파라미터는 fast/slow weight 업데이트 주기 k와 보간 비율 α이며, α가 작을수록 slow weight의 변화 속도가 느려진다.
RAdam은 ‘rectification term’을 사용하여 분산이 충분히 안정화되었을 때만 Adam의 적응적 학습률을 적용한다.
Warm Restarts는 Cosine Annealing 공식 η_t = η_min + 0.5*(η_max – η_min)*(1 + cos(π*T_cur/T_i))를 기반으로 하며, T_i를 점차 증가시키는 방식이 SGDR이다.
SWA는 주기적 학습률 스케줄과 함께 사용하면 더 넓고 평탄한 최소점에 도달할 가능성이 높다.
시험에서는 각 기법이 옵티마이저인지, 스케줄러인지, 후처리 기법인지 구분하는 문제가 자주 출제된다.