AI 시스템 구축: 학습 구조 – MetaSGD

ㅁ 학습 구조

1. MetaSGD

ㅇ 정의:
메타러닝에서 학습률까지 학습하는 확장된 SGD(Stochastic Gradient Descent) 기반 알고리즘으로, 각 파라미터별로 학습률을 메타 파라미터로 두고 데이터셋에 따라 최적화하는 방법.

ㅇ 특징:
– 각 파라미터마다 개별 학습률을 학습하여 더 빠른 수렴 가능.
– 초기 파라미터와 학습률을 동시에 업데이트.
– MAML(Model-Agnostic Meta-Learning)보다 적은 스텝으로 빠른 적응 가능.
– 파라미터 수가 2배로 늘어 메모리 사용량 증가.

ㅇ 적합한 경우:
– 다양한 태스크에 빠르게 적응해야 하는 few-shot 학습 환경.
– 태스크별로 최적 학습률이 크게 다른 경우.
– 학습 시간 단축이 중요한 온라인 학습 환경.

ㅇ 시험 함정:
– ‘MetaSGD는 학습률을 고정값으로 사용한다’ → X (학습률도 학습함)
– ‘MetaSGD는 MAML보다 항상 성능이 우수하다’ → X (데이터 특성에 따라 다름)
– ‘MetaSGD는 파라미터별 학습률을 메타 파라미터로 둔다’ → O

ㅇ 시험 대비 “패턴 보기” 예시:
– O: “MetaSGD는 각 파라미터별 학습률을 학습하는 메타러닝 기법이다.”
– X: “MetaSGD는 모든 파라미터에 동일한 학습률을 적용한다.”
– O: “MetaSGD는 초기 파라미터와 학습률을 동시에 최적화한다.”
– X: “MetaSGD는 학습률을 사전에 고정하고 메타 학습을 수행한다.”

ㅁ 추가 학습 내용

MetaSGD는 MAML의 확장판으로, 메타 파라미터에 학습률이 포함된다. 시험에서는 ‘MetaSGD는 학습률을 고정한다’는 식의 오답이 자주 출제되므로 주의해야 한다. MetaSGD의 학습률은 벡터 형태로 각 파라미터에 대응되며, 메타 업데이트 시 초기화 파라미터와 함께 업데이트된다. 구현 시 학습률 파라미터가 음수가 되지 않도록 제약을 두는 경우가 있으며, 이 부분이 응용 문제로 출제될 수 있다. MAML과 비교했을 때 MetaSGD는 적은 inner-loop 스텝으로도 빠른 적응이 가능하지만, 파라미터 수 증가로 인한 메모리 사용량 증가 문제가 있다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*