AI 시스템 구축: 학습 구조
ㅁ 학습 구조
ㅇ 정의:
메타러닝에서 모델이 새로운 작업에 빠르게 적응할 수 있도록 설계된 학습 패턴과 알고리즘 구조를 의미함.
ㅇ 특징:
기존 데이터셋에서 다양한 작업을 학습하며, 새로운 작업에 대한 적은 데이터로도 빠른 적응이 가능하도록 설계됨.
ㅇ 적합한 경우:
데이터 수집이 어려운 환경, 다양한 도메인에 빠르게 적용해야 하는 경우.
ㅇ 시험 함정:
일반적인 전이학습과 혼동하기 쉬움. 메타러닝은 ‘학습하는 방법을 학습’하는 구조임을 구분해야 함.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “메타러닝은 새로운 작업에 소량의 데이터로도 빠르게 적응할 수 있는 학습 구조를 의미한다.”
X: “메타러닝은 항상 대규모 데이터가 필요하다.”
================================
1. Few-shot Meta Learning
ㅇ 정의:
소량의 학습 샘플(Few-shot)만으로도 새로운 작업에 잘 적응하도록 설계된 메타러닝 기법.
ㅇ 특징:
N-way K-shot 분류 문제로 자주 설명되며, 지원 집(Support set)과 쿼리 집(Query set)으로 데이터를 나누어 학습.
ㅇ 적합한 경우:
의료 영상, 희귀 언어 처리 등 데이터가 매우 제한된 환경.
ㅇ 시험 함정:
Few-shot은 Zero-shot과 다름. Zero-shot은 학습 데이터가 전혀 없는 상태에서 추론.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Few-shot 학습은 소량의 샘플로도 새로운 작업을 수행할 수 있도록 한다.”
X: “Few-shot 학습은 항상 사전 학습된 대규모 언어 모델을 사용해야 한다.”
================================
2. MAML
ㅇ 정의:
Model-Agnostic Meta-Learning의 약어로, 모델 구조에 구애받지 않고 빠른 적응을 위한 초기 파라미터를 학습하는 알고리즘.
ㅇ 특징:
내·외부 루프 학습 구조를 가지며, 다양한 작업에 대한 공통 초기 가중치를 학습.
ㅇ 적합한 경우:
다양한 태스크에 빠르게 적응해야 하는 범용 모델 학습.
ㅇ 시험 함정:
MAML은 특정 모델에만 적용 가능하다고 오해하기 쉬움. 실제로는 모델 불가지론적.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “MAML은 모델 구조에 상관없이 적용 가능한 메타러닝 알고리즘이다.”
X: “MAML은 CNN 구조에만 적용할 수 있다.”
================================
3. Reptile
ㅇ 정의:
MAML의 변형 알고리즘으로, 여러 작업에 대해 SGD를 수행한 후 초기 파라미터를 업데이트하는 방식.
ㅇ 특징:
2차 미분 계산이 필요 없어 계산량이 적음.
ㅇ 적합한 경우:
제한된 자원 환경에서 빠른 메타러닝 적용.
ㅇ 시험 함정:
Reptile은 MAML보다 항상 성능이 뛰어나다고 단정할 수 없음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Reptile은 MAML보다 계산량이 적다.”
X: “Reptile은 항상 MAML보다 정확도가 높다.”
================================
4. MetaSGD
ㅇ 정의:
MAML을 확장하여 각 파라미터별 학습률까지 함께 학습하는 메타러닝 기법.
ㅇ 특징:
학습률을 파라미터 단위로 최적화하여 적응 속도 향상.
ㅇ 적합한 경우:
파라미터별로 다른 변화 속도를 가지는 복잡한 모델.
ㅇ 시험 함정:
MetaSGD는 MAML보다 항상 빠르지만, 데이터셋 특성에 따라 과적합 가능성 있음.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “MetaSGD는 파라미터별 학습률을 학습하여 적응 속도를 높인다.”
X: “MetaSGD는 모든 파라미터에 동일한 학습률을 적용한다.”
ㅁ 추가 학습 내용
메타러닝 학습 구조 정리
1. 에피소드 학습(Episodic Training)
– 메타러닝에서 학습을 실제 테스트 환경과 유사하게 구성하는 방식
– 각 에피소드는 Support set(모델 학습에 사용)과 Query set(성능 평가에 사용)으로 구성
– Support set: 소수의 라벨된 데이터
– Query set: 모델이 예측해야 하는 데이터
2. Support set / Query set 구성 방식
– Support set: N-way K-shot 설정에 따라 N개의 클래스, 각 클래스당 K개의 샘플
– Query set: 동일한 클래스들에 대해 별도의 샘플로 구성
– 에피소드마다 Support와 Query는 분리되어야 함
3. Few-shot, Zero-shot, One-shot 차이
– Zero-shot: 사전 학습된 지식만으로, 해당 클래스 데이터 없이 예측
– One-shot: 클래스당 1개의 라벨된 데이터로 학습
– Few-shot: 클래스당 소수(2~수십)의 라벨된 데이터로 학습
4. MAML (Model-Agnostic Meta-Learning)
– 내루프(inner loop): Support set을 이용해 모델 파라미터를 태스크별로 업데이트
– 외루프(outer loop): Query set 손실을 기반으로 메타 파라미터 업데이트
– 2차 미분 필요: 내루프 파라미터 업데이트가 외루프에 영향을 주므로 고阶 미분 필요
– 고계 미분을 회피하는 First-order MAML 변형 존재
5. Reptile
– MAML보다 단순화된 업데이트
– 여러 태스크에 대해 내루프 수행 후, 초기 파라미터를 각 태스크의 최종 파라미터 방향으로 이동
– 장점: 2차 미분 불필요, 구현 간단
– 단점: 세밀한 메타 최적화 성능은 MAML보다 떨어질 수 있음
6. MetaSGD
– 학습률까지 메타 학습하여 태스크별로 최적화
– 각 파라미터별 학습률을 메타 파라미터로 설정
– 장점: 빠른 적응 가능, 일반화 성능 향상
– 사례를 통해 학습률 최적화의 효과를 확인할 필요
7. 모델 불가지론적(Model-Agnostic)
– 특정 모델 구조나 손실 함수에 종속되지 않음
– 회귀, 분류, 강화학습 등 다양한 문제에 적용 가능
– 파라미터 기반 학습 구조이면 어떤 모델에도 적용 가능
시험 대비 체크리스트
[ ] 에피소드 학습의 개념과 목적 설명 가능
[ ] Support set과 Query set의 구성 차이와 역할 설명 가능
[ ] Few-shot, Zero-shot, One-shot의 정의와 차이 구분 가능
[ ] MAML의 내루프와 외루프 업데이트 과정 순서대로 설명 가능
[ ] MAML에서 2차 미분이 필요한 이유 설명 가능
[ ] Reptile의 업데이트 방식과 MAML과의 차이점 설명 가능
[ ] Reptile의 장단점 2가지 이상 제시 가능
[ ] MetaSGD에서 학습률 최적화 방식과 효과 설명 가능
[ ] ‘모델 불가지론적’의 의미와 적용 가능성 설명 가능