AI 시스템 구축: 학습 구조
ㅁ 학습 구조
ㅇ 정의:
메타러닝에서 모델이 새로운 태스크를 빠르게 학습할 수 있도록 하는 데이터와 알고리즘의 구성 방식.
ㅇ 특징:
– 기존 학습 데이터와 다른 환경에서도 빠른 적응이 가능하도록 설계
– 태스크 간 공통 패턴을 추출하여 새로운 태스크에 활용
ㅇ 적합한 경우:
– 데이터 수집이 어려운 환경
– 다양한 태스크에 공통적으로 적용할 수 있는 모델이 필요한 경우
ㅇ 시험 함정:
– 전이학습과 혼동하기 쉬움 (전이학습은 사전학습된 모델을 특정 태스크에 fine-tuning 하는 것)
ㅇ 시험 대비 “패턴 보기” 예시:
O: “메타러닝 학습 구조는 새로운 태스크에 적은 데이터로도 빠르게 적응하도록 설계된다.”
X: “메타러닝 학습 구조는 항상 대규모 데이터셋에서만 효과적이다.”
================================
1. Few-shot Meta Learning
ㅇ 정의:
소수의 학습 샘플(Few-shot)만으로도 새로운 태스크를 잘 수행하도록 모델을 학습하는 메타러닝 기법.
ㅇ 특징:
– 샘플 수가 매우 적은 환경에서의 높은 일반화 성능
– 태스크 간 빠른 파라미터 적응
ㅇ 적합한 경우:
– 의료 영상 진단 등 데이터 수집이 어려운 분야
– 신제품 출시 시 초기 데이터가 적은 경우
ㅇ 시험 함정:
– One-shot, Zero-shot과 구분해야 함
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Few-shot Meta Learning은 각 태스크에서 몇 개의 샘플만으로 모델을 학습시킨다.”
X: “Few-shot Meta Learning은 반드시 수천 개의 샘플을 필요로 한다.”
================================
2. MAML
ㅇ 정의:
Model-Agnostic Meta-Learning. 모델 구조에 구애받지 않고, 다양한 태스크에 빠르게 적응할 수 있도록 초기 파라미터를 학습하는 알고리즘.
ㅇ 특징:
– 모든 모델에 적용 가능 (model-agnostic)
– 메타 학습 단계와 태스크별 학습 단계 구분
ㅇ 적합한 경우:
– 다양한 구조의 모델에 메타러닝 적용 시
– 다수의 유사하지만 다른 태스크를 빠르게 해결해야 하는 경우
ㅇ 시험 함정:
– 초기 파라미터 학습과 fine-tuning의 차이를 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: “MAML은 모델 구조에 상관없이 적용 가능하다.”
X: “MAML은 CNN에만 적용된다.”
================================
3. Reptile
ㅇ 정의:
MAML과 유사하지만, 메타 업데이트 시 단순히 여러 태스크에서 얻은 파라미터를 평균내는 방식의 메타러닝 알고리즘.
ㅇ 특징:
– 구현이 간단하고 계산량이 적음
– 2차 미분 계산이 필요 없음
ㅇ 적합한 경우:
– 연산 자원이 제한된 환경
– 빠른 프로토타이핑이 필요한 경우
ㅇ 시험 함정:
– MAML과의 차이점(2차 미분 필요 여부)을 묻는 문제
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Reptile은 MAML보다 계산량이 적다.”
X: “Reptile은 항상 MAML보다 성능이 높다.”
================================
4. MetaSGD
ㅇ 정의:
MAML을 확장하여 각 파라미터별 학습률까지 메타 학습하는 알고리즘.
ㅇ 특징:
– 파라미터별로 다른 학습률을 적용하여 더 빠른 적응 가능
– MAML 대비 추가 파라미터 학습 필요
ㅇ 적합한 경우:
– 태스크별로 파라미터 변화 폭이 크게 다른 경우
– 세밀한 학습률 조정이 필요한 경우
ㅇ 시험 함정:
– 단일 학습률 적용 방식과 혼동
ㅇ 시험 대비 “패턴 보기” 예시:
O: “MetaSGD는 파라미터별 학습률을 메타 학습한다.”
X: “MetaSGD는 모든 파라미터에 동일한 학습률을 적용한다.”
ㅁ 추가 학습 내용
메타러닝 학습 구조 보완 정리
Few-shot Meta Learning의 대표 방법론 비교
– Matching Networks: 지원 집합과 쿼리 집합 간의 유사도를 attention 기반으로 계산하여 분류.
– Prototypical Networks: 각 클래스별 프로토타입 벡터(평균 임베딩)를 계산하고 쿼리와의 거리로 분류.
– Relation Networks: 쿼리와 지원 집합 간의 관계 점수를 학습된 비교 네트워크로 산출하여 분류.
MAML 변형 알고리즘
– MAML: 모델 초기 파라미터를 학습하여 새로운 태스크에 빠르게 적응 가능.
– First-order MAML(FOMAML): 2차 미분 계산을 생략하여 연산량 감소, 속도 향상. 단, 정확도는 다소 낮을 수 있음.
– Reptile: 여러 태스크에서 SGD로 업데이트한 파라미터와 초기 파라미터의 차이를 이용해 근사 메타 업데이트 수행. 실제로는 SGD 기반 근사 방식.
– MetaSGD: 모델 파라미터와 학습률을 동시에 학습. 학습률 초기화 전략과 범위 설정이 성능에 중요한 영향을 미침.
메타러닝, 전이학습, 온라인 학습 비교 포인트
– 메타러닝: 다양한 태스크 경험을 통해 새로운 태스크에 빠른 적응을 목표로 함.
– 전이학습: 사전 학습된 모델의 지식을 새로운 관련 태스크에 적용.
– 온라인 학습: 데이터가 순차적으로 도착하는 환경에서 지속적으로 모델을 업데이트.
– 비교 시 고려 요소: 데이터 접근 방식, 학습 목적, 모델 업데이트 빈도, 초기화 방법, 계산 자원 요구량.