AI: NAS 메타러닝 주요 기법 – Performance Estimation
ㅁ NAS 메타러닝 주요 기법
ㅇ 정의:
신경망 아키텍처 탐색(NAS) 과정에서 후보 모델의 성능을 실제 학습 없이 빠르게 예측하여 탐색 시간을 단축하는 기법.
ㅇ 특징:
– 전체 후보를 모두 학습시키는 대신, 과거 학습 데이터나 부분 학습 결과를 기반으로 성능을 추정.
– 메타러닝 기법을 적용하여 다양한 아키텍처의 성능 패턴을 학습.
– 데이터 효율성과 계산 효율성을 동시에 목표.
ㅇ 적합한 경우:
– 대규모 아키텍처 탐색 공간을 다루는 경우.
– GPU/TPU 자원이 제한되어 전체 학습이 불가능한 경우.
– 빠른 프로토타이핑이 필요한 연구 환경.
ㅇ 시험 함정:
– Performance Estimation은 모델의 최종 성능을 보장하는 것이 아니라 ‘예측’임을 혼동.
– Early Stopping과 혼동하는 경우가 많음(Performance Estimation은 예측, Early Stopping은 학습 중단 기법).
– 메타러닝 기반이 아닌 단순 휴리스틱을 Performance Estimation으로 오인.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “NAS에서 Performance Estimation은 후보 모델의 전체 학습 없이 성능을 추정하는 방법이다.”
X: “Performance Estimation은 모든 후보 모델을 끝까지 학습시켜 정확한 성능을 계산한다.”
ㅁ 추가 학습 내용
성능 추정 기법에는 다음과 같은 방법들이 있다.
1. 학습 곡선 외삽(Learning Curve Extrapolation)
– 초기 학습 구간의 성능 변화를 바탕으로 전체 학습 완료 시의 성능을 예측하는 방법
– 장점: 전체 학습 시간을 단축 가능
– 단점: 초기 학습 패턴이 실제 최종 성능과 다를 경우 오차 발생
– 적용 상황: 학습이 오래 걸리는 모델의 성능을 미리 가늠하고자 할 때
2. 파라미터 기반 추정(Parameter-based Estimation)
– 모델의 구조적 특성(파라미터 수, 깊이, 너비 등)을 이용해 성능을 예측하는 방법
– 장점: 학습 없이도 예측 가능
– 단점: 데이터셋 특성과의 상호작용을 반영하기 어려움
– 적용 상황: 모델 설계 단계에서 후보 구조를 빠르게 비교할 때
3. 서브네트워크 가중치 공유(Weight Sharing)
– 큰 네트워크 안에 여러 서브네트워크를 포함시키고, 이들이 가중치를 공유하도록 하여 개별 학습 없이 성능을 추정하는 방법
– 장점: 탐색 속도 향상, 자원 절약
– 단점: 공유로 인한 성능 예측 정확도 저하 가능
– 적용 상황: Neural Architecture Search(NAS)에서 다수의 구조를 빠르게 평가할 때
시험에서 자주 묻는 개념 비교
– Performance Estimation: 모델의 성능을 효율적으로 예측하는 전반적 기법
– Proxy Task: 원래 목표보다 간단한 대체 과제를 학습하여 성능을 간접적으로 평가하는 방법
– Early Stopping: 학습 과정 중 검증 성능이 개선되지 않으면 조기 종료하여 불필요한 연산을 줄이는 방법
– Weight Sharing: 여러 모델 후보가 동일한 가중치를 공유하여 학습 자원을 절약하는 방법
메타러닝 기반 성능 추정 기법
– 과거 탐색 기록을 Feature로 활용한 회귀(Regression) 모델
– Bayesian Optimization을 통한 성능 예측 및 탐색
– Graph Neural Networks(GNN)을 활용한 모델 구조 기반 예측