AI: NAS 메타러닝 주요 기법 – DARTS

ㅁ NAS 메타러닝 주요 기법

ㅇ 정의:
신경망 구조 탐색(NAS)에서 연속적(relaxed) 아키텍처 파라미터를 사용하여 그래디언트 기반으로 최적 구조를 찾는 방법. DARTS(Differentiable Architecture Search)는 이산적인 구조 선택을 연속 공간으로 완화하여 효율적인 탐색을 가능하게 함.

ㅇ 특징:
– 기존 강화학습이나 진화 알고리즘 기반 NAS보다 탐색 속도가 매우 빠름
– 아키텍처 파라미터와 네트워크 가중치를 동시에 학습
– 연속 공간에서 최적화하므로 GPU/TPU에서 효율적
– 메모리 사용량이 상대적으로 높고, overfitting 위험 존재

ㅇ 적합한 경우:
– 제한된 시간 안에 고성능 모델 구조를 찾아야 하는 경우
– 이미지 분류, 언어 모델 등 표준 데이터셋에서 빠른 프로토타이핑이 필요한 경우

ㅇ 시험 함정:
– DARTS는 강화학습 기반이 아니라 그래디언트 기반임 (O/X 문제에서 혼동 유발)
– 완전한 이산 탐색이 아니라 연속 공간 완화 기법임
– 탐색된 구조가 항상 최적이라는 보장은 없음

ㅇ 시험 대비 “패턴 보기” 예시:
– “DARTS는 강화학습을 사용하여 아키텍처를 탐색한다.” → X
– “DARTS는 아키텍처 파라미터를 연속 공간으로 완화하여 그래디언트 기반 최적화를 수행한다.” → O
– “DARTS는 탐색과 학습을 동시에 진행할 수 있다.” → O

ㅁ 추가 학습 내용

DARTS의 주요 변형 기법
– Second-order DARTS: 아키텍처 파라미터(α)와 가중치(w)를 최적화할 때, 1차 근사 대신 2차 미분 항을 고려하여 더 정확한 업데이트를 수행. 계산량이 증가하지만 성능이 향상되는 경향이 있음.
– ProxylessNAS: GPU 메모리와 연산 효율성을 위해 proxy dataset이나 작은 네트워크 대신 실제 크기의 네트워크와 데이터셋에서 직접 탐색을 수행. Binary gates 기법을 사용하여 메모리 사용량을 줄임.
– P-DARTS(Progressive DARTS): 탐색 단계에서 네트워크 깊이를 점진적으로 늘려 search space bias 문제를 완화하고, overfitting을 방지.

DARTS의 한계점
– 성능 저하: 탐색된 아키텍처가 실제 학습 시 기대보다 낮은 성능을 보이는 경우가 있음.
– Search space bias: 연속화된 연산 선택 과정에서 특정 연산(예: skip connection)이 과도하게 선택되는 경향.

한계 보완을 위한 최근 연구 동향
– Search space 제약 또는 수정으로 편향 완화
– Regularization 기법 적용
– 메모리 효율적 탐색 알고리즘 개발
– 탐색 단계와 학습 단계의 일관성 강화

DARTS의 수학적 표현
– 연속화된 연산 선택: 각 edge에서 연산 o의 가중치를 softmax로 계산
o^(i,j)(x) = Σ_{o∈O} (exp(α_o^{(i,j)}) / Σ_{o’∈O} exp(α_{o’}^{(i,j)})) * o(x)
– 아키텍처 파라미터 α와 가중치 w의 교대 최적화:
1. w 업데이트: 학습 데이터(train set)로 w를 최적화 (α 고정)
2. α 업데이트: 검증 데이터(validation set)로 α를 최적화 (w 고정)

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*