AI 모델 개발: 구조/방법 – Mixture of Experts

ㅁ 구조/방법

ㅇ 정의:
여러 개의 전문가 네트워크(Expert)와 이를 선택적으로 활성화하는 게이트 네트워크(Gating Network)로 구성된 모델 구조로, 입력 데이터에 따라 일부 전문가만 활성화하여 효율적 학습과 추론을 수행하는 방법.

ㅇ 특징:
– 전체 네트워크 중 일부 전문가만 활성화되므로 연산량이 줄어들어 대규모 모델에서도 효율적.
– 전문가별로 특화된 데이터 패턴을 학습할 수 있어 성능 향상 가능.
– 게이트 네트워크가 전문가 선택을 담당하므로 게이트 학습이 모델 성능에 중요한 영향을 미침.

ㅇ 적합한 경우:
– 데이터의 분포가 이질적이고, 각 부분에 대해 다른 특화 모델이 필요한 경우.
– 대규모 모델을 효율적으로 학습·추론해야 하는 상황.

ㅇ 시험 함정:
– 모든 전문가가 동시에 활성화되는 구조로 오해하는 경우 (X)
– MoE 구조는 반드시 파라미터 수를 줄이는 것이 목적이라는 단정적 진술 (X)
– 게이트 네트워크가 확률 기반으로 전문가를 선택한다는 점을 놓치는 경우 (O)

ㅇ 시험 대비 “패턴 보기” 예시:
– “MoE 구조는 모든 전문가를 동시에 사용하여 성능을 높인다.” → X
– “게이트 네트워크는 입력에 따라 일부 전문가만 활성화한다.” → O
– “MoE는 데이터의 다양한 패턴을 처리하기 위해 전문가 네트워크를 병렬로 둔다.” → O

ㅁ 추가 학습 내용

MoE의 게이트 네트워크는 일반적으로 Softmax를 사용하여 전문가별 가중치를 산출하며, Top-k gating 방식(k=1 또는 k=2)으로 일부 전문가만 선택하는 경우가 많다. 학습 시 전문가 간 부하 불균형(load imbalance) 문제가 발생할 수 있어, 전문가 선택 확률의 균형을 맞추기 위한 보조 손실(auxiliary loss)을 추가하기도 한다. MoE는 Transformer 아키텍처의 FFN 부분을 대체하여 대규모 언어 모델의 효율성을 높이는 데 자주 사용되며, 대표적인 사례로 Google의 Switch Transformer와 GShard가 있다. 시험에서는 MoE의 장점뿐 아니라 전문가 미선택으로 인한 학습 불균형, 게이트 네트워크의 학습 난이도, 통신 비용 증가 등 단점과 구현상의 고려사항도 함께 물어볼 수 있다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*