알고리즘·논문: 모델 혁신 – Mixture of Experts (MoE)
ㅁ 모델 혁신
1. Mixture of Experts (MoE)
ㅇ 정의:
여러 개의 전문가(Expert) 모델과 이를 조합하는 게이트 네트워크(Gating Network)로 구성된 딥러닝 아키텍처로, 입력에 따라 일부 전문가만 활성화하여 효율적으로 연산하는 방법.
ㅇ 특징:
– 각 Expert는 특정 데이터 패턴이나 영역에 특화되어 학습됨.
– Gating Network가 입력 특성에 따라 어떤 Expert를 활성화할지 결정.
– 모든 Expert를 항상 사용하는 것이 아니라 일부만 활성화하여 계산 효율성을 높임(Sparse activation).
– 대규모 모델에서도 연산량 증가를 억제하면서 성능 향상 가능.
ㅇ 적합한 경우:
– 데이터가 이질적이고 여러 하위 분포로 구성된 경우.
– 대규모 모델에서 추론 속도와 자원 효율성을 동시에 확보하고자 하는 경우.
– 특정 태스크별로 다른 특화 모델을 혼합하여 사용해야 하는 경우.
ㅇ 시험 함정:
– 모든 Expert가 항상 활성화되는 구조로 오해할 수 있음 → 실제로는 일부만 활성화.
– Gating Network가 단순한 평균 가중치 합을 하는 것으로 착각할 수 있음 → 입력별로 동적으로 결정.
– MoE를 Ensemble과 동일시하는 경우 → Ensemble은 모든 모델이 동시에 예측에 참여.
ㅇ 시험 대비 “패턴 보기” 예시:
O: “MoE는 입력에 따라 일부 전문가만 선택적으로 활성화하여 연산 효율을 높인다.”
X: “MoE는 항상 모든 전문가를 동시에 활성화하여 예측 정확도를 높인다.”
ㅁ 추가 학습 내용
MoE(Mixture of Experts)의 학습 방식에는 Hard routing과 Soft routing이 있다.
Hard routing은 입력에 대해 특정 Expert 하나만 선택하여 활성화하는 방식이며, Soft routing은 여러 Expert에 가중치를 분배하여 동시에 활용하는 방식이다.
MoE에서는 Expert의 수가 많아질수록 통신 비용과 메모리 사용량이 증가하므로, 분산 학습 환경에서의 최적화 전략이 중요하다.
시험에서는 MoE, Ensemble, Multi-task Learning의 차이를 구분하는 문제가 자주 출제된다.
Ensemble은 모든 모델이 동시에 참여하여 출력을 결합하는 방식이고, MoE는 일부 Expert만 활성화한다는 점에서 차이가 있다.
Gating Network 설계 시 Softmax 함수를 사용하여 Expert 선택 확률 분포를 생성하는 경우가 많으며, Top-k 선택 기법이 자주 활용된다.