AI 모델 개발: 구조/방법

By - meet
Posted on 2025년 08월 28일
Posted in AI 이론

AI 모델 개발: 구조/방법

ㅁ 구조/방법

ㅇ 정의:

ㅇ 특징:

ㅇ 적합한 경우:

ㅇ 시험 함정:

ㅇ 시험 대비 “패턴 보기” 예시:

================================

1. Mixture of Experts

ㅇ 정의:
여러 개의 전문가(서브모델) 중 입력 데이터에 따라 일부만 활성화하여 계산하는 신경망 아키텍처. 각 전문가의 출력은 게이트 네트워크가 가중합하여 최종 출력 생성.

ㅇ 특징:
– 전체 모델 파라미터 수는 크지만, 한 번의 추론에서 활성화되는 파라미터는 일부만 사용 → 계산 효율성 향상.
– 전문가 간 역할 분담 가능.
– 게이트 네트워크가 입력마다 다른 전문가를 선택.

ㅇ 적합한 경우:
– 대규모 데이터셋에서 다양한 패턴을 처리해야 하는 경우.
– 연산 자원을 효율적으로 사용하면서 모델 용량을 늘리고 싶은 경우.

ㅇ 시험 함정:
– 모든 전문가가 항상 동시에 활성화된다고 오해하는 경우(X).
– MoE는 모델 크기를 줄이는 기법이라고 착각(O는 모델 용량을 늘리면서 연산량을 제어).

ㅇ 시험 대비 “패턴 보기” 예시:
– “MoE는 모든 전문가를 동시에 사용하여 연산 효율을 높인다” → X
– “MoE는 입력에 따라 일부 전문가만 활성화한다” → O

================================

2. GShard

ㅇ 정의:
구글이 개발한 대규모 MoE 학습 프레임워크로, 모델을 여러 장치/노드에 분산시키고 전문가를 효율적으로 배치하여 학습 속도를 높임.

ㅇ 특징:
– 자동화된 모델 병렬화와 데이터 병렬화 지원.
– 각 전문가를 TPU/ GPU 클러스터에 분산 배치.
– 통신 비용 최소화를 위한 최적화 포함.

ㅇ 적합한 경우:
– 초대규모 언어 모델 학습.
– TPU Pod 등 대규모 분산 환경.

ㅇ 시험 함정:
– GShard는 MoE와 무관한 일반 분산 처리 프레임워크라고 오해(X).
– GShard는 전문가 수를 줄이는 방식이라고 착각(X).

ㅇ 시험 대비 “패턴 보기” 예시:
– “GShard는 MoE 모델을 대규모 분산 환경에서 효율적으로 학습하기 위한 기술이다” → O
– “GShard는 분산처리와 무관하게 단일 GPU에서만 동작한다” → X

================================

3. Switch Transformer

ㅇ 정의:
MoE의 변형으로, 각 입력 토큰에 대해 하나의 전문가만 선택하는 방식의 트랜스포머 모델.

ㅇ 특징:
– 전문가 선택 단순화로 통신 및 연산량 감소.
– 모델 용량은 크지만 추론 속도는 빠름.
– 게이트 네트워크가 softmax 대신 argmax로 전문가 선택.

ㅇ 적합한 경우:
– 대규모 언어 모델에서 추론 속도를 극대화해야 하는 경우.
– 통신 자원이 제한된 분산 환경.

ㅇ 시험 함정:
– Switch Transformer가 여러 전문가를 동시에 활성화한다고 오해(X).
– Switch Transformer가 MoE와 무관하다고 생각(X).

ㅇ 시험 대비 “패턴 보기” 예시:
– “Switch Transformer는 각 토큰당 하나의 전문가만 활성화한다” → O
– “Switch Transformer는 모든 전문가를 한번에 활성화한다” → X

================================

4. Sparse Mixture

ㅇ 정의:
입력에 따라 소수의 전문가만 활성화하는 희소 활성화 기반 MoE 구조.

ㅇ 특징:
– 전체 전문가 중 일부만 선택하여 연산량 절감.
– 희소성으로 인해 메모리 사용량과 통신량 감소.
– 밀집(dense) MoE보다 효율적.

ㅇ 적합한 경우:
– 연산 자원이 제한된 환경에서 대규모 모델 사용.
– 실시간 응답이 필요한 서비스.

ㅇ 시험 함정:
– Sparse Mixture가 모든 전문가를 항상 사용한다고 오해(X).
– Sparse Mixture가 모델 성능을 반드시 떨어뜨린다고 오해(X).

ㅇ 시험 대비 “패턴 보기” 예시:
– “Sparse Mixture는 일부 전문가만 활성화하여 효율성을 높인다” → O
– “Sparse Mixture는 모든 전문가를 항상 활성화한다” → X

ㅁ 추가 학습 내용

MoE(Mixture of Experts) 추가 학습 정리

1. Top-k Gating
– 입력마다 k개의 전문가를 선택하는 방식
– 장점: 계산 효율성 향상, 불필요한 전문가 계산 감소
– 단점: 선택된 전문가 수 제한으로 표현력 감소 가능, 부하 불균형 발생 가능

2. Load Balancing Loss
– 전문가별 토큰 처리량 편차를 줄이기 위해 추가하는 손실 항
– 특정 전문가에 작업이 과도하게 몰리는 현상 방지

3. Expert Capacity
– 각 전문가가 처리할 수 있는 최대 토큰 수 제한
– Capacity 초과 시 일부 토큰은 다른 전문가로 라우팅하거나 버림
– Capacity factor로 조정 가능

4. MoE vs Ensemble
– Ensemble: 모든 모델(전문가)의 출력을 결합하여 최종 결과 생성
– MoE: 게이트 네트워크로 일부 전문가만 활성화하여 계산

5. 학습 안정화 기법
– Gradient clipping: 기울기 폭주 방지
– Capacity factor 조정: 전문가별 처리량 제한을 완화 또는 강화하여 안정성 확보

6. 분산 환경 통신 최적화
– All-to-all 통신 최소화 전략 필요
– 전문가 배치 최적화, 토큰 라우팅 방식 개선

7. 실제 적용 사례
– Google GLaM: Top-k gating 기반 대규모 MoE 모델
– DeepMind Gopher: 다양한 NLP 태스크에 적용된 대규모 모델, MoE 구조 활용

시험 대비 체크리스트

[ ] Top-k gating의 정의, 장단점 설명 가능
[ ] Load balancing loss의 목적과 효과 이해
[ ] Expert capacity와 capacity factor 개념 숙지
[ ] MoE와 Ensemble의 차이점 명확히 구분 가능
[ ] Gradient clipping과 capacity factor 조정의 역할 설명 가능
[ ] 분산 환경에서 All-to-all 통신 최소화 방법 나열 가능
[ ] GLaM, Gopher 등 MoE 실제 사례 특징 설명 가능

Meet AI

최신 글

최신 댓글

보관함

카테고리

AI 모델 개발: 구조/방법

Previous Article

Next Article

답글 남기기 응답 취소