AI 시스템 구축: 서빙 최적화 – Distillation
ㅁ 서빙 최적화
ㅇ 정의:
모델의 추론 속도와 효율성을 높이기 위해 모델 구조를 단순화하거나 경량화하는 기법들을 적용하는 과정.
ㅇ 특징:
– 모델의 정확도를 크게 떨어뜨리지 않으면서도 연산량과 메모리 사용량을 줄임
– 경량화된 모델은 모바일, 임베디드 환경에서도 동작 가능
– 주로 모델 압축, 양자화, 지식 증류 등의 기법 사용
ㅇ 적합한 경우:
– 실시간 응답이 필요한 서비스(챗봇, 음성 비서 등)
– 제한된 하드웨어 환경에서 AI 모델을 배포할 때
ㅇ 시험 함정:
– 서빙 최적화는 학습 속도 개선이 아니라 추론 효율성 개선에 초점이 있음
– 단순히 하드웨어 업그레이드만 하는 것은 서빙 최적화에 해당하지 않음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “모델의 추론 속도를 높이기 위해 경량화 기법을 적용한다.”
X: “모델 학습 시간을 단축하기 위해 서빙 최적화를 적용한다.”
================================
1. Distillation
ㅇ 정의:
큰 모델(Teacher)의 예측 지식을 작은 모델(Student)에 전달하여, 작은 모델이 큰 모델의 성능을 최대한 모방하도록 학습시키는 모델 압축 기법.
ㅇ 특징:
– Teacher 모델의 Soft Label(확률 분포)을 활용하여 Student 모델 학습
– Student 모델은 연산량이 적고 응답 속도가 빠름
– Teacher 모델의 일반화 능력을 일부 계승 가능
ㅇ 적합한 경우:
– 대규모 모델을 경량화하여 모바일/엣지 환경에 배포할 때
– 클라우드-엣지 혼합 아키텍처에서 추론 부하를 줄일 때
ㅇ 시험 함정:
– Distillation은 모델 구조 자체를 단순화하는 것이 아니라 지식을 전이하는 학습 기법임
– Teacher와 Student 모델이 반드시 동일 구조일 필요는 없음
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Teacher 모델의 예측 확률을 활용해 Student 모델을 학습시키는 기법이다.”
X: “Distillation은 모델의 파라미터 수를 직접 줄이는 구조 최적화 기법이다.”
ㅁ 추가 학습 내용
Distillation은 Teacher 모델과 Student 모델 간 지식 전달 기법으로, Soft Target과 Hard Target을 혼합하여 학습할 수 있다. Soft Target은 Teacher 모델이 출력한 확률 분포이며, Hard Target은 실제 정답 레이블을 의미한다. 온도 매개변수(Temperature Scaling)를 조절하면 Soft Target의 확률 분포를 부드럽게 하거나 날카롭게 만들어 클래스 간 유사도 정보를 Student 모델이 더 잘 학습할 수 있도록 한다.
변형 기법으로는 Sequence-level Distillation, Feature-based Distillation 등이 있으며, 이는 NLP, 음성 인식, 컴퓨터 비전 등 다양한 분야에서 활용된다.
시험에서는 Distillation, Quantization, Pruning의 차이점을 구분하는 문제가 자주 출제되므로, 각 기법의 목적과 적용 시점을 명확히 이해해야 한다. Distillation은 모델의 지식을 압축하여 작은 모델에 전달하는 것이 주 목적이며, Quantization은 모델 파라미터를 저정밀도로 변환해 연산 효율을 높이고, Pruning은 불필요한 파라미터나 연결을 제거하여 모델을 경량화한다.