모델/시스템 최적화: 경량화 기법 – Knowledge Distillation

ㅁ 경량화 기법

1. Knowledge Distillation

ㅇ 정의:
대규모 복잡한 모델(Teacher Model)의 지식을 소규모 경량 모델(Student Model)에 전달하여 성능을 유지하면서 모델 크기와 연산량을 줄이는 기법.

ㅇ 특징:
– Teacher 모델의 출력 확률 분포(Soft Target)를 활용하여 Student 모델을 학습.
– Soft Target은 클래스 간 유사도 정보를 포함하므로 일반적인 Hard Label보다 일반화 성능이 향상.
– 모델 크기와 추론 속도를 개선하면서도 정확도 손실을 최소화.
– 추가적인 Teacher 모델 학습 비용이 발생할 수 있음.

ㅇ 적합한 경우:
– 모바일, 임베디드 환경처럼 연산 자원이 제한된 경우.
– 실시간 추론이 필요한 서비스.
– 기존 대형 모델의 배포가 어려운 경우.

ㅇ 시험 함정:
– Knowledge Distillation은 무조건 정확도를 높이는 기법이 아님. 잘못된 Teacher 모델 사용 시 성능 저하 가능.
– Soft Target 온도(Temperature) 조정이 핵심이나, 온도를 높이면 항상 좋은 것은 아님.
– Teacher와 Student 구조가 반드시 동일해야 하는 것은 아님.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Knowledge Distillation은 Soft Target을 이용하여 Student 모델을 학습시킨다.”
X: “Knowledge Distillation은 Teacher와 Student 모델 구조가 반드시 동일해야 한다.”
O: “온도 파라미터는 Soft Target의 분포를 조절하는 데 사용된다.”
X: “온도 파라미터를 높이면 항상 정확도가 향상된다.”

ㅁ 추가 학습 내용

Knowledge Distillation의 주요 변형 기법
– Feature Distillation: 중간 계층의 피처 맵을 Student 모델에 전달하여 학습
– Self-Distillation: 동일한 모델이 Teacher와 Student 역할을 동시에 수행
– Multi-Teacher Distillation: 여러 Teacher 모델의 지식을 결합하여 Student 모델 학습

시험에서 주로 다룰 수 있는 핵심 포인트
– Soft Target 생성 시 Temperature의 역할과 효과: Temperature를 높이면 출력 확률 분포가 부드러워져 클래스 간 유사도 정보를 더 잘 전달 가능
– Hard Label과 Soft Target의 차이: Hard Label은 정답 클래스만 1로 표시하는 원-핫 벡터, Soft Target은 Teacher 모델의 예측 확률 분포를 사용
– Teacher 모델의 품질이 Student 모델 성능에 미치는 영향: Teacher 모델이 더 정확하고 일반화 성능이 높을수록 Student 모델도 성능 향상 가능

응용 가능성
– Knowledge Distillation을 양자화(Quantization), 프루닝(Pruning)과 함께 적용하여 모델 경량화 효과를 극대화하는 복합 전략이 출제될 수 있음

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*