AI 시스템 구축: 경량 모델 최적화 – Pruning
ㅁ 경량 모델 최적화
1. Pruning
ㅇ 정의:
인공신경망에서 중요도가 낮은 가중치나 뉴런, 채널 등을 제거하여 모델의 크기와 연산량을 줄이는 기법.
ㅇ 특징:
– 불필요한 파라미터를 제거해 메모리 사용량과 추론 속도를 개선.
– 구조적(Structured) Pruning과 비구조적(Unstructured) Pruning으로 구분.
– 학습 중 또는 학습 후 적용 가능.
ㅇ 적합한 경우:
– 모델이 과대적합되어 불필요한 파라미터가 많은 경우.
– 경량화가 필요한 엣지 디바이스 배포 시.
– 제한된 메모리/연산 환경에서의 실시간 추론.
ㅇ 시험 함정:
– Pruning은 항상 정확도를 향상시키는 기법이 아님(O) → 잘못된 표현: ‘Pruning은 정확도를 무조건 향상시킨다'(X)
– Pruning은 모델의 구조를 변경할 수 있다(O) → 잘못된 표현: ‘Pruning은 가중치 값만 바꾸고 구조는 절대 바꾸지 않는다'(X)
ㅇ 시험 대비 “패턴 보기” 예시:
– “Pruning은 네트워크의 일부 가중치 또는 뉴런을 제거하여 모델을 경량화한다” (O)
– “Pruning은 항상 학습 전에만 적용된다” (X)
– “Structured Pruning은 채널, 필터 단위로 제거한다” (O)
– “Unstructured Pruning은 임의의 연결을 제거할 수 있다” (O)
ㅁ 추가 학습 내용
Pruning 기법은 구조적 Pruning과 비구조적 Pruning으로 구분되며, 적용 시점에 따라 학습 전, 학습 중, 학습 후로 나뉜다. 시험에서는 이러한 구분과 적용 시점, 성능 영향에 대한 혼동을 유도하는 문제가 자주 출제된다.
Pruning 후 정확도 손실을 회복하기 위해 Fine-tuning 과정을 거치며, 이는 제거된 파라미터로 인한 성능 저하를 완화한다.
Sparsity 비율은 제거되는 파라미터의 비율을 의미하며, 지나치게 높으면 성능이 크게 저하될 수 있다.
비구조적 Pruning은 sparsity를 활용할 수 있는 특수 하드웨어에서만 성능 향상이 두드러지며, 일반 하드웨어에서는 이점이 제한적이다.
Lottery Ticket Hypothesis는 큰 네트워크 안에 원래 성능을 유지할 수 있는 작은 서브네트워크가 존재한다는 가설로, Pruning 연구의 중요한 이론적 배경으로 자주 언급된다.