모델/시스템 최적화: 경량화 기법 – Weight Pruning

ㅁ 경량화 기법 ㅇ 정의: – 모델의 파라미터(가중치) 중 중요도가 낮은 값을 제거하여 연산량과 메모리 사용량을 줄이는 기법. – 신경망의 희소성을 높여 모델을 단순화. ㅇ 특징: – 성능 저하를 최소화하면서 모델 크기와 추론 속도를 개선. – 구조적 프루닝(채널/필터 단위)과 비구조적 프루닝(개별 가중치 단위)로 구분. – 학습 전/중/후 모두 적용 가능하나, 재학습(Fine-tuning)이 필요한 경우가 많음. ㅇ

모델/시스템 최적화: 가속기 종류 – FPGA

ㅁ 가속기 종류 1. FPGA ㅇ 정의: – FPGA(Field Programmable Gate Array)는 사용자가 하드웨어 회로 구성을 직접 프로그래밍하여 특정 연산을 가속할 수 있는 반도체 장치임. – 제조 후에도 하드웨어 로직을 재구성할 수 있어 다양한 알고리즘에 맞게 최적화 가능. ㅇ 특징: – 병렬 처리에 강하며, 특정 연산을 하드웨어 수준에서 최적화 가능. – CPU, GPU 대비 전력

모델/시스템 최적화: 가속기 종류 – VPU

ㅁ 가속기 종류 1. VPU ㅇ 정의: – Vision Processing Unit의 약자로, 영상·이미지 처리 및 컴퓨터 비전 작업에 특화된 저전력 병렬 처리 전용 프로세서. – 딥러닝 기반 영상 인식, 객체 탐지, 추적 등의 연산을 효율적으로 수행. ㅇ 특징: – GPU 대비 전력 소모가 낮고, 임베디드·엣지 디바이스 환경에 최적화. – CNN(Convolutional Neural Network) 연산 가속에 특화.

모델/시스템 최적화: 가속기 종류 – NPU

ㅁ 가속기 종류 ㅇ 정의: – NPU(Neural Processing Unit)는 인공지능 연산, 특히 딥러닝의 행렬·벡터 연산을 효율적으로 처리하기 위해 설계된 전용 하드웨어 가속기. ㅇ 특징: – 대규모 병렬 연산에 최적화되어 있으며, CNN, RNN 등 신경망 연산의 MAC(Multiply-Accumulate) 연산을 고속 처리. – CPU나 GPU 대비 전력 효율이 높고, 모바일·엣지 디바이스에 적합. – 온디바이스 AI 추론 속도를 높여

모델/시스템 최적화: 가속기 종류 – TPU

ㅁ 가속기 종류 ㅇ 정의: – 가속기 종류는 인공지능 및 머신러닝 모델 학습·추론 속도를 높이기 위해 CPU 외의 특화된 하드웨어를 사용하는 분류를 의미함. ㅇ 특징: – GPU, TPU, FPGA 등 다양한 하드웨어가 존재하며, 각기 다른 연산 특화 구조를 가짐. – 대규모 병렬 연산과 행렬 연산 처리에 최적화된 장치들이 많음. ㅇ 적합한 경우: – 대규모 데이터셋

모델/시스템 최적화: 가속기 종류 – GPU

ㅁ 가속기 종류 ㅇ 정의: – GPU(Graphics Processing Unit)는 대규모 병렬 연산에 특화된 프로세서로, 원래는 그래픽 렌더링을 위해 개발되었으나 현재는 인공지능, 과학 계산 등 범용 병렬 처리에 널리 사용됨. ㅇ 특징: – 수천 개의 코어를 통해 동시에 많은 연산을 처리 가능 – 고대역폭 메모리(HBM, GDDR)를 사용하여 데이터 전송 속도가 빠름 – 행렬/벡터 연산에 최적화되어 딥러닝

모델/시스템 최적화: 추론 기술 – Operator Fusion

ㅁ 추론 기술 ㅇ 정의: – Operator Fusion은 딥러닝 모델의 연산 그래프 상에서 연속적으로 수행되는 여러 연산자(operator)를 하나의 커널로 결합하여 실행하는 최적화 기법이다. ㅇ 특징: – 메모리 접근 횟수를 줄이고, 중간 결과 저장/로드를 최소화하여 실행 속도를 향상시킨다. – GPU/TPU 등 하드웨어 가속기에서 특히 효과적이다. – 연산자 간 데이터 이동을 줄여 캐시 효율성을 높인다. ㅇ 적합한

모델/시스템 최적화: 효율화 방식 – Layer Fusion

ㅁ 효율화 방식 ㅇ 정의: 연산 과정에서 인접한 여러 레이어(layer)의 연산을 하나의 연산으로 합쳐 메모리 접근 횟수와 연산 오버헤드를 줄이는 최적화 기법. ㅇ 특징: – 연속된 연산을 하나로 병합하여 중간 결과 저장을 최소화함. – CPU/GPU 메모리 대역폭 사용량 감소. – 연산자 간 데이터 이동을 줄여 캐시 효율 향상. – 주로 딥러닝 프레임워크의 그래프 최적화 단계에서

모델/시스템 최적화: 효율화 방식 – Quantization Aware Training

ㅁ 효율화 방식 ㅇ 정의: 학습 과정에서 양자화를 고려하여 모델 파라미터와 연산을 저정밀도로 변환하는 기법으로, 학습 중에 정밀도 손실을 최소화하도록 모델을 조정하는 방법. ㅇ 특징: – 학습 시점부터 정수 연산(예: int8) 환경을 모사하여 가중치와 활성값을 양자화. – 실제 배포 환경의 하드웨어 제약(모바일, 임베디드)에 최적화. – Post-Training Quantization 대비 정확도 손실이 적음. ㅇ 적합한 경우: –

모델/시스템 최적화: 효율화 방식 – FP16

ㅁ 효율화 방식 ㅇ 정의: FP16(Half-Precision Floating Point)은 16비트 부동소수점 형식으로, FP32(32비트) 대비 메모리 사용량과 연산량을 절반으로 줄이는 데이터 표현 방식. ㅇ 특징: – 메모리 대역폭 절감으로 모델 훈련 및 추론 속도 향상 – GPU의 텐서 코어 등 특수 연산 장치에서 FP16 연산 최적화 지원 – 정밀도가 낮아 일부 연산에서 수치적 불안정 발생 가능 ㅇ