모델/시스템 최적화: 가속기 종류
ㅁ 가속기 종류
ㅇ 정의:
ㅇ 특징:
ㅇ 적합한 경우:
ㅇ 시험 함정:
ㅇ 시험 대비 “패턴 보기” 예시:
================================
1. GPU
ㅇ 정의:
그래픽 연산을 위해 개발되었으나, 병렬 연산 성능을 활용해 딥러닝 학습·추론에 널리 사용되는 범용 연산 장치.
ㅇ 특징:
– 수천 개의 코어를 통한 대규모 병렬 처리
– 부동소수점 연산(FP32, FP16) 최적화
– 범용성 높음, 다양한 프레임워크 지원
ㅇ 적합한 경우:
– 대규모 행렬 연산이 많은 CNN, RNN 학습
– 범용 AI 연구 및 프로토타이핑
ㅇ 시험 함정:
– GPU는 전용 AI 칩이 아님 → 범용 그래픽·병렬 연산용
– 모든 병렬 처리에 GPU가 최적이라는 단정은 X
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “대규모 병렬 연산에 적합한 범용 가속기”
– X: “GPU는 AI 전용으로만 설계된 하드웨어이다”
================================
2. TPU
ㅇ 정의:
구글이 AI 연산 가속을 위해 개발한 텐서 처리 전용 ASIC(Application-Specific Integrated Circuit) 칩.
ㅇ 특징:
– 행렬 연산을 위한 시스톨릭 어레이 구조
– 고정소수점 연산(INT8, bfloat16) 최적화
– 구글 클라우드 환경에 최적화
ㅇ 적합한 경우:
– 대규모 딥러닝 모델 학습 및 추론
– TensorFlow 기반 프로젝트
ㅇ 시험 함정:
– TPU는 범용 연산 불가, 특정 연산에 특화
– GPU보다 항상 빠른 것은 아님 (모델·데이터에 따라 다름)
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “행렬 연산에 특화된 ASIC 가속기”
– X: “TPU는 모든 범용 연산에서 GPU보다 성능이 우수하다”
================================
3. NPU
ㅇ 정의:
AI 추론 연산에 특화된 신경망 처리 전용 프로세서(Neural Processing Unit).
ㅇ 특징:
– 저전력, 고효율 추론 연산
– 모바일·엣지 디바이스에 내장
– CNN, RNN, Transformer 등 다양한 모델 추론 지원
ㅇ 적합한 경우:
– 스마트폰, IoT 기기에서의 실시간 AI 추론
– 클라우드 연결 없이 로컬에서 AI 실행
ㅇ 시험 함정:
– NPU는 학습보다는 추론에 최적화
– GPU와 혼동 주의 (범용성 낮음)
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “모바일 환경에서 저전력 AI 추론에 최적”
– X: “NPU는 대규모 학습에 최적화된 프로세서”
================================
4. VPU
ㅇ 정의:
영상·비전 처리에 특화된 프로세서(Vision Processing Unit).
ㅇ 특징:
– 이미지·영상 전처리, 객체 인식 가속
– 저전력 설계
– 드론, CCTV, AR/VR 기기에 활용
ㅇ 적합한 경우:
– 엣지 디바이스에서의 실시간 영상 분석
– 카메라 기반 AI 애플리케이션
ㅇ 시험 함정:
– VPU는 범용 AI 연산용이 아님
– GPU와 혼동 금지 (그래픽·범용 병렬 연산과 다름)
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “영상 처리와 컴퓨터 비전에 특화된 가속기”
– X: “VPU는 모든 AI 연산에 GPU보다 효율적이다”
================================
5. FPGA
ㅇ 정의:
사용자가 하드웨어 회로를 재구성할 수 있는 프로그래머블 로직 장치(Field Programmable Gate Array).
ㅇ 특징:
– 하드웨어 수준 병렬 처리 가능
– 특정 알고리즘에 맞춤 최적화 가능
– 개발 난이도 높음, 초기 설정 시간 소요
ㅇ 적합한 경우:
– 특수 목적 AI 연산 가속
– 저지연, 고효율 처리 요구 환경
ㅇ 시험 함정:
– FPGA는 소프트웨어 변경만으로 즉시 성능 향상 불가 (하드웨어 재설계 필요)
– GPU 대비 범용성 떨어짐
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “하드웨어 회로를 재구성하여 특정 연산에 최적화 가능”
– X: “FPGA는 소프트웨어만 변경해도 즉시 성능이 향상된다”
ㅁ 추가 학습 내용
학습 정리
1. 가속기 성능 비교 항목
– 전력 효율: Watt당 연산량(연산 성능 / 소비 전력)
– 메모리 대역폭: 단위 시간당 전송 가능한 데이터 양
– 지연 시간(latency): 연산 요청부터 결과 출력까지 걸리는 시간
2. 주요 하드웨어 가속기 유형과 비교
– ASIC: 특정 목적을 위해 설계된 전용 집적회로, 최고 효율과 성능, 유연성 낮음
– DSP: 신호 처리에 특화된 프로세서, 실시간 처리에 강점, 범용성 제한적
3. GPU 플랫폼 차이
– CUDA: NVIDIA GPU 전용 병렬 컴퓨팅 플랫폼 및 API
– ROCm: AMD GPU용 오픈소스 병렬 컴퓨팅 플랫폼
4. TPU(텐서 처리 장치)
– 버전별 특징
v2: 고성능 행렬 연산, 공랭 방식
v3: 성능 향상, 수냉 방식 도입
v4: 연산 성능 및 에너지 효율 대폭 향상, 대규모 AI 학습 최적화
– 냉각 방식 차이: v2는 공랭, v3/v4는 수랭
5. NPU(신경망 처리 장치) 제조사별 특징
– 퀄컴 Hexagon: 모바일·임베디드 환경 최적화, 저전력 AI 연산
– 애플 Neural Engine: iOS 기기 전용, 애플 생태계와 긴밀 통합, 고속 머신러닝 처리
6. FPGA(필드 프로그래머블 게이트 어레이)
– 주요 개발 툴체인: Vivado(Xilinx), Quartus(Intel/Altera)
– HLS(High Level Synthesis): C/C++/OpenCL 등 고급 언어를 하드웨어 기술 언어(HDL)로 변환하여 회로 설계 생산성 향상