AI 시스템 구축: 시스템 최적화
ㅁ 시스템 최적화
ㅇ 정의: AI 모델 및 시스템의 연산, 메모리, 전송 효율을 높여 처리 속도와 자원 사용량을 최적화하는 기술 집합.
ㅇ 특징: 모델 크기 축소, 연산 효율 향상, 지연(latency) 감소, 하드웨어 자원 활용 극대화 등의 방법을 포함.
ㅇ 적합한 경우: 실시간 추론 서비스, 모바일·엣지 디바이스 배포, 대규모 트래픽 처리 환경.
ㅇ 시험 함정: 단순히 모델 정확도를 높이는 것과 혼동하기 쉬움. 최적화는 성능과 효율 사이의 균형이 핵심.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “AI 모델을 경량화하여 모바일 환경에서 빠르게 동작하도록 하는 과정”
– X: “모델의 학습 데이터를 늘려 정확도를 높이는 과정”
================================
1. 모델 압축
ㅇ 정의: AI 모델의 파라미터 수를 줄이거나 구조를 단순화하여 모델 크기와 연산량을 줄이는 기법.
ㅇ 특징: 프루닝(pruning), 지식 증류(knowledge distillation), 파라미터 공유 등 다양한 방법 존재. 정확도 손실 최소화가 중요.
ㅇ 적합한 경우: 저장 공간이 제한된 환경, 네트워크 전송 비용 절감 필요 시, 모바일·IoT 디바이스 배포.
ㅇ 시험 함정: 압축 = 무조건 정확도 감소라고 단정 짓는 오류. 적절한 기법 적용 시 정확도 유지 가능.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “프루닝은 불필요한 연결을 제거하여 모델 크기를 줄이는 방법”
– X: “모델 압축은 학습 속도를 높이기 위해 데이터 양을 줄이는 방법”
1.1 프루닝(Pruning)
ㅇ 정의: 중요도가 낮은 뉴런 또는 가중치를 제거하여 모델을 경량화하는 기법.
ㅇ 특징: 구조적/비구조적 방식, 재학습 과정 필요 가능성, 연산량 감소 효과 큼.
ㅇ 적합한 경우: 대규모 모델에서 불필요한 연산 제거 필요 시.
ㅇ 시험 함정: 프루닝 후 반드시 정확도가 떨어진다고 생각하는 오류. 재학습 시 정확도 회복 가능.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “비구조적 프루닝은 개별 가중치를 제거하여 희소성을 높인다”
– X: “프루닝은 반드시 모델의 정확도를 절반 이상 낮춘다”
1.2 지식 증류(Knowledge Distillation)
ㅇ 정의: 큰 모델(teacher)의 지식을 작은 모델(student)에 전달하는 모델 압축 기법.
ㅇ 특징: 소형 모델이 대형 모델의 출력 분포를 학습, 정확도 손실 최소화 가능.
ㅇ 적합한 경우: 경량 모델로도 높은 성능을 유지해야 하는 경우.
ㅇ 시험 함정: 데이터가 전혀 필요 없는 과정이라고 오해하기 쉬움. 실제로는 학습 데이터 필요.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “지식 증류는 teacher 모델의 soft label을 student 모델이 학습하는 방식”
– X: “지식 증류는 모델 아키텍처를 단순히 줄이는 하드웨어 최적화 방법”
================================
2. 양자화
ㅇ 정의: 모델의 가중치나 활성화 값을 낮은 비트 정밀도로 표현하여 연산 효율을 높이는 기법.
ㅇ 특징: INT8, FP16 등 저정밀도 연산을 사용하여 속도와 메모리 사용량 절감.
ㅇ 적합한 경우: 연산 자원이 제한된 환경, 대규모 배포 시 비용 절감 필요 시.
ㅇ 시험 함정: 양자화 적용 시 항상 성능이 향상된다고 생각하는 오류. 연산 속도는 빨라져도 정확도 저하 가능.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “INT8 양자화는 32비트 부동소수점 연산을 8비트 정수 연산으로 변환”
– X: “양자화는 데이터 크기를 줄이는 압축 알고리즘의 한 종류”
================================
3. 지연 최소화
ㅇ 정의: AI 시스템의 응답 시간(latency)을 줄이는 기술과 설계 방법.
ㅇ 특징: 파이프라인 최적화, 병렬 처리, 경량화 모델 사용, 네트워크 경로 단축 등 포함.
ㅇ 적합한 경우: 실시간 음성 인식, 자율주행, 스트리밍 분석 등 지연이 치명적인 서비스.
ㅇ 시험 함정: 지연 최소화 = 처리량(throughput) 향상과 동일하다고 착각. 서로 다른 개념임.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “지연 최소화는 응답 시간을 줄이는 목적”
– X: “지연 최소화는 초당 처리 건수를 늘리는 것이 유일한 목표”
================================
4. GPU 최적화
ㅇ 정의: GPU에서 AI 모델 학습 및 추론 성능을 극대화하기 위한 소프트웨어 및 하드웨어 최적화 기법.
ㅇ 특징: CUDA 최적화, 메모리 전송 최소화, 텐서 코어 활용, 배치 크기 조정 등 포함.
ㅇ 적합한 경우: 대규모 딥러닝 학습, 고속 추론 환경, GPU 클러스터 기반 서비스.
ㅇ 시험 함정: GPU 최적화 = GPU 개수 증가와 동일하다고 오해. 실제로는 단일 GPU에서도 성능 향상 가능.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “GPU 최적화는 연산 스케줄링과 메모리 접근 패턴 개선을 포함”
– X: “GPU 최적화는 CPU 성능을 높이는 방법”
—
제가 원하시면 위 학습 노트를 기반으로 **시험용 OX 퀴즈**도 만들어드릴 수 있습니다.
원하실까요? 그러면 기억에 오래 남도록 설계해드리겠습니다.