AI 팀 및 조직: 프로젝트와 조직 – ML 팀 구조

ㅁ 프로젝트와 조직 ㅇ 정의: 머신러닝(ML) 프로젝트를 수행하기 위해 구성되는 팀의 역할, 책임, 협업 구조를 정의한 조직 형태. ㅇ 특징: – 데이터 엔지니어, 데이터 사이언티스트, ML 엔지니어, 제품 매니저 등 다양한 역할이 포함됨. – 모델 개발, 데이터 파이프라인 구축, 배포 및 모니터링까지 전 과정에 걸친 협업 필요. – 프로젝트 성격(연구 중심, 제품 중심, PoC 등)에

AI 모델 개발: 대규모 모델 활용 – 프롬프트 엔지니어링

ㅁ 대규모 모델 활용 ㅇ 정의: 대규모 언어모델(LLM)이나 멀티모달 모델에 원하는 출력을 얻기 위해 입력 문장을 설계·최적화하는 기법. ㅇ 특징: – 모델의 파라미터를 변경하지 않고도 출력 품질을 개선 가능 – 문장 구조, 맥락 제공, 예시 포함 여부에 따라 결과가 크게 달라짐 – Zero-shot, Few-shot, Chain-of-Thought 등 다양한 패턴 존재 ㅇ 적합한 경우: – 모델 재학습이

AI 모델 개발: 대규모 모델 활용 – 파인튜닝

ㅁ 대규모 모델 활용 ㅇ 정의: 사전에 대규모 데이터로 학습된 파운데이션 모델을 특정 도메인 또는 과업에 맞게 추가 학습시키는 기법. ㅇ 특징: – 기존 모델의 가중치를 초기값으로 사용하여 학습 시간을 단축. – 적은 양의 데이터로도 높은 성능을 발휘 가능. – 사전 학습된 언어/비전 지식 활용. ㅇ 적합한 경우: – 특정 산업 분야(의료, 금융 등)에 특화된

AI 모델 개발: 대규모 모델 활용 – GPT-3

ㅁ 대규모 모델 활용 1. GPT-3 ㅇ 정의: OpenAI에서 개발한 1750억 개의 파라미터를 가진 대규모 자연어 처리(NLP) 언어 모델로, 사전학습(Pre-training)과 미세조정(Fine-tuning)을 통해 다양한 언어 작업을 수행할 수 있음. ㅇ 특징: – Few-shot, One-shot, Zero-shot 학습이 가능하여 별도의 대규모 라벨링 데이터 없이도 다양한 작업 수행 – Transformer 아키텍처 기반, 대규모 데이터셋으로 학습 – 범용성 높음: 번역,

AI 모델 개발: 시스템 구축 – 오프라인/온라인 테스트

ㅁ 시스템 구축 ㅇ 정의: AI 모델이 새로운 데이터나 환경 변화에 대응할 수 있도록 지속적으로 성능을 검증하고 개선하기 위해 테스트 환경을 설계하고 운영하는 과정. ㅇ 특징: – 모델 배포 전/후로 성능 검증 절차를 구분함. – 데이터 수집, 전처리, 평가 지표 계산, 결과 분석까지 포함. – 테스트 환경은 실제 운영 환경과 유사하게 구성하는 것이 중요. ㅇ

AI 모델 개발: 시스템 구축 – 슬라이딩 윈도우

ㅁ 시스템 구축 ㅇ 정의: 일정 기간 또는 데이터 양을 기준으로 최신 데이터만을 사용하여 모델을 지속적으로 학습시키는 기법. 오래된 데이터는 버리고 새로운 데이터로 교체하여 모델의 최신성을 유지함. ㅇ 특징: – 메모리와 저장소 사용량을 일정하게 유지 가능 – 데이터 분포 변화(Concept Drift)에 빠르게 대응 가능 – 윈도우 크기 설정이 성능에 큰 영향을 미침 ㅇ 적합한 경우:

AI 모델 개발: 시스템 구축 – 배치 학습

ㅁ 시스템 구축 ㅇ 정의: 과거에 수집된 전체 데이터셋을 한 번에 학습하는 방식으로, 모델이 학습 시점에 모든 데이터를 접근할 수 있는 환경에서 사용된다. ㅇ 특징: – 모든 데이터를 메모리에 적재하거나 배치 단위로 불러와 학습 – 학습 과정이 종료되면 모델 파라미터가 고정됨 – 재학습 시 전체 데이터셋을 다시 사용해야 함 ㅇ 적합한 경우: – 데이터가 고정되어

AI 모델 개발: 시스템 구축 – 온라인 학습

ㅁ 시스템 구축 ㅇ 정의: – 온라인 학습(Online Learning)은 데이터가 순차적으로 도착할 때마다 모델을 즉시 업데이트하는 학습 방식으로, 전체 데이터를 한 번에 학습하는 배치 학습과 대비된다. ㅇ 특징: – 데이터 스트림 환경에서 실시간 또는 준실시간 모델 업데이트 가능 – 메모리 사용량이 적고, 새로운 데이터 반영 속도가 빠름 – 데이터 분포 변화(Concept Drift)에 대응 가능 ㅇ

AI 모델 개발: 시스템 구축 – 컨티뉴얼 러닝

ㅁ 시스템 구축 ㅇ 정의: 지속적으로 새로운 데이터나 태스크를 학습하면서 기존에 학습한 지식을 최대한 유지하는 학습 방식으로, 모델이 환경 변화에 적응하도록 시스템을 설계하는 것. ㅇ 특징: – 데이터가 순차적으로 들어오며, 전체 데이터 재학습이 어려운 상황에 적합 – 기존 지식의 망각(catastrophic forgetting) 방지 기술 필요 – 메모리 제약, 연산 효율성 고려 필수 – 온라인 학습, 전이

AI 시스템 구축: 실시간 로그 및 피드백 – 모델 드리프트 감지

ㅁ 실시간 로그 및 피드백 ㅇ 정의: – 실시간으로 모델의 입력, 출력, 성능 지표를 수집하고 이를 기반으로 모델 상태를 모니터링하는 기법. – 운영 환경에서 발생하는 데이터 변화를 즉시 반영하여 품질 저하를 방지. ㅇ 특징: – 데이터 파이프라인과 연계되어 즉각적인 이상 탐지가 가능. – 로그 데이터는 주로 스트리밍 처리 기술(Kafka, Flink 등)로 수집. ㅇ 적합한 경우: