AI 시스템 구축: AutoML/자동화
ㅁ AutoML/자동화
1. AutoML
ㅇ 정의:
– 데이터 전처리, 모델 선택, 하이퍼파라미터 튜닝, 성능 평가를 자동화하여 최소한의 인적 개입으로 최적의 모델을 생성하는 기술.
ㅇ 특징:
– 비전문가도 모델 개발 가능
– 다양한 알고리즘 후보를 자동 탐색
– 반복적인 실험 과정 단축
– GUI 기반 툴과 API 제공
ㅇ 적합한 경우:
– 데이터 사이언스 인력이 부족한 환경
– 빠른 프로토타입 제작 필요 시
– 다수의 모델 후보를 단기간에 비교해야 하는 경우
ㅇ 시험 함정:
– AutoML은 모든 문제를 완벽하게 해결하지 않음
– 데이터 품질이 낮으면 자동화 효과 미미
– 완전 무코딩 환경이 아님(전처리/해석 필요)
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “AutoML은 하이퍼파라미터 튜닝을 자동으로 수행할 수 있다.”
– X: “AutoML은 데이터 품질이 낮아도 항상 높은 성능을 보장한다.”
2. MLOps
ㅇ 정의:
– 머신러닝 모델의 개발부터 배포, 운영, 모니터링까지 전 과정을 자동화하고 표준화하는 방법론.
ㅇ 특징:
– DevOps 개념을 ML에 적용
– 지속적 통합(CI)과 지속적 배포(CD) 포함
– 데이터 버전 관리, 모델 버전 관리 필요
ㅇ 적합한 경우:
– 모델이 자주 업데이트되는 환경
– 대규모 ML 서비스 운영
– 협업이 필요한 ML 프로젝트
ㅇ 시험 함정:
– MLOps는 단순히 모델 배포만 의미하지 않음
– 모델 성능 모니터링과 재학습 자동화 포함
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “MLOps는 모델 버전 관리와 배포 자동화를 포함한다.”
– X: “MLOps는 모델 개발 단계만 다룬다.”
3. Feature Store
ㅇ 정의:
– 머신러닝 모델 학습과 예측에 사용되는 피처를 중앙에서 저장, 관리, 제공하는 시스템.
ㅇ 특징:
– 피처 재사용 가능
– 온라인/오프라인 피처 동기화
– 데이터 품질 관리 용이
ㅇ 적합한 경우:
– 여러 모델이 동일한 피처를 공유하는 경우
– 실시간 예측 서비스 운영
ㅇ 시험 함정:
– Feature Store는 원천 데이터 저장소가 아님
– 피처 생성 로직과 버전 관리 중요
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Feature Store는 모델 학습과 예측에 동일한 피처를 제공한다.”
– X: “Feature Store는 원천 데이터를 그대로 저장한다.”
4. CI/CD
ㅇ 정의:
– 코드 변경 사항을 자동으로 통합(Continuous Integration)하고, 이를 자동으로 배포(Continuous Deployment/Delivery)하는 프로세스.
ㅇ 특징:
– 코드 품질 유지
– 배포 속도 향상
– 자동화된 테스트 포함
ㅇ 적합한 경우:
– 빈번한 코드 변경이 있는 프로젝트
– 빠른 기능 배포가 중요한 서비스
ㅇ 시험 함정:
– CI/CD는 ML 전용 기술이 아님
– ML에서는 데이터와 모델의 변경도 관리해야 함
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “CI/CD는 코드 변경 사항을 자동으로 테스트하고 배포한다.”
– X: “CI/CD는 머신러닝 모델 학습을 자동화하는 기술이다.”
ㅁ 추가 학습 내용
AutoML 학습 내용
– NAS(Neural Architecture Search) 개념과 활용 방법
– Auto-Feature Engineering 기법과 자동화 흐름 이해
– AutoML 플랫폼 예시: Google Cloud AutoML, H2O.ai, Auto-sklearn의 특징과 비교
MLOps 학습 내용
– 파이프라인 오케스트레이션 도구: Kubeflow, MLflow, TFX의 기능과 사용 사례
– 모니터링 도구: Prometheus, Grafana의 역할과 주요 지표 모니터링 방법
Feature Store 학습 내용
– 온라인 저장소와 오프라인 저장소의 차이와 활용 시나리오
– TTL(Time To Live) 관리 개념과 필요성
– 피처 엔지니어링 파이프라인과 Feature Store 연계 방식
CI/CD 학습 내용
– ML 환경에서의 CI/CD(MLOps CI/CD) 개념과 전통적 CI/CD와의 차이
– Canary Deployment 전략과 장단점
– Blue-Green Deployment 전략과 장단점