AI 시스템 구축: AutoML/자동화
ㅁ AutoML/자동화
ㅇ 정의:
– 데이터 전처리, 모델 선택, 하이퍼파라미터 튜닝, 평가 등을 자동화하여 비전문가도 머신러닝 모델을 구축할 수 있게 하는 기술.
ㅇ 특징:
– 다양한 알고리즘 후보를 자동으로 탐색하고 최적 조합을 선택.
– 반복 실험과 튜닝 과정 단축.
– GUI 기반 또는 코드 최소화 환경 제공.
ㅇ 적합한 경우:
– 빠른 프로토타이핑이 필요한 경우.
– 데이터 과학 인력이 부족한 조직.
ㅇ 시험 함정:
– AutoML이 모든 문제에서 최적 성능을 보장하는 것은 아님.
– 데이터 품질이 낮으면 자동화 효과 제한.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “AutoML은 모델 선택과 하이퍼파라미터 튜닝을 자동화한다.”
– X: “AutoML은 데이터 품질을 자동으로 향상시킨다.”
================================
1. AutoML
ㅇ 정의:
– 머신러닝 파이프라인의 여러 단계를 자동화하는 도구 및 기법.
ㅇ 특징:
– 알고리즘 탐색, 파라미터 최적화, 모델 앙상블 가능.
– 코드 작성 최소화.
ㅇ 적합한 경우:
– 빠른 모델 개발과 비교 실험이 필요한 경우.
ㅇ 시험 함정:
– AutoML이 항상 최고 성능을 내는 것은 아님.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “AutoML은 하이퍼파라미터 튜닝을 자동화한다.”
– X: “AutoML은 데이터 전처리를 전혀 필요로 하지 않는다.”
================================
2. MLOps
ㅇ 정의:
– 머신러닝 모델의 개발, 배포, 운영, 모니터링을 DevOps 원칙에 따라 자동화·관리하는 방법론.
ㅇ 특징:
– 모델 버전 관리, 재현성 확보, 배포 파이프라인 자동화.
– 데이터와 모델의 지속적 통합·배포.
ㅇ 적합한 경우:
– 모델을 지속적으로 업데이트하고 운영 환경에서 안정적으로 제공해야 하는 경우.
ㅇ 시험 함정:
– MLOps는 단순히 모델 배포만을 의미하지 않음.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “MLOps는 모델 배포와 모니터링을 포함한다.”
– X: “MLOps는 데이터 수집 단계와 무관하다.”
================================
3. Feature Store
ㅇ 정의:
– 머신러닝 모델에서 사용하는 특징(feature)을 중앙에서 저장·관리·공유하는 시스템.
ㅇ 특징:
– 온라인/오프라인 저장소 분리 가능.
– 재사용성과 일관성 확보.
ㅇ 적합한 경우:
– 여러 모델이 동일한 특징을 공유하는 경우.
– 실시간 예측과 배치 예측 모두 사용하는 경우.
ㅇ 시험 함정:
– Feature Store는 단순 데이터베이스가 아님.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “Feature Store는 모델 간 특징 재사용을 가능하게 한다.”
– X: “Feature Store는 원시 데이터를 그대로 저장한다.”
================================
4. CI/CD
ㅇ 정의:
– Continuous Integration/Continuous Deployment, 코드 변경 사항을 자동으로 통합하고 배포하는 소프트웨어 개발 방식.
ㅇ 특징:
– 자동화된 빌드, 테스트, 배포.
– 변경 사항의 빠른 반영과 오류 조기 발견.
ㅇ 적합한 경우:
– 빈번한 코드 변경과 빠른 배포가 필요한 경우.
ㅇ 시험 함정:
– CI/CD는 테스트를 생략하는 것이 아님.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: “CI/CD는 코드 변경을 자동으로 배포까지 연결한다.”
– X: “CI/CD는 운영 환경에서 수동 배포를 전제로 한다.”
ㅁ 추가 학습 내용
[정리]
AutoML:
– 대표 프레임워크 예시: Google Cloud AutoML, H2O.ai, Auto-sklearn
– 한계점: 특수 도메인 데이터에 대한 성능 저하 가능성, 비정형 데이터(이미지·음성·텍스트 등) 처리의 한계
MLOps:
– 주요 도구: 데이터 버전 관리(DVC), MLflow, Kubeflow
– CI/CD와의 차이점: 소프트웨어 배포 중심의 CI/CD와 달리, MLOps는 데이터·모델·실험 관리 포함
– 연계 방식: CI/CD 파이프라인에 데이터 및 모델 검증 단계를 포함하여 운영
Feature Store:
– 구현 사례: Feast, Tecton
– 핵심 이슈: 온라인 스토어와 오프라인 스토어 간의 데이터 동기화 문제
– 보완 전략: 데이터 타임스탬프 관리, 동일한 변환 로직 공유, 주기적 검증
CI/CD (ML 환경):
– 차별점: 모델 성능 검증 단계 포함, 데이터 드리프트 감지 및 재학습 트리거 설정
– 목적: 지속적인 모델 품질 유지와 자동화된 배포
[시험 대비 체크리스트]
1. AutoML 주요 프레임워크 이름과 특징을 말할 수 있는가?
2. AutoML의 한계점(특수 도메인, 비정형 데이터 처리 한계)을 설명할 수 있는가?
3. MLOps에서 DVC, MLflow, Kubeflow의 역할을 구분할 수 있는가?
4. MLOps와 전통적인 CI/CD의 차이점을 명확히 설명할 수 있는가?
5. Feature Store의 목적과 Feast, Tecton의 사례를 알고 있는가?
6. 온라인/오프라인 스토어 동기화 문제와 보완 전략을 설명할 수 있는가?
7. ML 환경에서의 CI/CD 특징(모델 성능 검증, 데이터 드리프트 감지, 재학습 트리거)을 나열할 수 있는가?