AI: 인프라 및 자동화
ㅁ 인프라 및 자동화
1. Kubernetes Operators for ML
ㅇ 정의:
– 머신러닝 워크로드를 Kubernetes 환경에서 자동 배포, 확장, 관리하기 위해 Custom Resource Definition(CRD)과 Controller를 활용하는 운영 패턴.
ㅇ 특징:
– ML 파이프라인 구성 요소(데이터 처리, 학습, 배포)를 쿠버네티스 네이티브 방식으로 관리.
– 선언형(Declarative) 설정으로 재현성과 일관성 보장.
– Auto-healing, 롤링 업데이트, 자원 최적화 가능.
ㅇ 적합한 경우:
– ML 모델 학습/배포를 반복적으로 수행하며, 환경 표준화와 자동화를 원하는 경우.
– 다수의 모델과 데이터 파이프라인을 동시에 운영하는 기업 환경.
ㅇ 시험 함정:
– Operators는 단순한 Helm Chart 배포와 혼동하기 쉽다(O: CRD 기반 제어, X: 단순 YAML 배포).
– MLflow, Kubeflow Pipelines와 Operators의 관계를 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– “Kubernetes Operators는 ML 워크로드를 자동으로 관리하기 위해 CRD를 사용한다” (O)
– “Kubernetes Operators는 Dockerfile을 자동 생성하는 기능이 핵심이다” (X)
2. Feature Store Implementation
ㅇ 정의:
– 머신러닝 모델에서 사용하는 피처를 중앙에서 저장, 관리, 제공하는 시스템 구현.
ㅇ 특징:
– 온라인/오프라인 피처 저장소를 분리하여 실시간 추론과 배치 학습 모두 지원.
– 데이터 품질, 재현성, 버전 관리 기능 포함.
– 데이터 엔지니어, ML 엔지니어 간 협업 효율성 향상.
ㅇ 적합한 경우:
– 여러 모델이 동일한 피처를 재사용하는 경우.
– 실시간 예측에서 지연 시간을 최소화해야 하는 경우.
ㅇ 시험 함정:
– Feature Store는 단순 데이터베이스가 아니라 피처 엔지니어링, 버전관리, 접근제어를 포함한다.
– 피처 스토어와 데이터 웨어하우스의 차이를 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– “Feature Store는 동일한 피처를 여러 모델이 재사용할 수 있도록 중앙에서 관리한다” (O)
– “Feature Store는 모델 파라미터를 저장하는 전용 시스템이다” (X)
3. Model Explainability Logging
ㅇ 정의:
– 모델 예측 결과와 함께 예측 근거(특성 중요도, SHAP 값 등)를 기록하여 추후 분석 및 규제 준수를 지원하는 로깅 방식.
ㅇ 특징:
– 예측값뿐 아니라 모델 해석 지표를 함께 저장.
– 규제 산업(금융, 의료)에서 필수.
– 디버깅과 모델 개선에 활용.
ㅇ 적합한 경우:
– 모델 의사결정 근거를 추적해야 하는 경우.
– AI 윤리, 투명성 요구사항이 있는 프로젝트.
ㅇ 시험 함정:
– Explainability Logging은 단순 로그 저장이 아니라 해석 가능성 데이터까지 포함.
– SHAP, LIME 등 해석 기법과 로깅의 관계를 혼동.
ㅇ 시험 대비 “패턴 보기” 예시:
– “Model Explainability Logging은 예측 결과와 함께 해당 예측의 근거 데이터를 저장한다” (O)
– “Model Explainability Logging은 모델 학습 속도를 높이기 위한 기법이다” (X)
ㅁ 추가 학습 내용
Kubernetes Operators for ML
– CRD(Custom Resource Definition)와 Controller의 역할 차이: CRD는 쿠버네티스에서 새로운 리소스 타입을 정의하는 역할을 하며, Controller는 해당 리소스의 상태를 원하는 상태로 유지하도록 동작을 제어한다.
– Helm Chart와의 차이: Helm Chart는 애플리케이션 배포를 위한 패키징 도구이고, Operator는 애플리케이션의 라이프사이클 관리까지 자동화한다.
– Kubeflow와의 연계 방식: Kubeflow의 컴포넌트 배포 및 관리에 Operator를 활용하여 ML 워크로드를 쿠버네티스 환경에서 효율적으로 운영한다.
Feature Store Implementation
– 온라인/오프라인 스토어 동기화 전략: 실시간 예측용 온라인 스토어와 학습용 오프라인 스토어 간의 데이터 일관성을 유지하는 방법.
– 데이터 드리프트 감지 기능: 입력 데이터 분포 변화 감지로 모델 성능 저하를 예방.
– 피처 파이프라인 자동화: 데이터 수집, 전처리, 저장 과정을 자동화하여 재현성과 효율성을 높인다.
Model Explainability Logging
– 법적 요구사항과의 연관성: GDPR, 금융감독 규제 등에서 모델 결정 과정의 설명 가능성과 기록 보관을 요구.
– 로깅 데이터 저장소 설계: ElasticSearch, BigQuery 등 검색·분석이 용이한 저장소 선택과 구조 설계.
– 성능 부하 최소화 방법: 비동기 로깅, 샘플링, 로그 집계 등을 통해 시스템 성능 저하 방지.
세 항목 모두 MLOps 파이프라인 내에서의 위치와 상호작용 관계를 시각적으로 이해하면 복합형 문제 대비에 유리하다.