AI 시스템 구축: 자동화 – Feature Store
ㅁ 자동화
1. Feature Store
ㅇ 정의:
머신러닝 모델 학습 및 예측에 사용되는 피처(특징) 데이터를 중앙에서 저장·관리·공유하는 시스템으로, 데이터 엔지니어와 데이터 사이언티스트 간 협업을 촉진하고 피처 재사용성을 높인다.
ㅇ 특징:
– 실시간 및 배치 피처 제공 가능
– 데이터 전처리 로직과 결과를 저장하여 일관성 유지
– 온라인/오프라인 저장소를 분리해 학습과 예측 환경 최적화
– 메타데이터 관리 및 버전 관리 지원
ㅇ 적합한 경우:
– 여러 모델에서 동일한 피처를 재사용해야 하는 경우
– 실시간 예측 서비스에서 지연 시간을 최소화해야 하는 경우
– 데이터 품질과 일관성이 중요한 대규모 ML 파이프라인
ㅇ 시험 함정:
– 단순 데이터 웨어하우스와 혼동할 수 있음 (Feature Store는 ML에 특화)
– 피처 엔지니어링 과정 전체를 자동화하는 것은 아님 (저장/관리 중심)
– 온라인 스토어만 존재한다고 생각하는 오류
ㅇ 시험 대비 “패턴 보기” 예시:
O: Feature Store는 모델 학습과 예측에 동일한 피처 정의를 제공하여 데이터 일관성을 보장한다.
X: Feature Store는 데이터 수집부터 모델 배포까지 모든 ML 파이프라인을 자동화한다.
ㅁ 추가 학습 내용
Feature Store는 머신러닝 모델에 필요한 피처 데이터를 효율적으로 저장, 관리, 제공하는 시스템으로, 주요 구성 요소는 다음과 같다.
1. 온라인 스토어: 실시간 예측 서빙을 위해 낮은 지연 시간으로 피처를 제공하는 저장소.
2. 오프라인 스토어: 모델 학습 및 배치 예측을 위해 대규모 히스토리컬 데이터를 저장하는 저장소.
3. 메타데이터 저장소: 피처 정의, 스키마, 버전, 생성 이력 등 메타 정보를 관리하는 저장소.
동작 방식은 일반적으로 ETL(Extract-Transform-Load) 또는 ELT(Extract-Load-Transform) 과정을 통해 원천 데이터에서 피처를 추출하고, 피처 변환 파이프라인을 거쳐 온라인 및 오프라인 스토어에 적재한다.
대표 구현 사례로는 Feast, Tecton, AWS SageMaker Feature Store가 있으며, 각기 다른 환경과 요구사항에 맞추어 사용된다.
운영 단계에서 중요한 활용 포인트는 다음과 같다.
– 데이터 유효성 검증: 피처 값의 형식, 범위, 결측 여부 등을 검증하여 품질 보장
– 피처 버전 관리: 동일 피처의 변경 이력 추적 및 재현성 확보
– 데이터 드리프트 감지: 입력 데이터 분포 변화 모니터링 및 알림
시험에서 자주 다루어지는 주제 중 하나는 온라인 스토어와 오프라인 스토어 간의 데이터 불일치 문제, 즉 point-in-time correctness이다. 이는 학습 시점과 예측 시점의 데이터가 일치하지 않아 발생하는 문제로, 이를 방지하기 위해 타임스탬프 기반 조인, 레이트 어레이빙(Late Arriving Data) 처리, 백필(backfill) 전략 등이 활용된다.