AI 시스템 구축: 자동화 – Feature Store

ㅁ 자동화

1. Feature Store

ㅇ 정의:
머신러닝 모델 학습 및 예측에 사용되는 피처(특징) 데이터를 중앙에서 저장·관리·공유하는 시스템으로, 데이터 엔지니어와 데이터 사이언티스트 간 협업을 촉진하고 피처 재사용성을 높인다.

ㅇ 특징:
– 실시간 및 배치 피처 제공 가능
– 데이터 전처리 로직과 결과를 저장하여 일관성 유지
– 온라인/오프라인 저장소를 분리해 학습과 예측 환경 최적화
– 메타데이터 관리 및 버전 관리 지원

ㅇ 적합한 경우:
– 여러 모델에서 동일한 피처를 재사용해야 하는 경우
– 실시간 예측 서비스에서 지연 시간을 최소화해야 하는 경우
– 데이터 품질과 일관성이 중요한 대규모 ML 파이프라인

ㅇ 시험 함정:
– 단순 데이터 웨어하우스와 혼동할 수 있음 (Feature Store는 ML에 특화)
– 피처 엔지니어링 과정 전체를 자동화하는 것은 아님 (저장/관리 중심)
– 온라인 스토어만 존재한다고 생각하는 오류

ㅇ 시험 대비 “패턴 보기” 예시:
O: Feature Store는 모델 학습과 예측에 동일한 피처 정의를 제공하여 데이터 일관성을 보장한다.
X: Feature Store는 데이터 수집부터 모델 배포까지 모든 ML 파이프라인을 자동화한다.

ㅁ 추가 학습 내용

Feature Store는 머신러닝 모델에 필요한 피처 데이터를 효율적으로 저장, 관리, 제공하는 시스템으로, 주요 구성 요소는 다음과 같다.
1. 온라인 스토어: 실시간 예측 서빙을 위해 낮은 지연 시간으로 피처를 제공하는 저장소.
2. 오프라인 스토어: 모델 학습 및 배치 예측을 위해 대규모 히스토리컬 데이터를 저장하는 저장소.
3. 메타데이터 저장소: 피처 정의, 스키마, 버전, 생성 이력 등 메타 정보를 관리하는 저장소.

동작 방식은 일반적으로 ETL(Extract-Transform-Load) 또는 ELT(Extract-Load-Transform) 과정을 통해 원천 데이터에서 피처를 추출하고, 피처 변환 파이프라인을 거쳐 온라인 및 오프라인 스토어에 적재한다.

대표 구현 사례로는 Feast, Tecton, AWS SageMaker Feature Store가 있으며, 각기 다른 환경과 요구사항에 맞추어 사용된다.

운영 단계에서 중요한 활용 포인트는 다음과 같다.
– 데이터 유효성 검증: 피처 값의 형식, 범위, 결측 여부 등을 검증하여 품질 보장
– 피처 버전 관리: 동일 피처의 변경 이력 추적 및 재현성 확보
– 데이터 드리프트 감지: 입력 데이터 분포 변화 모니터링 및 알림

시험에서 자주 다루어지는 주제 중 하나는 온라인 스토어와 오프라인 스토어 간의 데이터 불일치 문제, 즉 point-in-time correctness이다. 이는 학습 시점과 예측 시점의 데이터가 일치하지 않아 발생하는 문제로, 이를 방지하기 위해 타임스탬프 기반 조인, 레이트 어레이빙(Late Arriving Data) 처리, 백필(backfill) 전략 등이 활용된다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*