데이터 전처리: 워크플로우 및 파이프라인 – Feast

ㅁ 워크플로우 및 파이프라인

1. Feast

ㅇ 정의:
– Feast(Feature Store)는 머신러닝 모델 학습과 예측 시 일관된 특징 데이터를 제공하기 위해 설계된 오픈소스 피처 스토어.
– 온라인/오프라인 환경 모두에서 동일한 피처를 제공하여 데이터 불일치 문제를 방지.

ㅇ 특징:
– 온라인 스토어(실시간 예측용)와 오프라인 스토어(배치 학습용) 동시 지원.
– 다양한 데이터 소스(BigQuery, Redis, PostgreSQL 등)와 연동 가능.
– 피처 버저닝 및 메타데이터 관리 기능 제공.
– 모델 서빙 환경과 학습 환경 간 피처 일관성 보장.

ㅇ 적합한 경우:
– 대규모 ML 시스템에서 학습 데이터와 예측 데이터의 피처 일치가 중요한 경우.
– 여러 팀이 동일한 피처를 재사용해야 하는 환경.
– 실시간 피처 제공과 배치 피처 제공을 모두 지원해야 하는 경우.

ㅇ 시험 함정:
– Feast는 데이터 전처리 전체를 수행하는 도구가 아니라, 피처 저장/제공에 특화된 도구임.
– 단순 데이터베이스와 혼동하지 않도록 주의.
– 파이프라인 오케스트레이션 도구(Airflow, Kubeflow 등)와의 역할 차이를 구분해야 함.

ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Feast는 학습과 서빙 환경 간 피처 일관성을 보장한다.
– (O) Feast는 온라인 및 오프라인 피처 스토어를 모두 지원한다.
– (X) Feast는 데이터 전처리 파이프라인 전체를 자동화하는 오케스트레이션 도구이다.
– (X) Feast는 모델 학습 알고리즘을 제공한다.

ㅁ 추가 학습 내용

Feast는 단독 사용보다는 Airflow, Kubeflow, Tecton과 같은 파이프라인 및 오케스트레이션 도구와 함께 활용되는 경우가 많다.
핵심 구성 요소는 다음과 같다.
– Feature Registry: 피처 메타데이터를 저장하는 저장소
– Offline Store: 배치 처리용 피처 저장소
– Online Store: 실시간 서비스용 피처 저장소
– Feature Server: 피처를 제공하는 서버

Feast는 피처를 엔티티(Entity) 단위로 관리하며, 엔티티 키를 기준으로 피처를 조회한다.
Kafka, Kinesis 등과 같은 실시간 스트리밍 데이터 소스와의 연동을 지원한다.
시험에서는 Feast와 단순 데이터 웨어하우스 또는 데이터 레이크의 차이를 구분하는 문제가 자주 출제될 수 있다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*