데이터 전처리: 워크플로우 및 파이프라인 – Feature Store(Tecton.ai
ㅁ 워크플로우 및 파이프라인
1. Feature Store(Tecton.ai)
ㅇ 정의:
– 머신러닝 모델 학습 및 예측 시 사용하는 특징(feature) 데이터를 중앙에서 관리, 저장, 제공하는 시스템으로, Tecton.ai는 이를 자동화·운영화한 SaaS형 플랫폼.
ㅇ 특징:
– 실시간/배치 데이터 모두 지원
– 데이터 소스에서 특징을 추출·변환·저장하는 파이프라인 자동화
– 온라인/오프라인 스토어를 분리하여 학습과 예측 시점의 데이터 일관성 보장
– 재사용 가능한 피처 정의로 개발 속도 향상 및 중복 작업 방지
ㅇ 적합한 경우:
– 여러 모델에서 동일한 피처를 공유·재사용해야 하는 대규모 ML 환경
– 실시간 예측 서비스에서 낮은 지연(latency)으로 피처 제공이 필요한 경우
– 데이터 엔지니어와 ML 엔지니어 간 협업이 필요한 조직
ㅇ 시험 함정:
– Feature Store는 단순한 데이터 저장소가 아니라, 피처 생성·관리·배포 파이프라인까지 포함함
– Tecton.ai는 오픈소스가 아닌 상용 SaaS 솔루션임을 혼동하기 쉬움
– 온라인 스토어와 오프라인 스토어의 차이를 묻는 문제에서 혼동 유발
ㅇ 시험 대비 “패턴 보기” 예시:
– (O) Feature Store는 모델 학습과 예측 모두에서 동일한 피처 정의를 재사용할 수 있게 한다.
– (O) Tecton.ai는 실시간 및 배치 피처 파이프라인을 모두 지원한다.
– (X) Feature Store는 피처를 저장만 하고 생성 기능은 없다.
– (X) Tecton.ai는 오픈소스 기반 무료 솔루션이다.
ㅁ 추가 학습 내용
Feature Store는 데이터 전처리와 머신러닝 파이프라인의 경계에 위치한 핵심 개념으로, 데이터 레이크나 데이터 웨어하우스와 구분되는 특징을 이해해야 한다.
주요 차이점으로는 모델 학습 시점과 예측 시점의 데이터 일관성을 보장하기 위해 피처 버전 관리를 수행한다는 점이 있다.
또한 Feature Store는 온라인 스토어와 오프라인 스토어로 구분되며, 온라인 스토어는 실시간 예측을 위한 저지연 데이터 제공, 오프라인 스토어는 모델 학습을 위한 대규모 배치 데이터 제공 역할을 한다.
Tecton.ai의 경우 AWS, Snowflake, Databricks 등 다양한 플랫폼과의 통합을 지원하며, Kafka나 Kinesis와 연계하여 실시간 스트리밍 데이터를 처리할 수 있다.
시험에서는 MLOps와의 연계성, CI/CD 파이프라인에서 Feature Store가 차지하는 위치, 피처 엔지니어링 자동화 기능과 관련된 시나리오형 문제가 출제될 수 있다.