데이터 전처리: 워크플로우 및 파이프라인 – Featureform
ㅁ 워크플로우 및 파이프라인
ㅇ 정의:
데이터 전처리, 변환, 피처 엔지니어링 과정을 자동화하고 재사용 가능하게 만드는 데이터 파이프라인 관리 방식.
ㅇ 특징:
– 여러 데이터 소스에서 데이터를 추출, 변환, 적재(ETL)하는 과정을 시각적 또는 코드 기반으로 구성
– 재현성과 일관성을 높이고, 팀 간 협업을 용이하게 함
– 스케줄링, 모니터링, 버전 관리 기능 포함 가능
ㅇ 적합한 경우:
– 반복적인 데이터 준비 작업이 필요한 경우
– ML 모델 학습에 필요한 피처를 지속적으로 업데이트해야 하는 경우
– 데이터 품질과 일관성이 중요한 분석 환경
ㅇ 시험 함정:
– 단순 데이터 시각화 툴과 혼동하기 쉬움
– ETL과 워크플로우 관리의 차이를 구분하지 못하는 경우
ㅇ 시험 대비 “패턴 보기” 예시:
O: “데이터 파이프라인을 통해 피처 엔지니어링 과정을 자동화할 수 있다.”
X: “워크플로우는 데이터 시각화 전용 도구이다.”
================================
1. Featureform
ㅇ 정의:
머신러닝 피처 저장소(Feature Store)로, 다양한 데이터 소스에서 생성된 피처를 중앙에서 관리하고 재사용할 수 있도록 지원하는 오픈소스 플랫폼.
ㅇ 특징:
– 피처 정의를 코드로 관리하여 재현성과 버전 관리 용이
– 실시간 및 배치 피처 제공 가능
– 데이터 소스와 모델 학습 환경 간의 일관성 유지
– 다양한 데이터베이스 및 클라우드 환경과 통합 가능
ㅇ 적합한 경우:
– 여러 ML 모델에서 동일한 피처를 재사용해야 하는 경우
– 실시간 예측과 배치 예측 모두 지원해야 하는 경우
– 데이터 사이언스 팀과 엔지니어링 팀 간 협업이 필요한 경우
ㅇ 시험 함정:
– 단순 데이터 저장소(DB)와 혼동
– 피처 엔지니어링 도구와 피처 저장소의 역할 차이를 혼동
– Featureform이 단일 클라우드 환경에서만 동작한다고 오해
ㅇ 시험 대비 “패턴 보기” 예시:
O: “Featureform은 피처를 중앙에서 관리하여 재사용성을 높인다.”
X: “Featureform은 데이터 시각화만을 위한 도구이다.”
ㅁ 추가 학습 내용
Featureform과 같은 피처 저장소는 MLOps 파이프라인에서 데이터 재현성과 모델 성능 유지를 위해 핵심적인 역할을 한다.
Feast, Tecton 등 다른 피처 저장소와 비교할 때는 지원하는 데이터 소스, 오프라인·온라인 스토어 아키텍처, 실시간 처리 능력, 관리 편의성, 배포 및 운영 방식 등을 비교 포인트로 삼아야 한다.
피처 저장소의 오프라인 스토어는 주로 학습 데이터셋 생성과 과거 데이터 분석에 사용되며, 대규모 배치 처리에 적합하다.
온라인 스토어는 실시간 예측 시점에 빠른 피처 조회를 지원하며, 지연 시간이 매우 짧아야 한다.
피처 생성 시점과 제공 시점의 일관성(consistency) 문제는 학습 시 사용한 피처 값과 예측 시 제공되는 피처 값이 동일해야 한다는 점을 의미하며, 이를 보장하지 못하면 모델 성능 저하나 예측 오류가 발생할 수 있다.
워크플로우 및 파이프라인 관리 측면에서 Airflow, Kubeflow 등과 연계하여 피처 생성, 저장, 배포 과정을 자동화할 수 있다. Airflow는 주로 스케줄 기반의 데이터 파이프라인 관리에 강점이 있고, Kubeflow는 머신러닝 워크플로우 전반을 컨테이너 기반으로 관리하는 데 특화되어 있다. 이러한 차이를 이해하면 응용 문제에서 적절한 도구 선택과 설계가 가능하다.