AI: 인프라 및 자동화 – Feature Store 구현

ㅁ 인프라 및 자동화

ㅇ 정의:
Feature Store는 머신러닝 모델 학습과 예측에 필요한 피처(feature)를 중앙에서 저장, 관리, 재사용할 수 있도록 하는 데이터 인프라 구성 요소이다.

ㅇ 특징:
– 온라인(실시간) 및 오프라인(배치) 피처 저장소를 모두 지원하여 학습과 예측 간 일관성을 유지한다.
– 데이터 엔지니어, 데이터 사이언티스트 간 협업을 촉진하고 중복 계산을 방지한다.
– 데이터 품질 관리, 버전 관리, 접근 제어 기능을 포함한다.

ㅇ 적합한 경우:
– 여러 모델에서 동일한 피처를 재사용해야 하는 경우
– 실시간 예측 서비스에서 낮은 지연 시간으로 피처를 제공해야 하는 경우
– 모델 학습과 예측 시점의 데이터 불일치 문제를 줄이고 싶은 경우

ㅇ 시험 함정:
– 단순 데이터베이스와의 차이를 묻는 문제에서, Feature Store는 ML 전용 기능(피처 버전 관리, 온라인/오프라인 동기화 등)을 제공한다는 점을 간과하기 쉽다.
– Feature Store를 데이터 레이크나 데이터 웨어하우스와 혼동하는 경우가 많다.

ㅇ 시험 대비 “패턴 보기” 예시:
– O: Feature Store는 온라인/오프라인 저장소를 모두 지원하여 학습-예측 데이터 불일치를 줄인다.
– X: Feature Store는 모델 파라미터를 저장하는 전용 저장소이다.

ㅁ 추가 학습 내용

Feature Store는 오픈소스와 상용 솔루션이 있으며, 대표적으로 Feast, Tecton, Hopsworks가 있다. 온라인 저장소로는 Redis, Cassandra, DynamoDB 등이 사용되고, 오프라인 저장소로는 BigQuery, Snowflake, S3 등이 활용된다. 피처 엔지니어링 파이프라인과 통합되어 자동 업데이트를 지원하며, 데이터 스키마 변경 시 호환성 관리가 중요하다. 시험에서는 데이터 불일치(Data Leakage) 방지 개념과 함께 출제될 수 있으며, MLOps 파이프라인에서 모델 학습 전 단계에 위치하고 그 역할을 명확히 구분해야 한다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*