워크플로우 및 파이프라인: Feature Store
ㅁ 워크플로우 및 파이프라인
ㅇ 정의:
데이터 전처리 및 머신러닝 모델 학습을 위한 데이터의 저장, 관리, 제공을 체계적으로 지원하는 시스템.
ㅇ 특징:
– 데이터 재사용성을 높이고 일관성을 유지.
– 실시간 데이터 처리와 배치 처리 모두 지원 가능.
– 데이터 품질 관리와 버전 관리 기능 포함.
ㅇ 적합한 경우:
– 대규모 데이터셋에서 반복적인 데이터 전처리가 필요한 경우.
– 여러 팀이 협업하며 동일한 데이터셋을 사용하는 환경.
– 실시간 데이터 피드백이 요구되는 시스템.
ㅇ 시험 함정:
– Feature Store가 단순한 데이터베이스와 동일하다고 오해할 수 있음.
– 실시간 처리와 배치 처리를 구분하지 못하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
1. Feature Store는 데이터 버전 관리를 지원하지 않는다. (X)
2. Feature Store는 실시간 데이터 처리와 배치 처리를 모두 지원할 수 있다. (O)
================================
1. Feature Store
ㅇ 정의:
머신러닝 모델 학습과 예측에 필요한 피처 데이터를 저장, 검색, 공유할 수 있는 중앙화된 저장소.
ㅇ 특징:
– 데이터 엔지니어와 데이터 과학자 간의 협업을 촉진.
– 데이터 품질 보장 및 피처 중복 방지.
– 피처의 실시간 업데이트 및 버전 관리 가능.
ㅇ 적합한 경우:
– 머신러닝 모델이 주기적으로 업데이트되어야 하는 경우.
– 동일한 피처를 여러 모델에서 재사용해야 하는 경우.
– 데이터 엔지니어와 데이터 과학자 간의 작업 분리가 필요한 경우.
ㅇ 시험 함정:
– Feature Store가 단순히 피처를 저장하는 용도로만 사용된다고 생각할 수 있음.
– 피처 데이터의 실시간 제공 기능을 간과하는 경우.
ㅇ 시험 대비 “패턴 보기” 예시:
1. Feature Store는 머신러닝 모델 학습에 필요한 데이터를 중앙화하여 관리한다. (O)
2. Feature Store는 데이터 품질 관리 기능을 제공하지 않는다. (X)
ㅁ 추가 학습 내용
Feature Store와 관련된 추가 학습 내용을 아래와 같이 정리합니다.
1) Feature Store의 아키텍처:
Feature Store는 주로 두 가지 유형의 저장소로 구성됩니다. 온라인 스토어와 오프라인 스토어는 서로 다른 역할을 수행하며, 데이터의 접근성과 활용 방식에 따라 구분됩니다.
– 온라인 스토어: 실시간 예측 모델을 지원하기 위해 즉각적인 데이터 액세스를 제공합니다. 낮은 지연 시간과 높은 처리 속도가 요구되며, 주로 실시간 추론에 사용됩니다.
– 오프라인 스토어: 대규모 데이터 분석 및 배치 학습을 위해 설계된 저장소입니다. 데이터 준비 및 모델 학습에 필요한 대량의 데이터를 저장하고 관리합니다.
2) 데이터 품질 관리:
Feature Store는 데이터의 품질을 유지하고 향상시키기 위한 다양한 기능을 제공합니다.
– 데이터 중복 제거: 동일한 데이터가 여러 번 저장되는 것을 방지하여 저장 공간을 효율적으로 사용하고 처리 성능을 개선합니다.
– 이상치 처리: 비정상적인 값이나 오류 데이터를 탐지하고 처리하여 모델의 성능 저하를 방지합니다.
– 데이터 표준화: 데이터 형식과 구조를 일관되게 유지하여 다양한 모델과 시스템에서 활용할 수 있도록 합니다.
3) Feature Store의 활용 사례:
Feature Store는 다양한 분야에서 활용되며, 특히 데이터 처리 및 모델 예측이 중요한 시스템에서 두드러집니다.
– 추천 시스템: 사용자 행동 데이터와 선호도를 기반으로 개인화된 추천을 제공하기 위해 Feature Store가 활용됩니다.
– 실시간 예측 모델: 금융 거래, 날씨 예측 등 빠른 응답이 필요한 실시간 모델에서 Feature Store는 핵심적인 역할을 합니다.
– 이상 탐지 시스템: 네트워크 보안, 제조 공정 등에서 비정상적인 패턴을 탐지하기 위해 Feature Store의 데이터 관리 기능이 사용됩니다.