AI 모델 개발: 검색/추천 – Hybrid VectorDB

ㅁ 검색/추천

ㅇ 정의:
벡터 기반 검색과 전통적인 키워드 기반 검색을 결합하여 더 정확하고 유연한 검색 결과를 제공하는 데이터베이스 구조.

ㅇ 특징:
– 벡터 임베딩을 활용한 의미 기반 검색과 BM25, TF-IDF 등 키워드 매칭을 함께 사용.
– 두 검색 결과를 가중치 기반으로 통합하거나 순차적으로 필터링 가능.
– 다국어, 동의어, 유사 의미어 검색에서 높은 성능 발휘.
– 검색 품질과 속도 간의 균형 조정 가능.

ㅇ 적합한 경우:
– 뉴스, 논문, 특허 등 의미와 키워드 모두 중요한 검색 서비스.
– 전자상거래 상품 추천, 고객센터 FAQ 검색.
– 법률, 의료 등 정밀 검색이 필요한 분야.

ㅇ 시험 함정:
– Hybrid VectorDB는 단순히 두 검색 결과를 병합하는 것이 아니라, 검색 전략 설계가 핵심임.
– BM25와 벡터 검색을 무조건 동시에 수행하는 것이 아님.
– 벡터 검색만으로도 충분한 경우가 있지만, 키워드 기반 검색을 보완적으로 쓰는 상황을 이해해야 함.

ㅇ 시험 대비 “패턴 보기” 예시:
O: “Hybrid VectorDB는 의미 기반 검색과 키워드 기반 검색을 결합하여 검색 품질을 향상시킨다.”
X: “Hybrid VectorDB는 키워드 기반 검색만을 사용한다.”
X: “Hybrid VectorDB는 항상 벡터 검색과 키워드 검색을 동시에 수행한다.”

ㅁ 추가 학습 내용

Hybrid VectorDB 학습 시 추가로 알아야 할 내용 정리

1. RRF(Reciprocal Rank Fusion) 알고리즘의 원리와 활용 사례
– 서로 다른 검색 결과를 순위 기반으로 병합하는 방법
– 각 결과의 순위를 역수 형태로 점수화하여 합산
– 하이브리드 검색에서 벡터 검색과 키워드 검색 결과를 결합할 때 유용

2. 가중치 조정 방식과 튜닝 방법
– 예: 벡터 검색 0.7, 키워드 검색 0.3처럼 검색 방식별 비중 설정
– 데이터 특성과 검색 목적에 따라 가중치 실험 및 조정
– A/B 테스트나 오프라인 평가로 최적 비율 도출

3. 인덱스 구조 설계 전략
– 벡터 인덱스: HNSW, IVF 등 근사 최근접 탐색 구조
– 역색인: BM25 기반 키워드 검색 구조
– 두 인덱스를 동시에 관리하여 빠른 검색과 높은 정확도 확보

4. 대규모 데이터 성능 최적화 및 캐싱 전략
– 인덱스 압축, 샤딩, 파티셔닝 등으로 검색 속도 향상
– 자주 조회되는 쿼리나 결과를 캐싱하여 응답 시간 단축
– 메모리 사용량과 검색 지연 시간을 균형 있게 관리

5. 검색 정확도 평가 지표와 Hybrid 검색 적용
– MRR(Mean Reciprocal Rank): 첫 관련 문서의 순위 평가
– NDCG(Normalized Discounted Cumulative Gain): 순위별 관련성 평가
– 하이브리드 검색 결과 품질 측정 및 개선에 활용

6. 서비스 적용 시 쿼리 라우팅 로직과 필터링 조건 설계
– 쿼리 특성에 따라 벡터 검색, 키워드 검색, 하이브리드 검색 중 선택
– 사용자 권한, 지역, 시간 등 조건 기반 필터링 적용
– 효율적 라우팅으로 성능과 정확도 모두 확보

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*