AI 모델 개발: 검색/추천 – Sparse Embedding

ㅁ 검색/추천

ㅇ 정의:
희소 임베딩(Sparse Embedding)은 단어, 문서 등의 특징을 고차원 공간에 벡터로 표현하되 대부분의 차원이 0인 형태로 구성하는 방식이다. 전통적인 Bag-of-Words(BoW), TF-IDF 등이 대표적이며, 인덱싱과 검색 속도가 빠른 장점이 있다.

ㅇ 특징:
– 차원이 매우 크고 대부분의 값이 0으로 채워짐
– 역색인 구조를 활용한 빠른 검색 가능
– 의미적 유사도보다는 키워드 기반 매칭에 강점
– 메모리 사용량은 크지만 희소 행렬 최적화를 통해 효율화 가능

ㅇ 적합한 경우:
– 대규모 문서 집합에서 키워드 기반 정확 검색이 필요한 경우
– 법률, 특허, 뉴스 검색 등 전문 용어 기반 검색
– 실시간 검색 응답 속도가 중요한 서비스

ㅇ 시험 함정:
– Sparse Embedding은 항상 메모리 효율적이라고 착각 (X) → 차원 수가 크면 메모리 부담이 큼
– 의미적 유사도 계산에 적합하다고 오해 (X) → 키워드 매칭 중심
– TF-IDF는 Dense Embedding 기법이다 (X) → Sparse Embedding의 대표적 예

ㅇ 시험 대비 “패턴 보기” 예시:
– “TF-IDF는 Sparse Embedding의 한 예이다.” (O)
– “Sparse Embedding은 대부분의 차원이 0인 벡터 표현이다.” (O)
– “Sparse Embedding은 문맥 의미를 잘 포착한다.” (X)
– “역색인 구조와 함께 사용 시 검색 속도가 향상된다.” (O)

ㅁ 추가 학습 내용

Sparse Embedding과 Dense Embedding 비교

Sparse Embedding
– 차원: 고차원
– 데이터 형태: 희소 행렬
– 특징: 키워드 매칭 중심
– 검색 구조: 역색인(Inverted Index) 활용
– 장점: 명확한 키워드 매칭, 해석 용이
– 단점: 차원 수가 많아 메모리 부담 가능
– 대표 알고리즘: BM25 등 고전 검색 랭킹 알고리즘
– 저장·검색 최적화: CSR(Compressed Sparse Row) 등 희소 벡터 전용 자료구조
– 구현 예: Elasticsearch, Lucene 기반 검색

Dense Embedding
– 차원: 저차원
– 데이터 형태: 밀집 벡터
– 특징: 의미적 유사도 계산 중심
– 검색 구조: ANN(Approximate Nearest Neighbor) 검색 활용
– 장점: 의미 기반 검색 가능, 유사도 계산 효율적
– 단점: 학습 데이터와 모델 필요, 해석 난이도 높음
– 표현 방식: 학습 기반 벡터화

Sparse-Dense Hybrid Retrieval
– 개념: Sparse Embedding과 Dense Embedding을 결합하여 검색 성능 향상
– 장점: 키워드 기반 정확성과 의미 기반 확장성 모두 확보
– 단점: 구현 복잡성 증가, 자원 소모 확대 가능

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*