토큰/평가: WordPiece

ㅁ 토큰/평가 ㅇ 정의: 토큰화는 텍스트를 작은 단위로 나누는 과정이며, WordPiece는 서브워드 기반 토크나이저로, 텍스트를 의미 있는 작은 단위로 분할하여 어휘 크기를 줄이고 희소성을 해결하는 데 사용된다. ㅇ 특징: WordPiece는 빈도가 높은 서브워드를 우선적으로 선택하며, 어휘 크기를 제한하여 희소성을 줄인다. 주로 BERT와 같은 모델에서 사용되며, ##로 시작하는 토큰은 이전 토큰과 결합된 형태를 나타낸다. ㅇ 적합한

토큰/평가: BLEU

ㅁ 토큰/평가 ㅇ 정의: 토큰화된 텍스트 데이터의 품질을 평가하는 지표로, 주로 기계 번역에서 생성된 텍스트와 참조 텍스트 간의 유사도를 측정하는 데 사용됨. ㅇ 특징: – BLEU는 n-그램의 겹침 비율을 기반으로 계산됨. – 1-그램부터 4-그램까지의 가중치를 조합하여 점수를 산출함. – 짧은 번역에 대한 패널티를 적용하기 위해 Brevity Penalty(BP)를 사용함. ㅇ 적합한 경우: – 기계 번역, 텍스트

토큰/평가: ROUGE

ㅁ 토큰/평가 ㅇ 정의: 텍스트 요약 품질을 평가하기 위해 사용되는 자동화된 지표 중 하나로, 생성된 요약과 참조 요약 간의 겹치는 단어, 구문, 문장 등을 비교하여 유사도를 측정한다. ㅇ 특징: – 주로 요약 생성 모델의 성능 평가에 사용됨. – ROUGE-N, ROUGE-L, ROUGE-W 등 다양한 변형이 존재하며, 각 변형은 특정 유형의 유사도를 측정함. – 단순히 겹치는 단어

토큰/평가: Perplexity

ㅁ 토큰/평가 ㅇ 정의: – 토큰화된 텍스트 데이터의 품질을 평가하거나 모델의 성능을 측정하기 위해 사용되는 지표 또는 방법. ㅇ 특징: – 모델이 데이터 분포를 얼마나 잘 예측하는지를 측정. – 낮을수록 좋은 성능을 의미하며, 높은 퍼플렉서티는 모델이 텍스트를 잘 예측하지 못함을 나타냄. – 로그 확률의 역수를 기반으로 계산됨. ㅇ 적합한 경우: – 언어 모델의 품질을 비교하거나

토큰/평가: CER

ㅁ 토큰/평가 ㅇ 정의: – 토큰화된 텍스트의 정확도를 평가하기 위한 지표로, 주로 문자 단위의 오류율을 측정. ㅇ 특징: – Character Error Rate(CER)는 음성 인식 및 OCR에서 자주 사용되며, 삽입, 삭제, 대체 오류를 포함하여 계산됨. – 계산 공식: CER = (삽입 오류 + 삭제 오류 + 대체 오류) / 총 문자 수. – 낮을수록 성능이 우수함을

IR/Vector: TF-IDF

ㅁ IR/Vector ㅇ 정의: 정보 검색(Information Retrieval)에서 문서와 쿼리 간의 유사도를 계산하기 위해 벡터 공간 모델을 사용하는 기법. ㅇ 특징: – 문서의 단어 빈도와 단어의 중요도를 동시에 고려. – 단순하지만 효율적이며, 계산 비용이 낮음. – 대규모 데이터셋에서도 빠르게 적용 가능. ㅇ 적합한 경우: – 간단한 검색 시스템 구현 시. – 문서 간의 유사도를 빠르게 계산해야

IR/Vector: BM25

ㅁ IR/Vector ㅇ 정의: 정보 검색(Information Retrieval)에서 문서와 쿼리 간의 관련성을 측정하여 문서를 순위화하는 기법. ㅇ 특징: – BM25는 TF-IDF의 확장으로, 문서 길이에 따른 정규화를 통해 불균형을 완화. – 쿼리의 각 단어가 문서에서 얼마나 중요한지를 계산. – k1(자유도)와 b(길이 정규화 매개변수)라는 두 가지 주요 파라미터를 사용. ㅇ 적합한 경우: – 검색 엔진에서 문서와 쿼리의 유사도를

IR/Vector: FAISS

ㅁ IR/Vector ㅇ 정의: 정보 검색(IR)과 벡터 기반 검색(Vector Search)을 결합한 기술로, 대규모 데이터셋에서 유사한 항목을 효율적으로 찾는 데 사용됨. ㅇ 특징: – 벡터 공간 모델을 사용하여 데이터의 유사성을 계산함. – 고차원 데이터에서도 효율적으로 작동하도록 설계됨. – 검색 속도가 빠르고, 대규모 데이터셋에서도 높은 정확도를 제공함. ㅇ 적합한 경우: – 이미지, 텍스트, 음성 등 비정형 데이터의

IR/Vector: HNSW

ㅁ IR/Vector ㅇ 정의: – IR(Information Retrieval)과 Vector 기반 검색은 문서나 데이터의 검색 및 인덱싱을 벡터 공간으로 변환하여 유사도를 계산하는 방식이다. ㅇ 특징: – 효율적인 검색과 관련성이 높은 결과 제공. – 벡터 공간 모델을 활용하여 문서 간의 유사도를 수치화. – 고차원 데이터에서도 성능 유지. ㅇ 적합한 경우: – 대규모 데이터셋에서 빠른 검색이 필요한 경우. –

IR/Vector: Hybrid Search

ㅁ IR/Vector ㅇ 정의: 정보 검색(Information Retrieval)과 벡터 기반 검색(Vector Search)을 결합한 검색 기법으로, 전통적인 키워드 검색과 임베딩 기반 검색을 동시에 활용하여 검색 성능을 향상시키는 방법. ㅇ 특징: – 키워드 기반 검색의 정확성과 벡터 기반 검색의 유사도 매칭을 결합. – 대규모 데이터셋에서 효율적인 검색 가능. – 검색 결과의 다양성과 정확성을 동시에 확보. ㅇ 적합한 경우: