토큰/평가: CER
ㅁ 토큰/평가
ㅇ 정의:
– 토큰화된 텍스트의 정확도를 평가하기 위한 지표로, 주로 문자 단위의 오류율을 측정.
ㅇ 특징:
– Character Error Rate(CER)는 음성 인식 및 OCR에서 자주 사용되며, 삽입, 삭제, 대체 오류를 포함하여 계산됨.
– 계산 공식: CER = (삽입 오류 + 삭제 오류 + 대체 오류) / 총 문자 수.
– 낮을수록 성능이 우수함을 의미.
ㅇ 적합한 경우:
– 문자 단위의 정밀한 오류 분석이 필요한 경우.
– 음성 인식 결과의 품질 평가.
ㅇ 시험 함정:
– CER과 유사한 지표인 WER(Word Error Rate)와 혼동하기 쉬움.
– 오류율이 낮다고 반드시 모델이 사용자에게 적합한 결과를 제공하는 것은 아님.
ㅇ 시험 대비 “패턴 보기” 예시:
– CER은 문장 단위의 오류율이다. (X)
– 삽입, 삭제, 대체 오류를 고려하여 계산한다. (O)
– CER이 높을수록 성능이 좋다. (X)
================================
ㅁ 추가 학습 내용
CER(Character Error Rate)와 WER(Word Error Rate)의 차이점을 명확히 이해하는 것이 중요합니다.
1. WER은 단어 단위로 오류율을 평가합니다. 즉, 텍스트 비교 시 단어를 기본 단위로 삼아 정확도나 오류를 측정합니다.
2. CER은 문자 단위로 오류율을 평가합니다. 텍스트를 비교할 때 개별 문자를 기준으로 정확도나 오류를 계산합니다.
추가적으로, CER 계산 시 Levenshtein Distance(편집 거리)의 개념이 활용됩니다. Levenshtein Distance는 두 문자열 간의 최소 편집 횟수를 측정하는 방법으로, 삽입, 삭제, 교체와 같은 연산을 통해 하나의 문자열을 다른 문자열로 변환하는 데 필요한 최소 작업 수를 계산합니다. 이를 통해 CER은 문자 수준에서 얼마나 많은 수정이 필요한지를 정량화합니다.
이러한 차이점을 학습하고 CER 계산에 사용되는 Levenshtein Distance의 원리를 이해하면 시험 대비에 유리합니다.