토큰/평가: CER

ㅁ 토큰/평가

ㅇ 정의:
– 토큰화된 텍스트의 정확도를 평가하기 위한 지표로, 주로 문자 단위의 오류율을 측정.

ㅇ 특징:
– Character Error Rate(CER)는 음성 인식 및 OCR에서 자주 사용되며, 삽입, 삭제, 대체 오류를 포함하여 계산됨.
– 계산 공식: CER = (삽입 오류 + 삭제 오류 + 대체 오류) / 총 문자 수.
– 낮을수록 성능이 우수함을 의미.

ㅇ 적합한 경우:
– 문자 단위의 정밀한 오류 분석이 필요한 경우.
– 음성 인식 결과의 품질 평가.

ㅇ 시험 함정:
– CER과 유사한 지표인 WER(Word Error Rate)와 혼동하기 쉬움.
– 오류율이 낮다고 반드시 모델이 사용자에게 적합한 결과를 제공하는 것은 아님.

ㅇ 시험 대비 “패턴 보기” 예시:
– CER은 문장 단위의 오류율이다. (X)
– 삽입, 삭제, 대체 오류를 고려하여 계산한다. (O)
– CER이 높을수록 성능이 좋다. (X)

================================

ㅁ 추가 학습 내용

CER(Character Error Rate)와 WER(Word Error Rate)의 차이점을 명확히 이해하는 것이 중요합니다.

1. WER은 단어 단위로 오류율을 평가합니다. 즉, 텍스트 비교 시 단어를 기본 단위로 삼아 정확도나 오류를 측정합니다.
2. CER은 문자 단위로 오류율을 평가합니다. 텍스트를 비교할 때 개별 문자를 기준으로 정확도나 오류를 계산합니다.

추가적으로, CER 계산 시 Levenshtein Distance(편집 거리)의 개념이 활용됩니다. Levenshtein Distance는 두 문자열 간의 최소 편집 횟수를 측정하는 방법으로, 삽입, 삭제, 교체와 같은 연산을 통해 하나의 문자열을 다른 문자열로 변환하는 데 필요한 최소 작업 수를 계산합니다. 이를 통해 CER은 문자 수준에서 얼마나 많은 수정이 필요한지를 정량화합니다.

이러한 차이점을 학습하고 CER 계산에 사용되는 Levenshtein Distance의 원리를 이해하면 시험 대비에 유리합니다.

답글 남기기

Your email address will not be published. Required fields are marked *.

*
*