토큰/평가: BLEU
ㅁ 토큰/평가
ㅇ 정의:
토큰화된 텍스트 데이터의 품질을 평가하는 지표로, 주로 기계 번역에서 생성된 텍스트와 참조 텍스트 간의 유사도를 측정하는 데 사용됨.
ㅇ 특징:
– BLEU는 n-그램의 겹침 비율을 기반으로 계산됨.
– 1-그램부터 4-그램까지의 가중치를 조합하여 점수를 산출함.
– 짧은 번역에 대한 패널티를 적용하기 위해 Brevity Penalty(BP)를 사용함.
ㅇ 적합한 경우:
– 기계 번역, 텍스트 요약 등에서 생성된 텍스트의 품질을 빠르게 평가하고자 할 때.
– 참조 텍스트가 다수 존재하는 경우.
ㅇ 시험 함정:
– BLEU 점수가 높더라도 반드시 문장이 자연스럽거나 문법적으로 정확한 것은 아님.
– 참조 텍스트의 다양성이 부족할 경우 BLEU 점수가 낮게 나올 수 있음.
– BLEU는 문맥적 의미를 평가하지 못하므로, 단순히 n-그램의 겹침만으로 점수를 산출함.
ㅇ 시험 대비 “패턴 보기” 예시:
1. BLEU는 기계 번역 품질 평가에서 사용되는 대표적인 지표이다. (O)
2. BLEU는 단어의 문법적 정확성을 평가하는 데 중점을 둔다. (X)
3. BLEU는 n-그램 기반으로 번역 품질을 평가하며, 짧은 번역에 대한 패널티를 포함한다. (O)
4. BLEU는 문맥적 의미를 정확히 평가할 수 있다. (X)
ㅁ 추가 학습 내용
BLEU 지표는 기계 번역 성능 평가에서 널리 사용되지만 몇 가지 한계가 있습니다. 이러한 한계를 보완하기 위해 ROUGE, METEOR, BERTScore와 같은 대안 지표들이 활용되고 있습니다. 각각의 지표는 특정한 관점에서 텍스트 유사성을 평가하며, BLEU가 놓칠 수 있는 부분을 보완합니다.
BLEU 점수는 주로 n-그램 매칭을 기반으로 동작하며, n-그램의 선택이 결과에 큰 영향을 미칩니다. 예를 들어, 1-그램을 사용하면 단어 수준의 매칭만 평가하고, 4-그램을 사용하면 더 긴 문맥을 반영할 수 있습니다. 따라서 n-그램의 크기를 시험 대비 시나리오에 맞게 조정하는 것이 중요합니다. 또한, BLEU 점수는 참조 텍스트의 수에 따라 달라질 수 있습니다. 참조 텍스트가 많을수록 다양한 표현을 포괄할 가능성이 높아져 점수가 더 정확하게 평가될 수 있습니다.
시험 대비를 위해 BLEU 외의 지표들에 대한 기본적인 이해와 함께, BLEU 점수 계산 시 n-그램 선택 및 참조 텍스트 수가 결과에 미치는 영향을 분석하고 이를 실제 문제에 적용하는 연습을 해보는 것이 필요합니다.