토큰/평가: Perplexity
ㅁ 토큰/평가
ㅇ 정의:
– 토큰화된 텍스트 데이터의 품질을 평가하거나 모델의 성능을 측정하기 위해 사용되는 지표 또는 방법.
ㅇ 특징:
– 모델이 데이터 분포를 얼마나 잘 예측하는지를 측정.
– 낮을수록 좋은 성능을 의미하며, 높은 퍼플렉서티는 모델이 텍스트를 잘 예측하지 못함을 나타냄.
– 로그 확률의 역수를 기반으로 계산됨.
ㅇ 적합한 경우:
– 언어 모델의 품질을 비교하거나 최적화할 때.
– 새로운 데이터셋에 대한 모델 적합성을 평가할 때.
ㅇ 시험 함정:
– 퍼플렉서티 값이 낮다고 항상 실제 응용 성능이 좋은 것은 아님.
– 데이터 전처리 상태에 따라 퍼플렉서티 값이 왜곡될 수 있음.
– 퍼플렉서티 계산 시 로그 확률의 단위(자연로그 vs 밑이 2인 로그)를 혼동할 가능성.
ㅇ 시험 대비 “패턴 보기” 예시:
– O: 퍼플렉서티는 언어 모델의 성능을 평가하는 데 사용되며, 값이 낮을수록 모델의 성능이 좋음을 나타낸다.
– X: 퍼플렉서티 값이 높을수록 모델의 예측 성능이 뛰어나다.
ㅁ 추가 학습 내용
1. 퍼플렉서티와 BLEU, ROUGE의 차이점 및 사용 사례 비교:
– 퍼플렉서티는 텍스트 생성 모델의 성능을 평가하는 데 사용되는 지표로, 모델이 테스트 데이터에 대해 얼마나 잘 예측하는지를 나타냅니다. 값이 낮을수록 모델이 더 나은 성능을 보인다고 해석됩니다. 주로 언어 모델 평가에서 사용됩니다.
– BLEU는 기계 번역 모델의 성능을 평가하기 위해 고안된 지표로, 생성된 텍스트와 참조 텍스트 간의 n-그램 일치를 측정합니다. 주로 번역 품질 평가에 사용됩니다.
– ROUGE는 요약 모델 평가에 주로 사용되며, 생성된 텍스트와 참조 텍스트 간의 공통 단어 또는 n-그램 비율을 측정합니다. 요약의 포괄성과 정확성을 평가하는 데 적합합니다.
– 사용 사례 비교: 퍼플렉서티는 모델 학습 중 성능 추적에 유용하며, BLEU와 ROUGE는 생성된 텍스트의 품질을 평가하는 데 적합합니다. 퍼플렉서티는 모델 내부의 확률적 성능을 측정하고, BLEU와 ROUGE는 외부 참조와의 일치를 측정한다는 점에서 차이가 있습니다.
2. 퍼플렉서티 계산 과정과 로그 확률의 수학적 의미를 이해하기 위한 예제:
– 퍼플렉서티는 언어 모델이 예측한 확률의 역수를 기반으로 계산됩니다. 수식은 exp(-1/N * Σ log(P(w_i)))로 표현됩니다. 여기서 P(w_i)는 모델이 단어 w_i를 예측한 확률입니다.
– 예제: “I love NLP”라는 문장이 있다고 가정하고, 모델이 각 단어의 확률을 P(“I”)=0.5, P(“love”)=0.3, P(“NLP”)=0.2로 예측했다고 하면, 퍼플렉서티는 exp(-1/3 * (log(0.5) + log(0.3) + log(0.2)))로 계산됩니다. 이 값은 모델이 문장을 얼마나 잘 예측했는지 나타냅니다.
– 로그 확률의 수학적 의미: 로그는 확률 값을 더 작은 값으로 변환하여 계산을 용이하게 합니다. 로그 확률의 합은 전체 문장의 확률을 곱하는 것과 동일한 효과를 가지며, 퍼플렉서티 계산에서 중요한 역할을 합니다.
3. 퍼플렉서티 값이 낮더라도 오버피팅 가능성이 있을 수 있음을 명시:
– 퍼플렉서티 값이 낮다는 것은 모델이 학습 데이터에 대해 높은 정확도를 보인다는 것을 의미하지만, 이는 학습 데이터에 과도하게 적응한 결과일 수 있습니다. 즉, 모델이 학습 데이터에 오버피팅되어 실제 테스트 데이터에서는 성능이 저하될 가능성이 있습니다.
– 따라서 모델 평가 시에는 퍼플렉서티뿐만 아니라 BLEU, ROUGE와 같은 외부 평가 지표를 함께 사용하는 것이 중요합니다. 이를 통해 모델의 일반화 성능과 생성 텍스트의 품질을 종합적으로 평가할 수 있습니다.