요약
- BLEU: n-그램 기반 정확도를 평가, 기계 번역에 주로 사용됨.
- BERTScore: BERT 임베딩을 활용한 의미적 유사성 평가, 의미적 일치에 민감.
- ROUGE-1/2/L: 1-그램, 2-그램, LCS 기반 일치율로, 텍스트 요약 및 번역의 정확성(재현율 중심)을 평가.
BLEU와 BERTScore, ROUGE-1, ROUGE-2, ROUGE-L 는 모두 텍스트 생성과 요약 같은 자연어 처리 작업에서 모델의 성능을 평가하기 위해 널리 사용되는 평가지표입니다.
이들은 모델이 생성한 텍스트가 얼마나 정확하게 목표 텍스트와 유사한지를 다양한 방식으로 측정합니다.
# 1. BLEU (Bilingual Evaluation Understudy)
- 정의: BLEU는 기계 번역 평가에 널리 사용되는 지표로, 모델이 생성한 문장과 참조 문장에서 n-그램의 일치도를 계산합니다.
- 계산 방법: BLEU는 n-그램(1-그램부터 4-그램까지)을 비교하며, 참조 문장에서의 정확한 일치 비율을 계산합니다. 주로 BLEU-1부터 BLEU-4까지 사용되며, 짧은 문장에 대한 페널티로 Brevity Penalty를 적용합니다.
- 특징: BLEU는 주로 정확도(precision)에 초점을 맞춘 지표입니다. 값이 높을수록 생성된 텍스트가 참조 텍스트와 유사하다는 의미입니다
💙 장점
- 간단하고 직관적인 계산 방법
- 다양한 언어 쌍과 도메인에 적용 가능
- 사람의 평가와도 어느 정도 상관관계를 보임
- 기계 번역 시스템 간 성능 비교에 유용하게 활용 가능
💙 단점
- 단순히 n-gram 일치도만 고려
- 문장의 의미나 문법적 구조를 제대로 바영하지 못함
- 참조 문장의 품질과 다양성에 크게 의존함
- 언어의 특성과 도메인에 따라 BLEU 점수의 상관관계가 다를 수 있음
+) Brevity Penalty (BP)
생성한 문장의 길이에 BLEU 점수가 과한 영향을 받을 수 있습니다.
제대로 생성한 문장이 아니어도 문장의 길이가 짧으면 높은 점수를 받을 수 있게 됩니다.
때문에 생성한 문장의 길이가 참조 문장보다 길이가 짧은 경우, 점수에 패널티를 줍니다.
반대로 생성한 문장이 과하게 긴 경우에는 BP를 고려하지 않습니다.
Precision을 계산할 때 n-gram으로 확장하여 계산에 사용하는 것만으로도 이미 패널티를 받고 있기 때문입니다.
# 2. BERTScore
- 정의: BERTScore는 생성된 텍스트와 참조 텍스트 간의 의미적 유사성을 측정하는 지표로, BERT와 같은 사전 학습된 언어 모델의 임베딩을 활용합니다.
- 계산 방법: BERTScore는 생성된 텍스트와 참조 텍스트를 BERT로 임베딩하여 각 토큰의 임베딩 간 코사인 유사도를 계산합니다. 각 단어가 유사한 의미를 가지고 있는지를 평가하여 더 높은 유사성을 제공할 수 있습니다.
- 특징: BERTScore는 단순한 단어 매칭에 기반한 지표와 달리 의미적 일치를 반영하므로, 어휘가 다르더라도 유사한 의미를 갖는 표현을 잘 평가할 수 있습니다.
# 3. ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
ROUGE 지표는 기계 번역 및 텍스트 요약 성능 평가에 자주 사용됩니다. ROUGE는 주로 정밀도 (precision) 와 재현율 (recall)을 고려하여, 생성된 텍스트가 참조 텍스트와 얼마나 잘 일치하는지 측정합니다. 0~1 사이의 값을 가지며, 1에 가까울 수록 성능이 좋다는 것을 의미합니다.
- ROUGE-1: 1-gram일치율을 기반으로 하며, 생성된 텍스트와 참조 텍스트 간의 단어 수준에서의 일치를 측정합니다. 단순한 단어 단위의 유사성을 평가하는 데 유용합니다.
- ROUGE-2: 2-gram 일치율을 기반으로 하며, 연속된 두 단어의 일치를 측정합니다. 문장 구조와 표현을 평가하는 데 도움이 됩니다.
- ROUGE-L: Longest Common Subsequence (LCS)를 사용하여, 생성된 텍스트와 참조 텍스트 간의 가장 긴 공통 부분을 찾습니다. 이는 문장 구조의 유사성을 반영하며, 문장이 정확하게 정렬된 정도를 평가합니다.
💙 장점
- 계산이 빠르고 직관적
- 정량적 비교가 가능
- 다양한 변형이 가능
💙 단점
- 단어 일치만을 보기 때문에, 의미 상의 일치를 측정하기 어려움 (동음이의어, 다른 언어)
- 형태소 분석이 필요한 언어에서의 적용이 어려움
Reference
1) 위키독스:14-03 BLEU Score(Bilingual Evaluation Understudy Score)
2) 모두의연구소: BLEU : 기계번역에서 많이 사용하는 지표
3) Rouge Score (Text Summarization의 평가지표)
4) [이론 공부] NLP 성능평가 Metric : 2. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)