[NLP] 자연어처리 평가지표 (BLEU, BERTScore, ROUGE-1, ROUGE-2, ROUGE-L)
요약BLEU: n-그램 기반 정확도를 평가, 기계 번역에 주로 사용됨.BERTScore: BERT 임베딩을 활용한 의미적 유사성 평가, 의미적 일치에 민감.ROUGE-1/2/L: 1-그램, 2-그램, LCS 기반 일치율로, 텍스트 요약 및 번역의 정확성(재현율 중심)을 평가. BLEU와 BERTScore, ROUGE-1, ROUGE-2, ROUGE-L 는 모두 텍스트 생성과 요약 같은 자연어 처리 작업에서 모델의 성능을 평가하기 위해 널리 사용되는 평가지표입니다.이들은 모델이 생성한 텍스트가 얼마나 정확하게 목표 텍스트와 유사한지를 다양한 방식으로 측정합니다. # 1. BLEU (Bilingual Evaluation Understudy)정의: BLEU는 기계 번역 평가에 널리 사용되는 지표로, 모델이 ..