📚 STUDY/AI

[NLP] Needle-in-a-Haystack, Needle-in-a-Needlestack

삶감 2024. 10. 24. 15:38

Needle-in-a-Haystack 과 Needle-in-a-Needlestack 은 LLM의 성능평가 방식이다.

두 방식 모두 LLM의 in-context retrieval 능력을 평가하는 지표이다.

 

평가 방식 이름을 한국어로 번역해보자면, '건초 더미에서 바늘찾기' 와 '바늘 더미에서 바늘 찾기' 가 되는데 대강 어떤 평가 지표인지 감이 온다.

 

# Needle-in-a-Haystack 건초 더미에서 바늘 찾기

  • LLM이 다양한 주제를 다루는 텍스트에서 특정 정보를 찾아내는 능력을 평가
  • 일반적으로 폭넓은 주제에 대한 질문
  • LLM이 제공한 답변의 정확성과 관련성을 평가

 

# Needle-in-a-Needlestack 바늘 더미에서 바늘 찾기

  • LLM이 특정 주제나 도메인의 텍스트에서 정보를 찾아내는 능력을 평가
  • 특정 도메인에 대한 매우 구체적이고 세부적인 질문
  • LLM이 제공한 답변의 정확성과 답변에 포함된 세부 정보의 구체성과 깊이, 전문성 까지 평가

 

 

Reference

1) Needle in a Haystack과 Needle in a Needlestack 의 성능평가 방법

 

728x90
728x90