Needle-in-a-Haystack 과 Needle-in-a-Needlestack 은 LLM의 성능평가 방식이다.
두 방식 모두 LLM의 in-context retrieval 능력을 평가하는 지표이다.
평가 방식 이름을 한국어로 번역해보자면, '건초 더미에서 바늘찾기' 와 '바늘 더미에서 바늘 찾기' 가 되는데 대강 어떤 평가 지표인지 감이 온다.
# Needle-in-a-Haystack 건초 더미에서 바늘 찾기
- LLM이 다양한 주제를 다루는 텍스트에서 특정 정보를 찾아내는 능력을 평가
- 일반적으로 폭넓은 주제에 대한 질문
- LLM이 제공한 답변의 정확성과 관련성을 평가
# Needle-in-a-Needlestack 바늘 더미에서 바늘 찾기
- LLM이 특정 주제나 도메인의 텍스트에서 정보를 찾아내는 능력을 평가
- 특정 도메인에 대한 매우 구체적이고 세부적인 질문
- LLM이 제공한 답변의 정확성과 답변에 포함된 세부 정보의 구체성과 깊이, 전문성 까지 평가
Reference
1) Needle in a Haystack과 Needle in a Needlestack 의 성능평가 방법
728x90
728x90