LLM 4

[NLP] Needle-in-a-Haystack, Needle-in-a-Needlestack

Needle-in-a-Haystack 과 Needle-in-a-Needlestack 은 LLM의 성능평가 방식이다.두 방식 모두 LLM의 in-context retrieval 능력을 평가하는 지표이다. 평가 방식 이름을 한국어로 번역해보자면, '건초 더미에서 바늘찾기' 와 '바늘 더미에서 바늘 찾기' 가 되는데 대강 어떤 평가 지표인지 감이 온다. # Needle-in-a-Haystack 건초 더미에서 바늘 찾기LLM이 다양한 주제를 다루는 텍스트에서 특정 정보를 찾아내는 능력을 평가일반적으로 폭넓은 주제에 대한 질문LLM이 제공한 답변의 정확성과 관련성을 평가 # Needle-in-a-Needlestack 바늘 더미에서 바늘 찾기LLM이 특정 주제나 도메인의 텍스트에서 정보를 찾아내는 능력을 평가특정 ..

📚 STUDY/AI 2024.10.24

Retrieval-Augmented Generation (RAG)

1. 왜 RAG를 사용하는가?LLM은 충분하지 않다  LLM (Large Language Model) 은 매우 방대한 양의 텍스트 데이터를 학습하여 텍스트 생성, 번역, 질의응답 등 다양한 자연어 처리 작업을 수행할 수 있는 모델이다. LLM은 다양한 분야의 애플리케이션에서 활용되고 있지만 Large 하다는 특징 때문에 모델에 내제된 지식들을 업데이트하는 것이 쉽지 않다. 이러한 특징으로 인해 파생된 문제들 중, RAG 가 해결하고자 하는 문제는 다음과 같다.  LLM의 문제점- Out of date (오래된 지식)- No knowledge - Hallucination (환각 문제)  # Out of date LLM은 파라미터가 최소 7M개가 넘는 아주 거대한 모델이기 때문에 새로운 정보들로 매번 학습시..

📚 STUDY/AI 2024.09.25

[오류해결] Alpaca LoRA finetuning : PEFT bug

논문 결과를 reproducing하는데 결과가 제대로 안나와서 골머리를 앓았다. 저자와 메일을 나눠서 파라미터랑 train set에 대해 조언을 받고 다시 실험을 돌려봤는데도 여전히 결과가 잘 나오지 않았다... 논문에서는 backbone model로 alpaca-7b 모델을 사용했다고 하는데 alpaca는 llama를 finetuning 한 모델이고... 그럼 "tloen/alpaca-lora" 에서 안내한 모델을 reproduce해서 그걸 한번 더 finetuning 해야하는 건지, 아니면 "huggyllama/llama-7b" 에 LoRA를 finetuning하면 그게 alpaca가 되는 거라서 그대로 사용하면 되는건지... 어렵도다.... 사실 내가 LLM implement에 대해 미숙하기도 해서..

[논문 리딩] Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Direct Preference Optimization: Your Language Model is Secretly a Reward Model키워드LLMyear2023저자Rafael Rafailov et al.VenueArXivMemoDPO. 분류연구DONE생성 일시@2023년 11월 19일 오후 5:54최종 편집 일시@2023년 11월 20일 오후 12:08Working@article{Rafailov2023DirectPO, title={Direct Preference Optimization: Your Language Model is Secretly a Reward Model}, author={Rafael Rafailov and Archit Sharma and Eric Mitchell and Stefano..