728x90
요약BLEU: n-그램 기반 정확도를 평가, 기계 번역에 주로 사용됨.BERTScore: BERT 임베딩을 활용한 의미적 유사성 평가, 의미적 일치에 민감.ROUGE-1/2/L: 1-그램, 2-그램, LCS 기반 일치율로, 텍스트 요약 및 번역의 정확성(재현율 중심)을 평가. BLEU와 BERTScore, ROUGE-1, ROUGE-2, ROUGE-L 는 모두 텍스트 생성과 요약 같은 자연어 처리 작업에서 모델의 성능을 평가하기 위해 널리 사용되는 평가지표입니다.이들은 모델이 생성한 텍스트가 얼마나 정확하게 목표 텍스트와 유사한지를 다양한 방식으로 측정합니다. # 1. BLEU (Bilingual Evaluation Understudy)정의: BLEU는 기계 번역 평가에 널리 사용되는 지표로, 모델이 ..
Needle-in-a-Haystack 과 Needle-in-a-Needlestack 은 LLM의 성능평가 방식이다.두 방식 모두 LLM의 in-context retrieval 능력을 평가하는 지표이다. 평가 방식 이름을 한국어로 번역해보자면, '건초 더미에서 바늘찾기' 와 '바늘 더미에서 바늘 찾기' 가 되는데 대강 어떤 평가 지표인지 감이 온다. # Needle-in-a-Haystack 건초 더미에서 바늘 찾기LLM이 다양한 주제를 다루는 텍스트에서 특정 정보를 찾아내는 능력을 평가일반적으로 폭넓은 주제에 대한 질문LLM이 제공한 답변의 정확성과 관련성을 평가 # Needle-in-a-Needlestack 바늘 더미에서 바늘 찾기LLM이 특정 주제나 도메인의 텍스트에서 정보를 찾아내는 능력을 평가특정 ..
# 1. LangChain과 ChromaDB란 무엇인가?## 1-1. LangChainLangChain은 자연어 처리(NLP) 및 언어 모델을 활용하여 다양한 애플리케이션을 개발할 수 있도록 도와주는 프레임워크입니다. 이 프레임워크는 주로 다음과 같은 기능을 제공합니다: 1. 모델 통합: 다양한 언어 모델(API)을 통합하여 사용자가 원하는 방식으로 쉽게 활용할 수 있습니다. OpenAI, Hugging Face 등 다양한 모델과의 호환성을 지원합니다. 2. 체인(Chain) 구성: LangChain의 핵심 개념은 '체인'입니다. 사용자는 여러 개의 작업을 연결하여 복잡한 작업 흐름을 만들 수 있습니다. 예를 들어, 데이터 수집, 처리, 모델 예측 등의 과정을 연속적으로 구성할 수 있습니다. 3. 데이터..
대부분의 모델들이 영어에 가장 특화되어 있기 때문에 한국어를 임베딩할 경우 일반적인 오픈 임베딩 모델들은 성능이 잘 안나오기 때문에 돈을 주고 openai embedding 이나 anthrophic claude embedding 을 사용하는게 가장 좋다.하지만 나는 오픈 모델을 사용해야하는 상황이기 때문에 위 모델들을 사용할 수 없다면 보통 다국어 임베딩 중 한국어를 지원하는 모델을 사용한다. 그래서 괜찮은 모델들을 찾아보는 중인데...일단 한국어에 대한 성능이 좋아야하고, 모델 사이즈가 작을 수록 좋다 다음은 예진님이 추천해주신 다국어 임베딩 모델들...1. intfloat/multilingual-e5-large intfloat/multilingual-e5-large · Hugging FaceMul..
1. 왜 RAG를 사용하는가?LLM은 충분하지 않다 LLM (Large Language Model) 은 매우 방대한 양의 텍스트 데이터를 학습하여 텍스트 생성, 번역, 질의응답 등 다양한 자연어 처리 작업을 수행할 수 있는 모델이다. LLM은 다양한 분야의 애플리케이션에서 활용되고 있지만 Large 하다는 특징 때문에 모델에 내제된 지식들을 업데이트하는 것이 쉽지 않다. 이러한 특징으로 인해 파생된 문제들 중, RAG 가 해결하고자 하는 문제는 다음과 같다. LLM의 문제점- Out of date (오래된 지식)- No knowledge - Hallucination (환각 문제) # Out of date LLM은 파라미터가 최소 7M개가 넘는 아주 거대한 모델이기 때문에 새로운 정보들로 매번 학습시..
NLI (Natural Language Inference, 자연어 추론) 자연어 추론(NLI)는 자연어 처리(NLP, Natural language Processing)의 task의 일종이다. 주어진 문장(가설, hypohesis)이 다른 문장(전제, premise)에 대해 논리적으로 들어 맞는지 판단하는 것을 목표로 한다. NLI는 NLP의 대표적인 task로 AI 모델이 문장들 간의 의미와 관계를 잘 이해하는지 평가하는 데 사용 되기도 한다. 1.Premise, 전제 : 문맥이나 배경 정보를 제공 하는 단일 문장 또는 문장의 집합이다. Hypothesis를 비교하는 기준이 된다. 2.Hypothesis, 가설 : Premise와의 관계를 비교해야 하는 문장이다. NLI는 이 hypothesis가 pr..