'📚 STUDY' 카테고리의 글 목록

[논문리딩] How Language Model Hallucinations Can Snowball

개요 Proceeding of the 41st International Conference on Machine Learning (ICML) 2024🔗data&code Summary by ChatGPT-4o이 논문은 언어 모델(예: GPT-4, ChatGPT)의 환각(hallucination) 문제를 탐구하며, 특히 초기의 잘못된 정보가 이후 더 많은 오류를 유발하는 hallucination snowballing 현상을 정의하고 분석합니다. 기존 연구는 언어 모델의 환각을 지식 부족으로 설명했지만, 저자들은 초기 환각이 이후 설명에서 일관성을 유지하려는 모델의 특성 때문에 추가적인 환각을 유도한다고 주장합니다. 이를 검증하기 위해 세 가지 데이터셋(소수 판별, 상원의원 검색, 그래프 연결성)을 설계하여 ..

format_list_bulleted PAPER REVIEW
· 2024. 12. 2.
textsms

[NLP] 자연어처리 평가지표 (BLEU, BERTScore, ROUGE-1, ROUGE-2, ROUGE-L)

요약BLEU: n-그램 기반 정확도를 평가, 기계 번역에 주로 사용됨.BERTScore: BERT 임베딩을 활용한 의미적 유사성 평가, 의미적 일치에 민감.ROUGE-1/2/L: 1-그램, 2-그램, LCS 기반 일치율로, 텍스트 요약 및 번역의 정확성(재현율 중심)을 평가. BLEU와 BERTScore, ROUGE-1, ROUGE-2, ROUGE-L 는 모두 텍스트 생성과 요약 같은 자연어 처리 작업에서 모델의 성능을 평가하기 위해 널리 사용되는 평가지표입니다.이들은 모델이 생성한 텍스트가 얼마나 정확하게 목표 텍스트와 유사한지를 다양한 방식으로 측정합니다. # 1. BLEU (Bilingual Evaluation Understudy)정의: BLEU는 기계 번역 평가에 널리 사용되는 지표로, 모델이 ..

format_list_bulleted AI
· 2024. 11. 12.
textsms

[NLP] Needle-in-a-Haystack, Needle-in-a-Needlestack

Needle-in-a-Haystack 과 Needle-in-a-Needlestack 은 LLM의 성능평가 방식이다.두 방식 모두 LLM의 in-context retrieval 능력을 평가하는 지표이다. 평가 방식 이름을 한국어로 번역해보자면, '건초 더미에서 바늘찾기' 와 '바늘 더미에서 바늘 찾기' 가 되는데 대강 어떤 평가 지표인지 감이 온다. # Needle-in-a-Haystack 건초 더미에서 바늘 찾기LLM이 다양한 주제를 다루는 텍스트에서 특정 정보를 찾아내는 능력을 평가일반적으로 폭넓은 주제에 대한 질문LLM이 제공한 답변의 정확성과 관련성을 평가 # Needle-in-a-Needlestack 바늘 더미에서 바늘 찾기LLM이 특정 주제나 도메인의 텍스트에서 정보를 찾아내는 능력을 평가특정 ..

format_list_bulleted AI
· 2024. 10. 24.
textsms

[LLM/LangChain] RAG - LangChain 과 ChromaDB 사용하기

# 1. LangChain과 ChromaDB란 무엇인가?## 1-1. LangChainLangChain은 자연어 처리(NLP) 및 언어 모델을 활용하여 다양한 애플리케이션을 개발할 수 있도록 도와주는 프레임워크입니다. 이 프레임워크는 주로 다음과 같은 기능을 제공합니다: 1. 모델 통합: 다양한 언어 모델(API)을 통합하여 사용자가 원하는 방식으로 쉽게 활용할 수 있습니다. OpenAI, Hugging Face 등 다양한 모델과의 호환성을 지원합니다. 2. 체인(Chain) 구성: LangChain의 핵심 개념은 '체인'입니다. 사용자는 여러 개의 작업을 연결하여 복잡한 작업 흐름을 만들 수 있습니다. 예를 들어, 데이터 수집, 처리, 모델 예측 등의 과정을 연속적으로 구성할 수 있습니다. 3. 데이터..

format_list_bulleted AI
· 2024. 10. 21.
textsms

[NLP] 한국어 임베딩 모델

대부분의 모델들이 영어에 가장 특화되어 있기 때문에 한국어를 임베딩할 경우 일반적인 오픈 임베딩 모델들은 성능이 잘 안나오기 때문에 돈을 주고 openai embedding 이나 anthrophic claude embedding 을 사용하는게 가장 좋다.하지만 나는 오픈 모델을 사용해야하는 상황이기 때문에 위 모델들을 사용할 수 없다면 보통 다국어 임베딩 중 한국어를 지원하는 모델을 사용한다. 그래서 괜찮은 모델들을 찾아보는 중인데...일단 한국어에 대한 성능이 좋아야하고, 모델 사이즈가 작을 수록 좋다 다음은 예진님이 추천해주신 다국어 임베딩 모델들...1. intfloat/multilingual-e5-large intfloat/multilingual-e5-large · Hugging FaceMul..

format_list_bulleted AI
· 2024. 10. 4.
textsms

Retrieval-Augmented Generation (RAG)

1. 왜 RAG를 사용하는가?LLM은 충분하지 않다 LLM (Large Language Model) 은 매우 방대한 양의 텍스트 데이터를 학습하여 텍스트 생성, 번역, 질의응답 등 다양한 자연어 처리 작업을 수행할 수 있는 모델이다. LLM은 다양한 분야의 애플리케이션에서 활용되고 있지만 Large 하다는 특징 때문에 모델에 내제된 지식들을 업데이트하는 것이 쉽지 않다. 이러한 특징으로 인해 파생된 문제들 중, RAG 가 해결하고자 하는 문제는 다음과 같다. LLM의 문제점- Out of date (오래된 지식)- No knowledge - Hallucination (환각 문제) # Out of date LLM은 파라미터가 최소 7M개가 넘는 아주 거대한 모델이기 때문에 새로운 정보들로 매번 학습시..

format_list_bulleted AI
· 2024. 9. 25.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[논문리딩] How Language Model Hallucinations Can Snowball

[NLP] 자연어처리 평가지표 (BLEU, BERTScore, ROUGE-1, ROUGE-2, ROUGE-L)

[NLP] Needle-in-a-Haystack, Needle-in-a-Needlestack

[LLM/LangChain] RAG - LangChain 과 ChromaDB 사용하기

[NLP] 한국어 임베딩 모델

Retrieval-Augmented Generation (RAG)

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역