728x90
대부분의 모델들이 영어에 가장 특화되어 있기 때문에 한국어를 임베딩할 경우 일반적인 오픈 임베딩 모델들은 성능이 잘 안나오기 때문에 돈을 주고 openai embedding 이나 anthrophic claude embedding 을 사용하는게 가장 좋다.하지만 나는 오픈 모델을 사용해야하는 상황이기 때문에 위 모델들을 사용할 수 없다면 보통 다국어 임베딩 중 한국어를 지원하는 모델을 사용한다. 그래서 괜찮은 모델들을 찾아보는 중인데...일단 한국어에 대한 성능이 좋아야하고, 모델 사이즈가 작을 수록 좋다 다음은 예진님이 추천해주신 다국어 임베딩 모델들...1. intfloat/multilingual-e5-large intfloat/multilingual-e5-large · Hugging FaceMul..
1. 왜 RAG를 사용하는가?LLM은 충분하지 않다 LLM (Large Language Model) 은 매우 방대한 양의 텍스트 데이터를 학습하여 텍스트 생성, 번역, 질의응답 등 다양한 자연어 처리 작업을 수행할 수 있는 모델이다. LLM은 다양한 분야의 애플리케이션에서 활용되고 있지만 Large 하다는 특징 때문에 모델에 내제된 지식들을 업데이트하는 것이 쉽지 않다. 이러한 특징으로 인해 파생된 문제들 중, RAG 가 해결하고자 하는 문제는 다음과 같다. LLM의 문제점- Out of date (오래된 지식)- No knowledge - Hallucination (환각 문제) # Out of date LLM은 파라미터가 최소 7M개가 넘는 아주 거대한 모델이기 때문에 새로운 정보들로 매번 학습시..
NLI (Natural Language Inference, 자연어 추론) 자연어 추론(NLI)는 자연어 처리(NLP, Natural language Processing)의 task의 일종이다. 주어진 문장(가설, hypohesis)이 다른 문장(전제, premise)에 대해 논리적으로 들어 맞는지 판단하는 것을 목표로 한다. NLI는 NLP의 대표적인 task로 AI 모델이 문장들 간의 의미와 관계를 잘 이해하는지 평가하는 데 사용 되기도 한다. 1.Premise, 전제 : 문맥이나 배경 정보를 제공 하는 단일 문장 또는 문장의 집합이다. Hypothesis를 비교하는 기준이 된다. 2.Hypothesis, 가설 : Premise와의 관계를 비교해야 하는 문장이다. NLI는 이 hypothesis가 pr..
이전 글에서 KCI에서 제공하는 OpenAPI를 사용해 데이터를 받아오는 작업까지 했다. 이번 글에서는 받아온 데이터를 모델이 학습할 수 있도록 전처리 해 볼 것이다. 1. XML을 DataFrame으로 변환하기 우선 받아온 데이터의 태그를 살펴보자 여기서 내가 쓰려고 하는 태그명만 따로 name_list에 저장하고 해당 태그의 내용을 data_list에 담아 저장했다. # 데이터 확인 후 필요한 열만 리스트화 하여 정보 추출 name_list = [ 'pub-year' ,'pub-mon' ,'article-title-original' ,'article-title-english' ,'author' ,'abstract-original' ,'abstract-english' ,'url' ] data_lis..