📚 STUDY/AI

[NLP] 한국어 임베딩 모델

삶감 2024. 10. 4. 08:53

대부분의 모델들이 영어에 가장 특화되어 있기 때문에 한국어를 임베딩할 경우 일반적인 오픈 임베딩 모델들은 성능이 잘 안나오기 때문에 돈을 주고 openai embedding 이나 anthrophic claude embedding 을 사용하는게 가장 좋다.

하지만 나는 오픈 모델을 사용해야하는 상황이기 때문에 위 모델들을 사용할 수 없다면 보통 다국어 임베딩 중 한국어를 지원하는 모델을 사용한다.

 

 

그래서 괜찮은 모델들을 찾아보는 중인데...

일단 한국어에 대한 성능이 좋아야하고, 모델 사이즈가 작을 수록 좋다

 

 

다음은 예진님이 추천해주신 다국어 임베딩 모델들...

1. intfloat/multilingual-e5-large

 

intfloat/multilingual-e5-large · Hugging Face

Multilingual-E5-large Multilingual E5 Text Embeddings: A Technical Report. Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei, arXiv 2024 This model has 24 layers and the embedding size is 1024. Usage Below is an example to encode

huggingface.co

  • Model size : 560M
  • Limitations : Long texts will be truncated to at most 512 tokens.

 

2. BAAI/bge-multilingual-gemma2

 

BAAI/bge-multilingual-gemma2 · Hugging Face

FlagEmbedding For more details please refer to our Github: FlagEmbedding. BGE-Multilingual-Gemma2 is a LLM-based multilingual embedding model. It is trained on a diverse range of languages and tasks based on google/gemma-2-9b. BGE-Multilingual-Gemma2 prima

huggingface.co

  • Model size : 9.24B 

 

3. Alibaba-NLP/gte-multilingual-base

 

Alibaba-NLP/gte-multilingual-base · Hugging Face

gte-multilingual-base The gte-multilingual-base model is the latest in the GTE (General Text Embedding) family of models, featuring several key attributes: High Performance: Achieves state-of-the-art (SOTA) results in multilingual retrieval tasks and multi

huggingface.co

  • Model Size: 305M
  • Embedding Dimension: 768
  • Max Input Tokens: 8192

 

4. jinaai/jina-embeddings-v3

 

jinaai/jina-embeddings-v3 · Hugging Face

 

huggingface.co

  • Model size : 572M
  • Handle long input sequences up to 8192 tokens.
  • Supports flexible embedding sizes (32, 64, 128, 256, 512, 768, 1024)

 

량님은 한국어에 특화된 모델을 사용하는게 좋지 않겠냐고 하셨는데...

그래서 또 찾아본 한국어 특화 모델

1. klue/bert-base

 

klue/bert-base · Hugging Face

KLUE BERT base Table of Contents Model Details Model Description: KLUE BERT base is a pre-trained BERT Model on Korean Language. The developers of KLUE BERT base developed the model in the context of the development of the Korean Language Understanding Eva

huggingface.co

  • Model size : 111M

 

 

2. klue/roberta-base

 

klue/roberta-base · Hugging Face

KLUE RoBERTa base Pretrained RoBERTa Model on Korean Language. See Github and Paper for more details. How to use NOTE: Use BertTokenizer instead of RobertaTokenizer. (AutoTokenizer will load BertTokenizer) from transformers import AutoModel, AutoTokenizer

huggingface.co

  • Model size : 111M

 

가장 성능이 좋았다는 E5를 한국어에 finetuning 한 모델 nlpai-lab/KoE5

 

nlpai-lab/KoE5 · Hugging Face

🔎 KoE5 Introducing KoE5, a model with advanced retrieval abilities. It has shown remarkable performance in Korean text retrieval, speficially overwhelming most multilingual embedding models. To our knowledge, It is one of the best publicly opened Korean

huggingface.co

  • Model size : 560M
  • Limitations : Long texts will be truncated to at most 512 tokens.

 

 

 

 

Reference

[1] STS 및 Retrieval 사용 사례에 한국어 임베딩 모델 활용하기

[2] [KoE5-v1.0] 최초의 한국어 특화 임베딩 모델 (Multilingual E5 Finetune)

 

 

728x90
728x90