대부분의 모델들이 영어에 가장 특화되어 있기 때문에 한국어를 임베딩할 경우 일반적인 오픈 임베딩 모델들은 성능이 잘 안나오기 때문에 돈을 주고 openai embedding 이나 anthrophic claude embedding 을 사용하는게 가장 좋다.
하지만 나는 오픈 모델을 사용해야하는 상황이기 때문에 위 모델들을 사용할 수 없다면 보통 다국어 임베딩 중 한국어를 지원하는 모델을 사용한다.
그래서 괜찮은 모델들을 찾아보는 중인데...
일단 한국어에 대한 성능이 좋아야하고, 모델 사이즈가 작을 수록 좋다
다음은 예진님이 추천해주신 다국어 임베딩 모델들...
1. intfloat/multilingual-e5-large
- Model size : 560M
- Limitations : Long texts will be truncated to at most 512 tokens.
2. BAAI/bge-multilingual-gemma2
- Model size : 9.24B
3. Alibaba-NLP/gte-multilingual-base
- Model Size: 305M
- Embedding Dimension: 768
- Max Input Tokens: 8192
- Model size : 572M
- Handle long input sequences up to 8192 tokens.
- Supports flexible embedding sizes (32, 64, 128, 256, 512, 768, 1024)
량님은 한국어에 특화된 모델을 사용하는게 좋지 않겠냐고 하셨는데...
그래서 또 찾아본 한국어 특화 모델
- Model size : 111M
- Model size : 111M
가장 성능이 좋았다는 E5를 한국어에 finetuning 한 모델 nlpai-lab/KoE5
- Model size : 560M
- Limitations : Long texts will be truncated to at most 512 tokens.
Reference
[1] STS 및 Retrieval 사용 사례에 한국어 임베딩 모델 활용하기
[2] [KoE5-v1.0] 최초의 한국어 특화 임베딩 모델 (Multilingual E5 Finetune)
728x90
728x90