E5 #Text Embedding
-
E5 Text Embedding 시리즈 논문 및 구현 설명ML&NLP 2024. 3. 6. 23:21
범용 Text Embeeding 을 평가하기 위한 MTEB 리더보드 ( https://huggingface.co/spaces/mteb/leaderboard ) 상에서 최근 최상위권을 기록한 Microsoft 의 E5 Text Embeeding 시리즌 논문 리뷰입니다. 크게 다음 3가지 종류의 모델이고, Model Name Backbone Pre-Trianing Dataset Fine-tuning Dataset Training Method e5 BERT-style Encoder ( < 1B) 자체 구축 기존 Text Pair Labeled Dataset 들 활용 2-Stage Training e5-instruct + LLM (GPT3.5-Turbo&4) 을 사용해 자체 생성한 Text Pair 데이터셋 e..