成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<code id="0c2qw"><dfn id="0c2qw"></dfn></code>

<input id="0c2qw"><del id="0c2qw"></del></input>

<ul id="0c2qw"><tr id="0c2qw"></tr></ul>

<center id="0c2qw"><dl id="0c2qw"></dl></center><abbr id="0c2qw"><del id="0c2qw"></del></abbr>

<center id="0c2qw"><del id="0c2qw"></del></center>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

Microsoft ｜利用LLM本身訓練SoTA embedding模型

發布于 2024-11-1 15:19

瀏覽

0收藏

大家好，我是HxShine

今天分享一篇Microsoft公司的一篇文章，Title: Improving Text Embeddings with Large Language Models：使用大型語言模型改善文本嵌入。

這篇文章探索了直接利用LLM來做embedding模型，其只需要利用合成數據和少于1000次的訓練步驟就能獲得高質量文本表征。

該方法分為兩步：1）利用LLM生成文本embedding任務合成數據集：利用專有的大型語言模型（LLM）生成近100種語言的數十萬個文本嵌入任務的多樣化合成數據。2）對比損失微調：使用標準對比損失對開源的decoder-only LLM進行微調。

該方法特點總結如下：1）充分挖掘了大模型生成數據多樣性還不錯的特點，利用這個特點，可以利用LLM生成多樣性比較好、類型豐富、以及多語言的文本表征模型數據集。2）相對于之前例如SimCSE等模型，需要在大量語料上繼續做預訓練以及微調，本文發現自回歸的LLM只需少量監督數據就能獲得一個非常不錯的效果。3）多語言的檢索能力也不錯。

一、概述

Title：Improving Text Embeddings with Large Language Models
論文地址：???https://arxiv.org/abs/2401.00368??

1 Motivation

現有的文本嵌入方法依賴于多階段預訓練和少量標注數據的微調【大量數據->弱監督預訓練，少量標注數據->fine-tuning】，需要構建復雜的訓練流程，且數據集通常受限于任務多樣性和語言覆蓋范圍。
本文提出了一種新的方法：利用大型語言模型生成多樣化的合成數據，通過簡單但有效的訓練步驟改善文本嵌入的質量，特別在多種語言環境中效果非常不錯。

2 Methods

省流版總結：

合成數據生成：分兩步生成合成數據，第一步生成檢索任務主題，第二步根據主題生成問題、正樣本、負樣本。其特點是生產的檢索任務多樣性不錯、同時還可以生成多語言的數據集。
對比學習訓練：利用常規的對比學習loss InfoNCE函數訓練模型，只是用合成數據，只需要1k步左右訓練就能有一個不錯的效果，疊加監督數據效果更佳。

2.1 利用LLM生成訓練樣本

通常訓練embedding模型強烈依賴正負樣本數據，標注成本比較高。這里本文嘗試利用專有LLM（如GPT-4）生成近100種語言的多樣化合成數據，用于訓練embedding模型。

背景：使用LLM合成數據，增強文本嵌入模型的多樣性和魯棒性。
方法：設計了多種任務類型和語言的模板，通過LLM生成合成數據。
特點: 能夠覆蓋廣泛的任務和語言類型，提高數據的多樣性和質量。

1）利用LLM列舉檢索任務：

Microsoft ｜利用LLM本身訓練SoTA embedding模型-AI.x社區

2）針對每個任務，利用LLM按照要求生成訓練樣本：

Microsoft ｜利用LLM本身訓練SoTA embedding模型-AI.x社區

2.2 模型訓練

Microsoft ｜利用LLM本身訓練SoTA embedding模型-AI.x社區

要點一：需要指定任務task_definition，輸入用戶問題。其中合成的數據用2.1中第一步LLM生成的任務定義，其他數據集人工設置固定的模版。

要點二：相似度計算方式為cos相似度，并結合溫度系數超參數來調節具體值。

要點三：Loss函數為標準的InfoNCE函數，其懲罰了負樣本，提升正樣本的相似度分數。

3 Conclusion

結論1: 使用LLM生成的合成數據可以顯著提升文本嵌入的性能。

結論2: 方法在多語言環境下表現良好，特別是在BEIR和MTEB基準上。

結論3: 本方法提供了一種更高效的文本嵌入訓練策略，避免了復雜的多階段訓練。

4 Limitation

盡管在多種語言中表現良好，但對低資源語言的支持仍有待改進，利用LLM做文本embedding成本還比較高。
未來工作將探索使用開源LLM生成合成數據，并提高模型在長文本處理方面的效率。

二、詳細內容

2.1 合成數據的統計分析

Microsoft ｜利用LLM本身訓練SoTA embedding模型-AI.x社區

結論1：生成了500k個樣例，涵蓋了150k個獨特指令。包括非對稱任務（query和doc不對稱）：short-long代表query是短文本，doc為長文本，其他可以反推。另一類任務是對稱任務（query和doc語義相近，但是不對等）：sts代表單語言語義相似度計算、bitext代表雙語言檢索任務。

結論2：生成數據中覆蓋93種語言。語言多樣性不錯，英語占大多數，其他語言占比也不少。

2.2 模型微調與評估

Microsoft ｜利用LLM本身訓練SoTA embedding模型-AI.x社區

試驗設置：基座模型為Mistral-7b，微調方法為Lora，rank=16。

結論1： "E5mistral-7b + full data"模型在MTEB基準上超過先前最佳模型2.4分。
結論2：使用混合數據微調的模型在MTEB基準上取得了最高平均得分。
結論3： w/synthetic data only代表僅使用合成數據訓練的模型表現仍然競爭力十足。

結論4：該方法的實驗結果顯示了生成語言建模和文本嵌入之間的潛在聯系。

2.3 與商業閉源模型對比

Microsoft ｜利用LLM本身訓練SoTA embedding模型-AI.x社區

結論：在BEIR Retrieval數據集和MTEB數據集都取得了SoTa。

2.4 LLM只需要少量數據做微調即可取得比較好的效果

Microsoft ｜利用LLM本身訓練SoTA embedding模型-AI.x社區

結論一：傳統數據利用大量數據結合對比學習做無監督訓練可以帶來不錯的提升。

結論二：經過大量語料訓練的自回歸LLM模型已經不需要繼續做預訓練了，只需要少量的數據微調即可取得比較好的效果。

2.5 多語言任務上也非常有競爭力

Microsoft ｜利用LLM本身訓練SoTA embedding模型-AI.x社區

結論一：高資源（數據量多）任務例如英語，效果比之前的mE5模型效果好，低資源任務效果相對mE5也非常有競爭力。

2.6 消融實驗：instruction設置比較關鍵

Microsoft ｜利用LLM本身訓練SoTA embedding模型-AI.x社區

結論一：基座模型選擇也比較重要，選擇LLaMA-2的基座模型比Mistral-7b作為基座模型差。

結論二：instruction的設置也非常重要，對最終結果的影響可能差4個點以上。

2.7 context長度對檢索質量的影響：4k左右上下文文本表征都還不錯，隨后效果急劇下降。

Microsoft ｜利用LLM本身訓練SoTA embedding模型-AI.x社區

結論：引入了一項名為個性化密碼檢索的新型合成任務，此任務需要在長上下文中將密鑰信息編碼到嵌入中。通過更改圖5中的滑動窗口大小和RoPE旋轉底座來比較不同變體的性能。結果顯示，帶有4k滑動窗口的默認配置在4k token數達到100%的準確性，但隨著上下文長度的增長，準確性會迅速下降。

三、總結

結論1：利用LLM生成的合成數據可以顯著提升文本嵌入的性能。這種方法在處理多種語言時尤其有效，能夠生成高質量、多樣化的合成數據。

Microsoft ｜利用LLM本身訓練SoTA embedding模型-AI.x社區

結論2：利用LLM訓練Embedding模型可以非常高效。與現有多階段方法相比，其只需要少于1000次的訓練步驟就可以拿到比較好的效果，而現有方法可能要先利用大量數據做自監督訓練，然后再使用有監督數據訓練，效率不高。

結論3：本文利用LLM做embedding是一個突破，但產業界還不太適用。本文首次探索LLM做embedding，效果還不錯，但模型大，推理成本也高，產業界實用性不高（bge相關模型只有400M左右，本文方法模型達到7B以上），后續可以探索LLM生成和挖掘正負樣本數據，利用傳統方法例如雙塔+SimCSE系列等模型進行訓練，然后再應用到產業界。

本文轉載自 ??NLP PaperWeekly??，作者： NLP PaperWeekly?

標簽

已于2024-11-1 16:15:52修改

贊

收藏

回復

舉報

回復

相關推薦

EMNLP 2023｜利用LLM合成數據訓練模型有哪些坑？

arnoldzhw ? 3732瀏覽 ? 0回復
LLM4CS：一種利用LLM提升多輪會話檢索的效果的方案

arnoldzhw ? 1.1w瀏覽 ? 0回復
蘋果超強視覺預訓練模型助力下游任務拿SOTA！（分類、檢測、分割、深度估計）

angel ? 4549瀏覽 ? 0回復
【LLM】 CuMo: 使用協同再利用的混合專家模型來擴展多模態大型語言模型

sbf_2000 ? 3979瀏覽 ? 0回復
利用LLM本身訓練SoTA embedding模型

arnoldzhw ? 4515瀏覽 ? 0回復
LLM | 利用分布匹配蒸餾技術快速合成圖像

sbf_2000 ? 3322瀏覽 ? 0回復
大模型應用落地：如何選擇合適的 Embedding 模型？

玄姐聊AGI ? 5172瀏覽 ? 0回復
港科大新SOTA丨大語言模型在通用視覺定位中的能力（LLM-Optic）

AIRoobt ? 5259瀏覽 ? 0回復
LLM分布式預訓練淺析

zhcs333 ? 3203瀏覽 ? 0回復
AI技術新前沿本地LLM模型推理訓練加速

AIGC觀察者 ? 3638瀏覽 ? 0回復
Aider（已升級）：Aider利用雙模型架構做到85% SOTA得分！

老蛀蟲 ? 3360瀏覽 ? 0回復
DHelix：跨 Micro-Batch 的通信隱藏，SOTA LLM 訓練性能

amei2000go ? 3672瀏覽 ? 0回復
大模型語義分析之嵌入(Embedding)模型

AI探索時代 ? 3502瀏覽 ? 0回復
為什么有了大模型還需要用Embedding模型？

石映飛云 ? 2385瀏覽 ? 0回復
大模型的嵌入——Embedding與向量——Ve ctor

AI探索時代 ? 3739瀏覽 ? 0回復
KwaiCoder-23BA4-v1：以 1/30 的成本訓練全尺寸 SOTA 代碼續寫大模型

快手技術 ? 2464瀏覽 ? 0回復
利用LLM做論文review到哪一步了？來看看DeepReview吧！

arnoldzhw ? 2923瀏覽 ? 0回復
滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！

51CTO技術棧 ? 3087瀏覽 ? 1回復
Qwen3 Embedding模型架構、訓練方法、數據策略

大模型自然語言處理 ? 1065瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

NVIDIA（ProRL）｜RL到底能不能提升LLM的推理上限？ 8天前發布
ACL25 | DOLPHIN，Closed-loop Auto-research系統來幫你自動做科研了！ 2025-06-13 06:42:33發布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統OneRec！ 0回復

上一篇：大模型微調哪家好？小孩子才做選擇，成年人當然是全都要

下一篇： StaR ｜用少量推理數據讓模型學會通用推理能力，顯著提升模型復雜推理

社區精華內容

目錄

主站蜘蛛池模板：成人在线视频免费观看 | 99reav | 久久国产欧美一区二区三区精品 | 中文字幕视频在线观看免费 | 国产精品久久久久久久久久久久 | 亚洲精品久久久久中文字幕欢迎你 | 91传媒在线观看 | 本道综合精品 | 午夜精品久久久久久久久久久久久 | 免费在线观看黄色av | 亚洲精品99 | 免费精品一区 | 亚洲精品一区二区三区蜜桃久 | 亚洲天堂免费 | 亚洲成人午夜电影 | 久久精品日产第一区二区三区 | 日本在线免费视频 | 中文字幕免费在线 | 天天干视频在线 | 日韩中文一区 | 亚洲成人网在线 | 久久日本 | 亚洲精品久久久一区二区三区 | 粉嫩在线| 日韩欧美国产一区二区三区 | 99国产精品99久久久久久粉嫩 | 一区日韩| 成人午夜免费福利视频 | 啪啪免费网 | 国产激情一区二区三区 | 国产一区 | 日本不卡一区二区三区在线观看 | 国产精品天堂 | 91亚洲精品国偷拍自产在线观看 | 999免费网站| 91免费看片神器 | 在线中文视频 | 日韩在线精品视频 | a级片网站| 99福利视频 | 国产一区二区电影 |

<samp id="ycmag"><xmp id="ycmag">

<optgroup id="ycmag"></optgroup>

<optgroup id="ycmag"></optgroup>