成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

遲來！解讀Qwen開源的Embedding模型中的細節(jié)！附實測結果！

發(fā)布于 2025-6-13 07:17

瀏覽

0收藏

上周五，Qwen團隊又開源了Embedding模型，真是人民需要什么，它開源什么呀！

遲來！解讀Qwen開源的Embedding模型中的細節(jié)！附實測結果！-AI.x社區(qū)

現在好了，文本、多模態(tài)、embedding都齊了，別人沒得玩了！

上周朋友就問，作為Qwen課代表的我，咋沒分享Qwen3-Embedding，哈哈哈哈！

遲來！解讀Qwen開源的Embedding模型中的細節(jié)！附實測結果！-AI.x社區(qū)

這不就來了嘛，主要是前兩天我還在測試。

Embedding模型的測試，并不像LLM那樣直觀，給了問題之后直接看答案就可以分辨出好壞，Embedding模型還是要測試在某個數據集下整體得召回率。

雖然這次Qwen開源了3個尺寸的模型，0.6B、4B和8B，但對于我個人來說，0.6B尺寸還可以，4B、8B為向量還是有點重的，工業(yè)使用上對召回速度要求還是比較高的。

PS：不知道大家真實使用時是不是，開源的Embedding，雖然很多榜單效果很猛，但是還在用之前的BGE-M3模型，哈哈哈。

所以我這兩天也是在自己內部數據集上實測了一把，確實有提高，但沒有那么多，top30的召回率高了1%左右，但是top5沒什么明顯提高。

但是Embedding模型需要調一下Instruct，這個很重要，敲重點！

因為這個內部數據沒法給大家看，我又找了個比較新的領域數據，測了一下，主要是bge-m3和Qwen3-Embedding0.6B，尺寸差不多。

模型結構

Qwen3 Embedding系列模型有兩種，Embedding模型和Reranking模型，模型尺寸均涉及0.6B、4B、8B三種，是由Qwen3基模（不確定是Base還是Instruct）初始化而來。

遲來！解讀Qwen開源的Embedding模型中的細節(jié)！附實測結果！-AI.x社區(qū)

Embedding模型接受單文本輸入，將最后一層的[EOS] Token 的隱藏狀態(tài)向量，作為文本的語義向量，支持MRL動態(tài)維度，但最小為32維；也支持根據不同任務定制輸入指令。 Reranking模型接受文本對輸入，經過chat template拼接后，輸入到模型中，預測下一個Token是“是”或“否”的概率，來判斷兩個文本的相關性。

遲來！解讀Qwen開源的Embedding模型中的細節(jié)！附實測結果！-AI.x社區(qū)

模型訓練

Embedding模型由3階段組成，

第一階段，利用150M 個弱監(jiān)督合成Pair對數據，對比學習預訓練；
第二階段，從150M 個弱監(jiān)督數據中篩選12M 個高質量Pair對數據，再加上7M榜單數據，進行二次訓練；
第三階段，模型融合，將第二階段的多個checkpoint進行參數融合（之前比賽的策略，現在已經成為了常用手段）。

遲來！解讀Qwen開源的Embedding模型中的細節(jié)！附實測結果！-AI.x社區(qū)

訓練方法就是InfoNCE，就是硬負例和batch內負例，模型訓練用的LoRA 微調，就不多說了。

這里想說的一點是，Qwen-Embedding模型與常規(guī)的方法不一樣，它的數據全部都是LLM合成數據。

這里沒想通的是為啥不利用開源數據，一般之前的做法，都是開源數據+合成數據。難道是開源數據的質量不行，不好過濾？由于沒有相關的對比實驗，所有這個部分暫不清楚。

不過合成數據這個部分，Qwen應該是下來大功夫的，我之前做，就是寫幾個不同的模板，直接利用開源文本數據合成一些query，構成pair對。

Qwen3-Embedding的數據合成，有個角色庫，每次從角色庫中利用模型找到最相關的5個角色，再利用不同角色生成數據，還融合了Query類型（例如關鍵詞、事實、摘要、判斷）、長度、難度、語言等信息。有點意思的，相比我10個固定的prompt，這種數據合成的方法，多樣性、質量要好的多。

遲來！解讀Qwen開源的Embedding模型中的細節(jié)！附實測結果！-AI.x社區(qū)

模板選擇

遲來！解讀Qwen開源的Embedding模型中的細節(jié)！附實測結果！-AI.x社區(qū)

問題生成

第二階段高質量Pair對，是通過余弦相似度過濾過的，保留相似度大于0.7的數據。

Embedding模型效果如下，Qwen3-Embedding-0.6B多語言僅次于Gemini-Embedding，在單獨的英文、中文、Code上，跟開源Top gte-Qwen2-7B-instruct也有一拼;Qwen3-Embedding-4B、8B 模型優(yōu)于其他模型。

遲來！解讀Qwen開源的Embedding模型中的細節(jié)！附實測結果！-AI.x社區(qū)

遲來！解讀Qwen開源的Embedding模型中的細節(jié)！附實測結果！-AI.x社區(qū)

Reranker就不說了，直接看測試結構吧，不過訓練只有2、3兩個階段。

遲來！解讀Qwen開源的Embedding模型中的細節(jié)！附實測結果！-AI.x社區(qū)

領域數據評測

因為內部數據沒法公開，為了快速實驗，隨便找了一個中文農林牧漁領域數據集，做個簡單測試，涵蓋農業(yè)、林業(yè)、畜牧業(yè)、漁業(yè)，數據量 900K+。

HF：Mxode/Chinese-QA-Agriculture_Forestry_Animal_Husbandry_Fishery

將回答作為文檔，去重后800K+，random了1k個問題，沒測全。

遲來！解讀Qwen開源的Embedding模型中的細節(jié)！附實測結果！-AI.x社區(qū)

只是簡單測試，不同領域數據不同，使用時還需自己實測！

寫在最后

2023年的時候，就一直在優(yōu)化embedding模型，因為你會發(fā)現rag落地過程當中，有很多時候，不是LLM不行，是根本沒有檢索到合適的文檔、或沒檢索全所有的文檔內容。

當然不止RAG，需要進行過濾的模塊，都會有Embedding模型，比如Agent里，100個工具，全放到提示詞中也不是不可以，但考慮成本和模型本身能力，是不是通過檢索過濾掉一些無用的會更好呢？

Embedding模型現在算法上已經沒有什么好的優(yōu)化手段了，基本上全靠基模，和構造的數據了。

本文轉載自???NLP工作站???，作者：NLP工作站

標簽

贊

收藏

回復

舉報

熱門內容榜 ? 最近上榜

回復

相關推薦

哪個中文開源大模型在信息抽取上效果最好？附：用于提取的提示詞

大語言模型論文跟蹤 ? 5747瀏覽 ? 0回復
大模型應用落地：如何選擇合適的 Embedding 模型？

玄姐聊AGI ? 5166瀏覽 ? 0回復
如何評估大語言模型生成結果的多樣性

sbf_2000 ? 3515瀏覽 ? 1回復
Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet

angel ? 1.1w瀏覽 ? 0回復
實測騰訊開源的Hunyuan-Large大模型，感覺......

NLP工作站 ? 2673瀏覽 ? 0回復
Qwen2.5：13個新模型來襲！開源通用、編碼、數學模型全解讀，72B超越Llama 405B - 本地安裝測試

老蛀蟲 ? 4825瀏覽 ? 0回復
文字秒變視頻，附技術細節(jié)

云原生AI百寶箱 ? 2455瀏覽 ? 0回復
大模型的嵌入——Embedding與向量——Ve ctor

AI探索時代 ? 3727瀏覽 ? 0回復
詳解MMoE 模型：多任務學習中的專家混合建模與實踐【附代碼】

南夏的算法驛站 ? 4217瀏覽 ? 0回復
快來試試智能爬蟲Crawl4AI，開源高效，專為AI量身打造！附實測效果

AI博物院 ? 6101瀏覽 ? 0回復
一文讀懂 RAG 中的 embedding model

鴻煊的學習筆記 ? 3051瀏覽 ? 0回復
Qwen-VL系列多模態(tài)大模型技術演進-模型架構、訓練方法、數據細節(jié)

大模型自然語言處理 ? 5406瀏覽 ? 0回復
阿里震撼發(fā)布，32B的Qwen2.5，開發(fā)者福音！實測：AI可以幫抓小偷了！

51CTO技術棧 ? 3183瀏覽 ? 0回復
DeepSeek與Qwen組團開源了模型，沖!

PaperAgent ? 1692瀏覽 ? 0回復
Llama4 模型細節(jié) & 效果實測

NLP工作站 ? 1711瀏覽 ? 0回復
奧特曼自曝：改版后的GPT-4o諂媚過頭了，系情緒價值拉滿后的結果，實測：大廠薅開源羊毛有錯嗎？沒錯！

51CTO技術棧 ? 1422瀏覽 ? 0回復
Qwen3 一手肝帝實測！附示例，涉及推理、創(chuàng)作、數學和代碼！

NLP工作站 ? 1891瀏覽 ? 0回復
阿里: 開源Qwen3-Embedding Qwen3-Reranker系列模型

鴻煊的學習筆記 ? 1838瀏覽 ? 0回復
Qwen3 Embedding模型架構、訓練方法、數據策略

大模型自然語言處理 ? 1045瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法 7天前發(fā)布
推理模型的必經之路-自適應推理 2025-06-03 06:41:20發(fā)布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統OneRec！ 0回復

上一篇：推理模型的必經之路-自適應推理

下一篇： TransDiff--最簡潔的AR Transformer + Diffusion圖像生成方法

社區(qū)精華內容

目錄

主站蜘蛛池模板：久久6| 国产成人精品免高潮在线观看 | 麻豆久久久 | 日本在线看片 | 亚洲一区二区三区在线免费观看 | 亚洲一区二区免费 | 精品国产一区二区三区日日嗨 | av一区二区三区四区 | 自拍偷拍一区二区三区 | 久草网址 | 国产伦精品一区二区三毛 | 国产aⅴ爽av久久久久久久 | 涩涩视频网站在线观看 | 精品乱人伦一区二区三区 | 亚洲字幕在线观看 | 欧美精品一区在线发布 | 91麻豆精品国产91久久久资源速度 | 精品国产精品三级精品av网址 | 97久久国产 | 亚洲第一免费播放区 | 成人免费视频久久 | 欧美日韩在线一区二区 | 日批免费看 | 精品视频一区二区三区在线观看 | 国家一级黄色片 | 九色在线视频 | 九九热久久免费视频 | 国产99视频精品免视看9 | 免费看黄视频网站 | 毛片免费观看 | 在线婷婷 | 91传媒在线播放 | 国产在线永久免费 | 成人免费视频网站在线观看 | 91美女在线观看 | 91免费电影 | 丝袜美腿一区二区三区动态图 | 久久久久久久国产 | 国产精品成人一区二区三区夜夜夜 | 国产激情一区二区三区 | 日本免费在线 |

<button id="bctfq"><option id="bctfq"><optgroup id="bctfq"></optgroup></option></button>

<output id="bctfq"><option id="bctfq"><em id="bctfq"></em></option></output>