成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

智源開放3億條語義向量模型訓練數據, BGE模型持續迭代更新

人工智能 新聞
BGE 的出色能力很大程度上源于其大規模、多樣化的訓練數據。此前,業界同行鮮有發布同類數據集。

伴隨著大模型開發和應用的火熱發展,作為大模型核心基礎組件的 Embedding 重要性愈發凸顯。智源于一月前發布的開源可商用中英文語義向量模型 BGE(BAAI General Embedding)在社區收獲頗高關注度,Hugging Face 累計下載量達到數十萬。當前,BGE 快速迭代推出 1.5 版本并公布多項更新,其中,BGE 首次開源 3 億條大規模訓練數據,幫助社區訓練同類模型,推動該領域技術發展。

3 億中英向量模型訓練數據開放

業界語義向量模型訓練數據首次開源,達 3 億中英文數據。

BGE 的出色能力很大程度上源于其大規模、多樣化的訓練數據。此前,業界同行鮮有發布同類數據集。在本次更新中,智源首次將 BGE 的訓練數據向社區予以開放,為推動此類技術進一步發展打下了基礎。

此次發布的數據集 MTP 由總計 3 億條中英文關聯文本對構成;其中,中文記錄達 1 億條,英文數據達 2 億條。數據收集自 Wudao Corpora、Pile、DuReader、Sentence Transformer 等語料,經過必要的采樣、抽取、清洗獲得。

詳細細節請參考 Data Hub:https://data.baai.ac.cn

MTP 為迄今開源的最大規模中英文關聯文本對數據集,為訓練中英文語義向量模型提供重要基礎。

響應開發者社區,BGE 功能升級

基于社區反饋,BGE 在其 1.0 的版本之上進行了進一步優化,其表現更加穩健、出色。具體升級如下:

  • 模型更新。BGE-*-zh-v1.5 緩解了相似度分布問題,通過對訓練數據進行過濾,刪除低質量數據,提高訓練時溫度系數 temperature 至 0.02,使得相似度數值更加平穩 。
  • 新增模型。開源 BGE-reranker 交叉編碼器模型,可更加精準找到相關文本,支持中英雙語。不同于向量模型需要輸出向量,BGE-reranker 直接文本對輸出相似度,排序準確度更高,可用于對向量召回結果的重新排序,提升最終結果的相關性。
  • 新增功能。BGE1.1 增加難負樣本挖掘腳本,難負樣本可有效提升微調后檢索的效果;在微調代碼中增加在微調中增加指令的功能;模型保存也將自動轉成 sentence transformer 格式,更方便模型加載。

值得一提的是,日前,智源聯合 Hugging Face 發布了一篇技術報告,報告提出用 C-Pack 增強中文通用語義向量模型。

《C-Pack: Packaged Resources To Advance General Chinese Embedding》

鏈接:https://arxiv.org/pdf/2309.07597.pdf

在開發者社區收獲高熱度

BGE 發布自以來受到大模型開發者社區關注,目前 Hugging Face 累計下載量達到數十萬,且已被 LangChain、LangChain-Chatchat、llama_index 等知名開源項目集成。

Langchain 官方、LangChain 聯合創始人兼首席執行官 Harrison Chase、Deep trading 創始人 Yam Peleg 等社區大 V 對 BGE 表示關注。

圖片


堅持開源開放,促進協同創新,智源大模型技術開體系 FlagOpen BGE 新增 FlagEmbedding 新版塊,聚焦于 Embedding 技術和模型,BGE 是其中明星開源項目之一。FlagOpen 致力于打造大模型時代的 AI 技術基礎設施,未來將持續向學術界和產業界開源更為完整的大模型全棧技術。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-09 10:08:00

模型AI

2025-03-19 09:30:00

2025-05-21 08:35:00

2023-09-16 13:31:25

模型訓練

2020-11-18 10:29:07

模型人工智能開源

2023-11-07 11:50:14

AI訓練

2022-12-06 14:11:32

開源模型

2024-06-19 11:45:34

2021-09-02 18:41:48

智源研究院人工智能

2025-03-21 07:00:00

2020-02-24 10:51:25

微軟開源Windows

2023-09-05 10:21:03

人工智能

2022-03-24 10:35:38

人工智能模型代碼

2025-02-13 08:26:26

2024-08-07 15:27:50

2022-06-25 21:17:15

人工智能訓練

2017-08-09 10:02:12

NMT神經網絡自然語言處理

2023-04-10 11:18:24

GPT模型

2022-04-04 17:52:20

模型計算DeepMind
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国外成人在线视频网站 | 日韩av免费在线电影 | 天堂一区二区三区四区 | 精品国产欧美一区二区三区不卡 | 国产精品福利网站 | 国产精品一区三区 | 黄色毛片视频 | 青娱乐av | 日韩精品一区二区三区在线 | 日韩久久精品 | 国产精品欧美一区二区三区不卡 | 欧美午夜一区 | 亚洲第1页| 欧美成人一区二区三区 | 91精品国产乱码久久久久久 | 久草视| 九九热re | 成人在线播放网站 | 国产精品亚洲一区二区三区在线 | 午夜精品福利视频 | 9999国产精品欧美久久久久久 | 在线播放中文字幕 | 新疆少妇videos高潮 | 黄网站免费在线观看 | 国产免费福利在线 | 福利视频一区二区三区 | 欧美国产一区二区 | 亚洲男女视频在线观看 | 精品久久一| 好姑娘影视在线观看高清 | 成人国产精品久久久 | 欧美日韩久久精品 | 国产一区二区在线91 | www免费视频 | 国产一区二区中文字幕 | 亚洲黄色国产 | 亚洲入口 | 国产在线中文字幕 | 亚洲综合久久精品 | 羞羞羞视频 | 亚洲一区二区三区在线免费观看 |