成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM數學性能暴漲168%,微軟14人團隊力作!合成數據2.0秘訣曝光,智能體生成教學

人工智能 新聞
合成數據2.0秘訣曝光了!來自微軟的研究人員們提出了智能體框架AgentInstruct,能夠自動創建大量、多樣化的合成數據。經過合成數據微調后的模型Orca-3,在多項基準上刷新了SOTA。

全世界高質量數據幾乎枯竭。

AI科學家們為了解決這一難題,可謂是絞盡腦汁。

目前來看,合成數據或許就是大模型的未來,也成為業界公認的解決之法。

就連英偉達科學家Jim Fan曾發文表示,合成數據將提供下一萬億個高質量的訓練token。

圖片

但是,用合成數據,并非完全對LLM訓練有幫助。

前段時間,Nature封面研究顯示,合成數據迭代9次后,會讓大模型崩潰。而且,類似的研究比比皆是。

那么,我們該怎么辦呢?

最近,微軟團隊提出了可擴展的智能體框架——AgentInstruct,可自動創建大量多樣化、高質量的合成數據。

它最大的優勢在于,僅只用原始數據源,就能創建完整的提示和回應。

圖片

論文地址:https://arxiv.org/pdf/2407.03502

對此,研究人員使用AgentInstruct,創建了2500萬對「后訓練」數據集,涵蓋了多種使用技能,如文本編輯、創意寫作、工具使用、編碼、閱讀理解等。

然后,他們利用這些數據對Mistral-7b進行后訓練,得到了Orca-3模型。

與原始的Mistral-7b-Instruct相比,Orca-3在多個基準測試中,都顯示出顯著的性能提升。

圖片

而在數學方面上的表現,性能直接暴漲168%。

圖片

當「合成數據」遇上智能體

過去一年,我們見證了智能體的興起。

智能體可以生成高質量的數據,通過反思和迭代,其能力反超了底層基礎大模型。

在這個過程中,智能體可以回顧解決方案,自我批評,并改進解決方案。它們甚至可以利用工具,如搜索API、計算器、代碼解釋,來擴展大模型的能力。

此外,多智能體還可以帶來更多的優勢,比如模擬場景,同時生成新的提示和響應。

它們還可以實現數據生成工作流的自動化,減少或消除某些任務對人工干預的需求。

論文中,作者提出了「生成式教學」的概念。

這是說,使用合成數據進行后訓練,特別是通過強大的模型創建數據,來教另一個模型新技能或行為。

AgentInstruct是生成式教學的一個智能體解決方案。

總而言之,AgentInstruct可以創建:

- 高質量數據:使用強大的模型如GPT-4,結合搜索和代碼解釋器等工具。

- 多樣化數據:AgentInstruct同時生成提示和回應。它使用多智能體(配備強大的LLM、工具和反思流程)和一個包含100多個子類別的分類法,來創建多樣化和高質量的提示和回應。

- 大量數據:AgentInstruct可以自主運行,并可以應用驗證和數據過濾的流程。它不需要種子提示,而是使用原始文檔作為種子。

圖片

生成式教學:AgentInstruct

我們如何創建海量數據?如何保證生成的數據具有多樣性?如何生成復雜或微妙的數據?

為此,研究人員概述了解決這些挑戰的結構化方法:

圖片

具體來說,AgentInstruct定義了三種不同的自動化生成流程:

內容轉換流程:將原始種子轉換為中間表示,簡化了針對特定目標創建指令的過程。

種子指令生成流程:由多個智能體組成,以內容轉換流程的轉換后種子為輸入,生成一組多樣化的指令。

指令改進流程:以種子指令流程的指令為輸入,迭代地提升其復雜性和質量。

圖片

接下來,研究人員為為17種不同的技能實現了這些流程,每種技能都有多個子類別。

這些技能包括閱讀理解、問答、編碼、檢索增強生成、創意寫作、工具/API使用和網絡控制。

完整列表,如下表1中所示。

圖片

接下來,研究人員通過以下三種技能的案例研究,來解釋這些工作流是如何運作的。

圖片

圖片

圖片

實驗結果

正如開頭所述,研究人員使用2580萬對指令,微調Mistral-7b-v0.1模型,然后得到Orca-3。

那么經過使用AgentInstruct數據訓練Orca-3,性能究竟如何?

AgentInstruct的目標是合成一個大型且多樣化的數據集,其中包含不同難度級別的數據。

在這個數據集上,像Orca-2.5、Mistral-Instruct-7b和ChatGPT這樣的基準模型得分遠低于10分,顯示出它們相對于GPT-4(被指定為基準,得分為10)的劣勢。

圖4中描繪的性能比較展示了基準模型與Orca-3之間的對比分析。

這個圖顯示了在AgentInstruct數據的支持下,后訓練過程中各種能力的顯著提升。

圖片

表2概括了所有評估維度的平均得分。

平均而言,包括每輪訓練輪后的Orca-3,AgentInstruct數據的引入使性能相比Orca 2.5基準提高了33.94%,相比Mistral-Instruct-7B提高了14.92%。

圖片

刷新多項基準SOTA

表3中給出了每個基準的所有基線的結果。

比如,在AGIEval提升40%,在MMLU上提升19%,在GSM8K上提升54%,在BBH上提升38%,在AlpacaEval上提升45%。

此外,它在性能上持續超過其他模型,如LLAMA-8B-instruct和GPT-3.5-turbo。

圖片

就閱讀理解任務來說,對于LLM至關重要。對于小模型來說,也更為重要。

通過使用AgentInstruct進行針對性訓練,可以觀察到Mistral的閱讀理解能力有了實質性的提升(見表4)——相比Orca 2.5提高了18%,相對于Mistral-Instruct-7b提高了21%。

此外,通過利用這種數據驅動的方法,研究人員將一個7B參數的模型在LSATs的閱讀理解部分的表現,提升到了與GPT-4相匹配的水平。

圖片

再拿數學來說,通過AgentInstruct,成功提升了Mistral在從小學到大學水平的各種難度數學問題上的熟練程度,如下表5所示。

在各種流行的數學基準測試上,改進幅度從44%-168%不等。

應當強調的是,生成式教學的目標是教授一種技能,而不是生成數據來滿足特定的基準測試。AgentInstruct在生成式教學方面的有效性通過在各種數學數據集上的顯著改進得到了證明。

圖片

表6顯示了,Orca-3-7B模型和FoFo基準上,其他開源和閉源基準的性能。

圖片

另外,通過 AgentInstruct 方法,成功地將模型幻覺減少31.34%,同時達到了與GPT-4(教師)相當的質量水平。

圖片

表8顯示了使用/不使用RAG的MIRAGE上所有模型的結果。

圖片

總之,AgentInstruct生成教學方法,為模型后訓練生成大量多樣化和高質量數據的挑戰,提供了一個有前途的解決方案。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-02-23 07:46:48

學習模型數據倉庫

2025-03-03 09:00:00

2024-12-02 10:15:00

LLM模型

2022-06-20 11:28:20

人工智能數據生成器

2013-05-30 09:15:16

微軟團隊成功秘訣微軟

2024-04-18 08:38:15

LLM數據訓練模型

2025-06-25 08:53:00

模型AI強化學習

2024-12-23 09:38:00

2024-02-02 17:04:35

UCLALLMGPT-4

2022-06-13 15:28:42

人工智能機器學習數據

2024-10-14 09:25:00

2022-08-11 08:00:00

機器學習合成數據深度學習

2025-04-08 00:40:00

谷歌合成數據大模型

2024-09-27 12:20:18

2025-02-07 13:26:13

2022-04-17 23:13:02

人工智能元宇宙數據

2023-08-01 14:59:35

人工智能合成數據

2025-06-04 03:00:00

人工智能AI智能訓練

2025-02-17 14:34:52

2024-05-28 09:24:32

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91精品久久久久久久久 | 国产九九精品视频 | 国产精品一区二区久久精品爱微奶 | 日韩中文字幕区 | 亚洲精品一区在线 | 丁香六月激情 | 情侣酒店偷拍一区二区在线播放 | 国产精品欧美精品 | 欧美福利三区 | 日韩在线中文字幕 | 精品国产伦一区二区三区观看方式 | 国产精品亚洲第一 | 精品国产一区二区三区在线观看 | 超碰在线亚洲 | 久久激情五月丁香伊人 | 偷派自拍 | 超碰精品在线 | 一区中文字幕 | 久久高清免费视频 | 久久婷婷国产 | 国产视频一区在线 | 伊人伊人 | 国产一区二区三区视频 | 中文字幕韩在线第一页 | 欧美一区二区三区高清视频 | 国产成人99久久亚洲综合精品 | 国产在线资源 | 亚洲一区久久 | 欧美成人精品一区二区男人看 | 国产激情自拍视频 | 成人精品一区二区三区中文字幕 | 九九精品热 | 美女视频. | 天天影视色综合 | 午夜日韩 | www.久 | 日本免费黄色 | 国产一区二区在线视频 | 国产精品高潮呻吟久久 | 中文字幕 在线观看 | 99久久精品国产毛片 |