成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

重大突破!微軟發布“自我進化”,幫小模型超OpenAI-o1

人工智能 新聞
在美國數學競賽AIME 2024測試中,rStar-Math平均解決了53.3%(8/15)的難題,超過了OpenAI o1-preview的44.6%,以及所有其他開源的大模型,成為最聰明的前20%高中數學生。

微軟亞洲研究院發布了一種創新算法——rStar-Math。

rStar-Math通過代碼增強CoT、蒙特卡洛樹搜索等,可以幫助小參數模型在不依賴老師模型蒸餾的情況下,實現多輪自我思維深度進化,極大增強模型的數學推理能力。

在美國數學競賽AIME 2024測試中,rStar-Math平均解決了53.3%(8/15)的難題,超過了OpenAI o1-preview的44.6%,以及所有其他開源的大模型,成為最聰明的前20%高中數學生。

在MATH基準測試中,rStar-Math將阿里開源的小模型Qwen2.5-Math-7B的準確率從58.8%提高到90.0%,Qwen2.5-Math-1.5B的準確率從51.2%提高到87.8%,Phi3-mini-3.8B從41.4%提高到86.4%,全部超過了OpenAI o1-preview。

這充分說明,小模型在創新算法和高質量數據加持下,推理能力同樣可以超大參數的前沿模型。

圖片

代碼增強CoT

傳統的數學推理模型依賴于自然語言生成的推理步驟,這種方法雖然直觀,但容易產生錯誤或不相關的步驟,尤其是在復雜的數學問題中很難被察覺到。所以,rStar-Math使用代碼增強CoT(Chain-of-Thought,思維鏈)的方法來解決這個難題。

模型在生成每一步推理時,不僅生成自然語言的解釋,還生成對應的Python代碼,并通過代碼執行來驗證推理步驟的正確性。代碼增強CoT能夠提供嚴格的驗證機制,確保每一步推理的正確性。

例如,在解決一個數學問題時,模型可能會生成一個方程求解的步驟,并通過Python代碼實際執行該方程求解過程。如果代碼執行成功且結果正確,該步驟才會被保留為有效推理步驟。這種方法不僅減少了錯誤推理步驟的生成,還提高了推理軌跡的整體質量。

圖片

為了進一步確保推理步驟的質量,rStar-Math 使用了蒙特卡洛樹搜索(MCTS)來生成逐步推理軌跡。MCTS 被用來分解復雜的數學問題為多個單步生成任務。

每個步驟中,策略模型生成多個候選步驟,并通過代碼執行來過濾有效節點。通過廣泛的MCTS回滾,rStar-Math 能夠為每個步驟分配Q值,確保生成的推理軌跡由正確且高質量的中間步驟組成。

PPM訓練方法

目前,多數大模型在推理數學問題時面臨著無法提供細粒度的步驟級反饋,以幫助其在推理過程中做出更優的選擇。rStar-Math通過引入過程獎勵模型(PRM)來幫助模型找到更優的推理路徑。

PPM 的核心思想是通過構建步驟級的正負偏好對來訓練模型,而不是直接依賴于精確的步驟級評分。PPM 的訓練方法利用了MCTS生成的Q值,這些Q值是通過廣泛的回滾和反向傳播過程計算得出的,反映了每個步驟對最終答案的貢獻。雖然這些Q值本身并不完全精確,但它們能夠可靠地區分高質量步驟和低質量步驟。

圖片

PPM從MCTS樹中選擇Q值最高的兩個步驟作為正例,Q值最低的兩個步驟作為負例,構建偏好對。通過這種方式,PPM 能夠學習到哪些步驟更有可能引導模型生成正確的推理軌跡,從而在推理過程中做出更優的選擇。

PPM 的訓練過程采用了標準的Bradley-Terry 模型和成對排序損失函數。對于每個步驟,PPM 預測一個獎勵分數,并通過成對排序損失函數來優化模型的預測能力。成對排序損失函數的核心思想是最大化正例步驟與負例步驟之間的獎勵分數差異,從而確保模型能夠準確地區分高質量和低質量的推理步驟。

圖片

PPM 的訓練方法還引入了一個重要的創新點,避免直接使用Q值作為獎勵標簽。雖然Q值能夠提供一定的步驟級反饋,但由于其固有的噪聲和不精確性,直接使用Q值作為訓練目標會導致模型學習到不準確的獎勵信號。

所以,PPM 通過構建偏好對將Q值轉化為相對排序問題,從而減少了噪聲對模型訓練的影響。這種方法不僅提高了模型的魯棒性,還使得PPM能夠在推理過程中更可靠地評估每一步的質量。

多輪自我進化

rStar-Math通過四輪自我思維深度進化,并結合PPM、MCTS和代碼增強CoT 逐步增強模型的推理能力。

第一輪,通過監督微調對基礎模型進行初步改進,為后續的自我進化奠定基礎。這一輪的關鍵在于生成高質量的初始訓練數據,并利用這些數據對基礎模型進行微調。

第二輪,通過PPM顯著提升模型推理能力。PPM通過分析策略模型生成的推理步驟,識別出哪些步驟是高質量的,哪些步驟需要改進。然后將這些反饋信息傳遞給策略模型,指導其在后續的推理中做出更好的選擇。

圖片

第三輪,通過PPM增強的MCTS生成更高質量的數據,進一步提升模型的推理能力。在這一輪中,PPM不僅評估策略模型生成的推理步驟,還指導MCTS的搜索過程,使其更有效地探索高質量的推理路徑。

第四輪,通過增加MCTS回滾次數解決超難數學推理問題。在前三輪自我進化的基礎之上,第四輪自我進化通過增加MCTS的回滾次數,進一步提升了rStar-Math解決具有挑戰性數學問題的能力。

增加回滾次數使得MCTS能夠更深入地探索不同的推理路徑,發現那些在初步探索中可能被忽略的高質量解決方案。這不僅提高了模型對復雜問題的解決能力,還增強了其在面對高難度數學問題時的魯棒性。

代碼地址(目前無法打開處于審核中):https://github.com/microsoft/rStar

論文地址:https://arxiv.org/abs/2501.04519

從昨天微軟開源的最強小模型Phi-4,以及最新推出創新算法rStar-Math來看,未來小模型的性能和效率將逐漸成為主流,并且對于沒有強大算力集群的中小企業和個人開發者來說非常實用。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2024-06-19 15:24:38

2025-04-22 09:50:01

2025-01-23 10:45:52

2024-09-13 06:32:25

2024-11-06 16:47:33

2024-12-09 11:06:31

2024-11-05 14:48:57

2016-01-05 17:07:10

LiFi技術無線技術

2025-01-10 11:42:40

2025-06-13 08:11:11

2012-08-30 10:05:57

VMware

2021-01-20 09:41:46

量子無人機網絡

2021-02-22 10:38:05

人工智能人工智能產業圖譜

2024-09-13 10:14:36

2019-02-19 16:24:22

小米Miui

2009-04-02 08:49:20

Opera瀏覽器表情控制

2012-12-11 09:55:03

IBM硅納米光電傳導

2022-01-10 08:00:43

認知智能AI

2020-04-06 13:30:03

機器學習算法AI

2018-01-10 09:20:55

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产999精品久久久久久绿帽 | 国产一区二区三区四区 | 激情久久久久 | 黄色成人在线观看 | av网站在线免费观看 | 精品99久久 | avtt国产 | 午夜影院在线观看视频 | 在线观看视频91 | 免费av观看 | 男女羞羞在线观看 | 久久久久国产视频 | 91精品国产一区 | 中文字幕一区二区三区不卡 | 人人干超碰 | 三级视频网站 | 日韩综合网 | 国产精品激情 | 国产精品欧美日韩 | 国产成人精品免费视频大全最热 | 亚洲国产精品va在线看黑人 | 国产精品久久 | 三级在线免费观看 | 永久免费在线观看 | 国产综合久久久 | 中文字幕不卡在线观看 | 黄色大片网站 | 欧美一级视频在线观看 | 欧美一卡二卡在线 | 国产成人99久久亚洲综合精品 | 久久这里只有精品首页 | 九色视频网站 | a级片在线观看 | 亚洲一区久久 | 午夜精品久久久 | 国产精品免费在线 | 毛色毛片免费看 | 日韩高清www | 欧美精品二区 | 欧美成人免费在线视频 | 国产精品久久久久久久久久久久午夜片 |