成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟分享三大王炸算法:突破大模型推理瓶頸,性能大漲

人工智能 新聞
今天凌晨,微軟在官網(wǎng)分享了自研的三大創(chuàng)新算法,以幫助大模型增強(qiáng)其推理能力。

今天凌晨,微軟在官網(wǎng)分享了自研的三大創(chuàng)新算法,以幫助大模型增強(qiáng)其推理能力。

無論你是小參數(shù)或者是大參數(shù)模型玩家,都能從rStar-Math、LIPS 、CPL這三大算法獲益,突破推理瓶頸,極大增強(qiáng)模型的數(shù)學(xué)推理和思考鏈的能力。

圖片

rStar-Math

rStar-Math算法主要通過蒙特卡洛樹搜索(MCTS)實現(xiàn)深度思考。MCTS 是一種用于決策過程的搜索算法,通過模擬多個可能的路徑來評估每個步驟的價值。在rStar-Math算法中,MCTS 被用來生成高質(zhì)量的推理軌跡,并通過一個基于SLM的獎勵模型進(jìn)行評估。

圖片

在傳統(tǒng)的推理方法中,語言模型生成的自然語言推理軌跡往往存在錯誤或不相關(guān)的內(nèi)容,尤其是在復(fù)雜的數(shù)學(xué)問題中。為了解決這一問題,rStar-Math 引入了代碼增強(qiáng)的CoT方法。大模型在生成每個推理步驟時,會同時生成對應(yīng)的 Python 代碼。

這些代碼不僅用于驗證推理步驟的正確性,還能夠通過執(zhí)行結(jié)果來篩選出高質(zhì)量的生成內(nèi)容。只有那些 Python 代碼能夠成功執(zhí)行的生成內(nèi)容才會被保留,從而確保中間步驟的正確性。

圖片

此外,傳統(tǒng)的獎勵模型訓(xùn)練中,直接使用 Q 值作為獎勵標(biāo)簽是一種常見的方法,但這種方法存在明顯的局限性。Q 值雖然能夠反映步驟的整體質(zhì)量,但它們帶有噪聲,無法精確地評估每個步驟的優(yōu)劣。

為了解決這一難題,rStar-Math 提出了一種新的訓(xùn)練方法,通過構(gòu)建基于 Q 值的正負(fù)偏好對來訓(xùn)練PPM。對于每個推理步驟,模型會選擇 Q 值最高的兩個步驟作為正樣本,選擇 Q 值最低的兩個步驟作為負(fù)樣本。

通過這種方式,PPM 能夠?qū)W習(xí)到如何區(qū)分高質(zhì)量和低質(zhì)量的推理步驟,從而提供更準(zhǔn)確的獎勵信號。這種方法避免了直接使用 Q 值作為獎勵標(biāo)簽的噪聲問題,顯著提高了獎勵模型的精度和可靠性。

論文地址:https://arxiv.org/pdf/2501.04519

rStar-Math的自我進(jìn)化方法也是其核心優(yōu)勢之一。通過四輪自我進(jìn)化,策略模型和PPM 從頭開始逐步構(gòu)建,生成的訓(xùn)練數(shù)據(jù)質(zhì)量不斷提高,覆蓋的問題難度也逐漸增加。

在每一輪中,使用最新的策略模型和 PPM進(jìn)行MCTS,生成高質(zhì)量的推理軌跡,并用這些軌跡訓(xùn)練更強(qiáng)的策略模型和PPM。

LIPS

LIPS算法主要用于增強(qiáng)數(shù)學(xué)推理,其核心思想是將數(shù)學(xué)證明過程中的策略分為縮放和重寫兩大類。縮放策略通過符號工具實現(xiàn),利用有限的不等式引理庫對當(dāng)前目標(biāo)進(jìn)行細(xì)化,而重寫策略則由大模型負(fù)責(zé)生成,通過等價變換將問題轉(zhuǎn)化為更易于解決的形式。

在縮放策略方面,LIPS算法通過符號工具實現(xiàn),利用有限的不等式引理庫對當(dāng)前目標(biāo)進(jìn)行細(xì)化。例如,通過AM-GM不等式,算術(shù)平均數(shù)大于等于幾何平均數(shù)對目標(biāo)中的某些項進(jìn)行縮放。但縮放策略可能會引入無效的子目標(biāo),所以需要通過符號工具如SMT求解器檢查反例,從而過濾掉無效的縮放策略。

圖片

在重寫策略方面,LIPS算法由大模型負(fù)責(zé)生成,通過設(shè)計一系列提示引導(dǎo)大模型對當(dāng)前目標(biāo)進(jìn)行等價變換。例如,通過簡化、重新排列或消去分母等操作將目標(biāo)轉(zhuǎn)化為更易于處理的形式。由于重寫策略的空間是無限的,大模型的數(shù)學(xué)直覺在這里發(fā)揮了關(guān)鍵作用,能夠從大量可能的變換中篩選出最有希望的策略。

圖片

在目標(biāo)過濾與排序方面,LIPS算法采用了兩個階段:符號過濾和神經(jīng)排序??s放和重寫策略生成的新目標(biāo)集合需要進(jìn)一步篩選和排序,以確定最有希望的證明路徑。首先,通過符號過濾階段,利用不等式的齊次性和解耦性來評估每個目標(biāo)的潛力。

論文地址:https://arxiv.org/pdf/2502.13834

齊次性表示不等式兩邊的次數(shù)相同,而解耦性則衡量不等式中混合變量項的數(shù)量。通過這些指標(biāo),可以快速排除那些不太可能被證明的目標(biāo)。其次,在神經(jīng)排序階段,對于經(jīng)過符號過濾后的前k個目標(biāo),利用大模型進(jìn)行最終排序。

CPL

傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法雖然在特定任務(wù)上取得了進(jìn)展,但在跨任務(wù)泛化方面存在不足。此外,大模型的推理空間是無限的,這使得在其中尋找有效的推理路徑變得極為困難。

例如,在數(shù)學(xué)問題解決中,模型需要在眾多可能的解題步驟中找到最優(yōu)路徑,而在代碼生成任務(wù)中,模型需要在復(fù)雜的邏輯結(jié)構(gòu)中進(jìn)行有效的探索。

圖片

為了解決這些難題,微軟提出了CPL算法,一種基于關(guān)鍵計劃步驟學(xué)習(xí)的方法,旨在通過在高層次抽象計劃空間中進(jìn)行搜索,提升模型的泛化能力和推理性能。

在CPL算法中,計劃空間搜索是第一步,也是至關(guān)重要的一步。與傳統(tǒng)的解決方案搜索不同,計劃空間搜索關(guān)注的是高層次的抽象計劃,而不是具體的解決方案。

例如,在解決一個數(shù)學(xué)問題時,模型首先會生成一個逐步解決問題的計劃,而不是直接生成具體的數(shù)學(xué)公式。這種計劃可以包括確定需要應(yīng)用哪些知識、如何分解問題等抽象思維步驟。通過這種方式,模型能夠?qū)W習(xí)到更通用的、與任務(wù)無關(guān)的技能,從而提高其在不同任務(wù)中的泛化能力。

在生成了多樣化的計劃步驟后,CPL的第二步是通過Step-APO學(xué)習(xí)關(guān)鍵計劃步驟。Step-APO是基于Direct Preference Optimization(DPO)的一種改進(jìn)方法,它通過引入優(yōu)勢估計來優(yōu)化步驟偏好。

Step-APO利用MCTS過程中獲得的優(yōu)勢估計,為每一對步驟偏好賦予不同的權(quán)重,從而讓模型能夠更有效地識別出哪些步驟對推理能力的提升更為關(guān)鍵。

論文地址:https://arxiv.org/pdf/2409.08642

例如,在一個復(fù)雜的推理任務(wù)中,模型可能會發(fā)現(xiàn)某些步驟雖然在表面上看起來合理,但實際上對最終結(jié)果的貢獻(xiàn)較小,而Step-APO能夠幫助模型識別并強(qiáng)化那些真正重要的步驟。

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2024-03-06 09:00:00

大語言模型人工智能

2024-12-02 12:37:42

2023-09-25 07:31:19

算力AI框架

2017-01-16 18:11:23

存儲

2025-06-09 09:32:35

2025-05-13 15:13:28

AI模型訓(xùn)練

2024-10-25 14:30:00

模型AI

2025-04-30 16:48:07

2024-12-25 14:30:00

大語言模型AI計算

2023-05-11 07:06:07

谷歌人工智能

2024-12-23 12:37:34

2023-01-05 09:33:37

視覺模型訓(xùn)練

2009-08-21 09:49:42

2024-10-21 13:20:00

視頻數(shù)據(jù)集

2025-05-30 15:53:27

智能體模型AI

2025-03-03 10:17:00

模型數(shù)據(jù)生成

2024-10-12 10:57:39

2024-10-21 16:41:17

2023-08-18 14:34:00

研究模型
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲一区二区免费视频 | 日韩精品1区2区3区 国产精品国产成人国产三级 | 国产成人在线一区二区 | 一区二区三区精品视频 | 国产精品成人一区二区三区夜夜夜 | 青娱乐av | 亚洲精品一区中文字幕乱码 | 国产高清精品一区二区三区 | 日韩精品一二三 | 国产在线精品一区 | 久久精品国产久精国产 | 日韩久久久久久 | 91av小视频 | 天天看天天爽 | 亚洲欧美日韩电影 | 久久久精品日本 | 久草中文在线 | 91色在线视频| 91麻豆精品国产91久久久更新资源速度超快 | 欧美大片久久久 | 久久伊人影院 | 欧美一二精品 | 午夜视频网站 | 国产欧美精品在线观看 | 日韩电影在线一区 | 亚洲欧美日韩精品久久亚洲区 | 97人人澡人人爽91综合色 | 九九久久国产 | 成人综合久久 | 国产精品视频不卡 | 国产中文字幕在线观看 | 欧洲毛片 | 一级片在线观看 | jvid精品资源在线观看 | 国产精品久久久久久妇女6080 | 天天天天操 | 免费视频一区二区 | 午夜免费福利电影 | 精品久久久久久中文字幕 | 欧美精品在线一区 | 天天躁日日躁狠狠躁2018小说 |