成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Llama版o1來了，來自上海AI Lab，強(qiáng)化學(xué)習(xí)代碼已開源，基于AlphaGo Zero范式

作者：量子位 2024-11-05 14:20:00

人工智能新聞

LLaMA版o1項目剛剛發(fā)布，來自上海AI Lab團(tuán)隊。

復(fù)刻OpenAI o1推理大模型，開源界傳來最新進(jìn)展：

LLaMA版o1項目剛剛發(fā)布，來自上海AI Lab團(tuán)隊。

簡介中明確：使用了蒙特卡洛樹搜索，Self-Play強(qiáng)化學(xué)習(xí)，PPO，以及AlphaGo Zero的雙重策略范式（先驗策略+價值評估）。

在2024年6月，o1發(fā)布之前，團(tuán)隊就開始探索蒙特卡洛樹搜索提高大模型數(shù)學(xué)能力，積累了一些關(guān)注。

這次最新開源代碼，也在開發(fā)者社區(qū)引起熱議。

OpenAI o1系列發(fā)布后，團(tuán)隊開始升級算法，專注于數(shù)學(xué)奧賽問題，作為OpenAI草莓項目的開源版本。

10月初，團(tuán)隊上傳新論文，使用成對優(yōu)化（不直接給出絕對分?jǐn)?shù)，而是比較兩個答案的相對優(yōu)劣）提高Llama模型數(shù)學(xué)奧賽能力。

在最難的AIME2024基準(zhǔn)測試30道題中，原版LLaMA-3.1-8B-Instruct做對2道，優(yōu)化后做對8道，超過了除o1-preview和o1-mini之外的其他商業(yè)閉源方案。

10月底，團(tuán)隊宣布在基于AlphaGo Zero架構(gòu)復(fù)刻OpenAI o1的努力中取得了重大進(jìn)展：

已成功使模型在學(xué)習(xí)過程中通過與搜索樹交互獲得高級思維能力，無需人工標(biāo)注。

不到一周時間，項目便開源了。

LLaMA版o1最新進(jìn)展

目前已開源內(nèi)容包括：預(yù)訓(xùn)練數(shù)據(jù)集、預(yù)訓(xùn)練模型、強(qiáng)化學(xué)習(xí)訓(xùn)練代碼。

OpenLongCoT-Pretrain數(shù)據(jù)集，包含10萬+條長思維鏈數(shù)據(jù)。

每條數(shù)據(jù)包含一個完整的數(shù)學(xué)問題推理過程，包含思考內(nèi)容和評分結(jié)果。

例如一個幾何問題，包含了問題描述、圖形坐標(biāo)、計算過程和結(jié)論推導(dǎo)等完整的推理鏈路，以及對各個推理步驟的批評和驗證內(nèi)容，對推理過程進(jìn)行評價和指導(dǎo)。

在此數(shù)據(jù)集繼續(xù)預(yù)訓(xùn)練后，模型可讀取和輸出類似o1的長思維鏈過程。

預(yù)訓(xùn)練代碼尚未發(fā)布，目前推薦使用LLaMaFactory代替。

有意思的是雖然項目名為LLaMA-O1，但目前官方給的預(yù)訓(xùn)練模型基于谷歌Gemma 2。

目前在預(yù)訓(xùn)練模型基礎(chǔ)上，可以繼續(xù)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練，從代碼中可以看出訓(xùn)練過程如下：

使用蒙特卡洛樹搜索進(jìn)行自我對弈(self-play)以生成經(jīng)驗
將經(jīng)驗存儲在優(yōu)先經(jīng)驗回放緩沖區(qū)中
從緩沖區(qū)采樣批次數(shù)據(jù)進(jìn)行訓(xùn)練
更新模型參數(shù)和經(jīng)驗優(yōu)先級

論文中也給出了訓(xùn)練過程的圖示。

同時訓(xùn)練代碼中使用了以下關(guān)鍵技術(shù)點：

使用LoRA進(jìn)行參數(shù)高效微調(diào)
使用PPO算法作為策略優(yōu)化方法
實現(xiàn)了GAE(Generalized Advantage Estimation)算法用于計算優(yōu)勢函數(shù)
使用優(yōu)先經(jīng)驗回放提高訓(xùn)練效率

最后，LLaMA-O1代碼發(fā)布在名為SimpleBerry的GitHub賬號下，并沒有特別簡介，還比較神秘。

其他與SimpleBerry有關(guān)的賬號和官網(wǎng)中，只能看出性質(zhì)是一個研究實驗室，也并未透露更多研究方向信息。

其他o1復(fù)刻項目進(jìn)展

除LLaMA-O1之外，另一個公開進(jìn)展的o1復(fù)刻項目O1-Journey來自上交大團(tuán)隊。

團(tuán)隊在十月初發(fā)布了第一份進(jìn)展報告，其中介紹了創(chuàng)新Journey Learning范式，以及第一個成功將搜索和學(xué)習(xí)整合到數(shù)學(xué)推理中的模型。

O1-Journey核心開發(fā)團(tuán)隊主要由上交大大三、大四本科生，以及上交大GAIR實驗室（生成式人工智能研究實驗室）的一年級博士生組成。

指導(dǎo)教師包括上交大副教授劉鵬飛，姚班校友、斯隆獎得主李遠(yuǎn)志等。

LLaMA-O1：https://github.com/SimpleBerry/LLaMA-O1
相關(guān)論文：https://arxiv.org/abs/2406.07394
https://arxiv.org/abs/2410.02884

O1-Journey：https://github.com/GAIR-NLP/O1-Journey/

責(zé)任編輯：張燕妮來源：量子位

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：久久成| 国产在线一区二区三区 | 欧美小视频在线观看 | 欧洲在线视频 | 第四色影音先锋 | 一区在线播放 | 青青草国产在线观看 | 成人九色| 一区二区三区高清 | 日韩免费av一区二区 | 欧美专区在线视频 | 自拍偷拍一区二区三区 | 久久久久九九九女人毛片 | www.99re5.com| 欧美激情视频网站 | 久久久精品影院 | 欧美日韩精品一区二区三区视频 | 欧美色偷拍 | 人人澡人人射 | 91精品国产综合久久福利软件 | 亚洲黄色av网站 | 依人成人| 免费激情 | 免费观看一级毛片视频 | 久久久久久美女 | 国产区视频在线观看 | 欧美日韩一二区 | 亚洲精品国产成人 | 精品国产一区二区三区久久影院 | 精品二区 | 97伊人 | 国产精品国产精品国产专区不卡 | 久久999 | 色女人天堂 | 日韩在线免费播放 | 久久综合一区二区三区 | 97国产成人 | 免费观看一级毛片 | 91国内视频在线 | 久久久国产一区 | 欧美在线视频一区二区 |

<input id="civpv"><label id="civpv"><abbr id="civpv"></abbr></label></input>