Llama版o1來了,來自上海AI Lab,強(qiáng)化學(xué)習(xí)代碼已開源,基于AlphaGo Zero范式
復(fù)刻OpenAI o1推理大模型,開源界傳來最新進(jìn)展:
LLaMA版o1項目剛剛發(fā)布,來自上海AI Lab團(tuán)隊。
簡介中明確:使用了蒙特卡洛樹搜索,Self-Play強(qiáng)化學(xué)習(xí),PPO,以及AlphaGo Zero的雙重策略范式(先驗策略+價值評估)。
在2024年6月,o1發(fā)布之前,團(tuán)隊就開始探索蒙特卡洛樹搜索提高大模型數(shù)學(xué)能力,積累了一些關(guān)注。
這次最新開源代碼,也在開發(fā)者社區(qū)引起熱議。
OpenAI o1系列發(fā)布后,團(tuán)隊開始升級算法,專注于數(shù)學(xué)奧賽問題,作為OpenAI草莓項目的開源版本。
10月初,團(tuán)隊上傳新論文,使用成對優(yōu)化(不直接給出絕對分?jǐn)?shù),而是比較兩個答案的相對優(yōu)劣)提高Llama模型數(shù)學(xué)奧賽能力。
在最難的AIME2024基準(zhǔn)測試30道題中,原版LLaMA-3.1-8B-Instruct做對2道,優(yōu)化后做對8道,超過了除o1-preview和o1-mini之外的其他商業(yè)閉源方案。
10月底,團(tuán)隊宣布在基于AlphaGo Zero架構(gòu)復(fù)刻OpenAI o1的努力中取得了重大進(jìn)展:
已成功使模型在學(xué)習(xí)過程中通過與搜索樹交互獲得高級思維能力,無需人工標(biāo)注。
不到一周時間,項目便開源了。
LLaMA版o1最新進(jìn)展
目前已開源內(nèi)容包括:預(yù)訓(xùn)練數(shù)據(jù)集、 預(yù)訓(xùn)練模型、強(qiáng)化學(xué)習(xí)訓(xùn)練代碼。
OpenLongCoT-Pretrain數(shù)據(jù)集,包含10萬+條長思維鏈數(shù)據(jù)。
每條數(shù)據(jù)包含一個完整的數(shù)學(xué)問題推理過程,包含思考內(nèi)容和評分結(jié)果。
例如一個幾何問題,包含了問題描述、圖形坐標(biāo)、計算過程和結(jié)論推導(dǎo)等完整的推理鏈路,以及對各個推理步驟的批評和驗證內(nèi)容,對推理過程進(jìn)行評價和指導(dǎo)。
在此數(shù)據(jù)集繼續(xù)預(yù)訓(xùn)練后,模型可讀取和輸出類似o1的長思維鏈過程。
預(yù)訓(xùn)練代碼尚未發(fā)布,目前推薦使用LLaMaFactory代替。
有意思的是雖然項目名為LLaMA-O1,但目前官方給的預(yù)訓(xùn)練模型基于谷歌Gemma 2。
目前在預(yù)訓(xùn)練模型基礎(chǔ)上,可以繼續(xù)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,從代碼中可以看出訓(xùn)練過程如下:
- 使用蒙特卡洛樹搜索進(jìn)行自我對弈(self-play)以生成經(jīng)驗
- 將經(jīng)驗存儲在優(yōu)先經(jīng)驗回放緩沖區(qū)中
- 從緩沖區(qū)采樣批次數(shù)據(jù)進(jìn)行訓(xùn)練
- 更新模型參數(shù)和經(jīng)驗優(yōu)先級
論文中也給出了訓(xùn)練過程的圖示。
同時訓(xùn)練代碼中使用了以下關(guān)鍵技術(shù)點:
- 使用LoRA進(jìn)行參數(shù)高效微調(diào)
- 使用PPO算法作為策略優(yōu)化方法
- 實現(xiàn)了GAE(Generalized Advantage Estimation)算法用于計算優(yōu)勢函數(shù)
- 使用優(yōu)先經(jīng)驗回放提高訓(xùn)練效率
最后,LLaMA-O1代碼發(fā)布在名為SimpleBerry的GitHub賬號下,并沒有特別簡介,還比較神秘。
其他與SimpleBerry有關(guān)的賬號和官網(wǎng)中,只能看出性質(zhì)是一個研究實驗室,也并未透露更多研究方向信息。
其他o1復(fù)刻項目進(jìn)展
除LLaMA-O1之外,另一個公開進(jìn)展的o1復(fù)刻項目O1-Journey來自上交大團(tuán)隊。
團(tuán)隊在十月初發(fā)布了第一份進(jìn)展報告,其中介紹了創(chuàng)新Journey Learning范式,以及第一個成功將搜索和學(xué)習(xí)整合到數(shù)學(xué)推理中的模型。
O1-Journey核心開發(fā)團(tuán)隊主要由上交大大三、大四本科生,以及上交大GAIR實驗室(生成式人工智能研究實驗室)的一年級博士生組成。
指導(dǎo)教師包括上交大副教授劉鵬飛,姚班校友、斯隆獎得主李遠(yuǎn)志等。
LLaMA-O1:https://github.com/SimpleBerry/LLaMA-O1
相關(guān)論文:https://arxiv.org/abs/2406.07394
https://arxiv.org/abs/2410.02884
O1-Journey:https://github.com/GAIR-NLP/O1-Journey/