LLM之后，Agent的未來是RL！

探索AGI

發布于 2025-1-23 09:19

瀏覽

1收藏

嘿，大家好！這里是一個專注于AI智能體的頻道~

今天給家人們聊一期播客總結，四十二章經最新一期播客請到了在Meta工作了七年的應用強化學習組負責人朱哲清Bill。作為斯坦福大學強化學習專業博士，現在創業做Agent的他，拋出了一個巨大的反共識觀點：

"LLM只是一個翻譯官，真正的Agent核心應該是RL。"

等等，這是什么意思？

在2024年，我們見證了GPT-4掀起的Agent熱潮。Claude、GPTs、Copilot...幾乎所有大公司都在用LLM構建Agent。

但Bill卻說，這條路走偏了？

并且，他用自己的技術路線，只花了不到1萬美金就訓練出了一個能在電商領域超越GPT-4的Agent。

這背后到底有什么玄機？

當前Agent的痛點

要理解Bill的觀點，我們先問自己一個問題：當前的Agent真的在"思考"嗎？

播客里邊給出了一個非常形象的類比：想象你在一個復雜的迷宮里。

如果是人類，會怎么做？

分析當前位置
嘗試不同路徑
記住死胡同
總結經驗教訓

但當前的LLM Agent呢？它就像一個只會背誦地圖的人：

? 能說出每個路口的樣子
? 能背誦所有可能的路徑
× 但不會從錯誤中學習
× 更不會優化自己的策略

這就是為什么你會發現：

Agent常常重復同樣的錯誤；遇到新情況就抓瞎；效率始終無法提升等等問題

平行宇宙思維

那RL是如何解決這個問題的？

這里有個有趣的概念：平行宇宙。

想象你在玩《王者榮耀》，每次決策都可以看到未來5分鐘會發生什么，這邊走會被抓，那邊走能拿龍，支援上路能贏團戰。

這就是RL的核心能力：

并行模擬多個未來
評估每個決策的收益
選擇最優的行動路徑

就像，AlphaGo能在沒有人類棋譜的情況下，可以通過自我對弈達到超越人類的水平了；DeepSeek-R1最新的模型，沒有PRM（過程獎勵），沒有MCTS（蒙特卡洛），Zero模型可以直接開始RL，訓出來推理能力。

"翻譯官"LLM

這是不是意味著LLM就沒用了？

恰恰相反。

Bill提出了一個絕妙的比喻：LLM就像一個優秀的"翻譯官"。

想象你是一個天才的圍棋選手，但只會下棋，不會說話。你需要有人幫你理解對手的意圖，幫你表達想法。

這就是LLM的完美定位：

輸入端：把人類語言轉換為RL可以理解的抽象狀態
輸出端：把RL的決策轉換為人類可以理解的語言

最后

Bill預測，2025年會出現三個重要趨勢：

專業領域的Agent會達到專業人士水平
訓練成本會進一步降低
應用場景會不斷擴大

但更重要的是，這個技術路線給了我們一個全新的視角：

也許，真正的AI智能體，應該像人類一樣：

會在"平行宇宙"中規劃
會從經驗中學習
會不斷優化決策

本文轉載自??探索AGI??，作者：獼猴桃 ????

標簽

LLM

Agent

贊

回復

舉報

回復

相關推薦

為什么大佬都在說Agent是未來？換個角度來談一談

Syrupup ? 3352瀏覽 ? 0回復
什么是AI Agent？

zhcs333 ? 5203瀏覽 ? 0回復
【LLM】AgentGym：具有自我演化能力的通用LLM agent

sbf_2000 ? 4988瀏覽 ? 0回復
大神Aviral Kumar：價值學習真的是離線 RL 的主要瓶頸嗎？

AIGC最前線 ? 2903瀏覽 ? 0回復
RAG 的盡頭是 Agent？

玄姐聊AGI ? 2636瀏覽 ? 0回復
大型語言模型（LLM）的歷史與未來

51CTO內容精選 ? 3707瀏覽 ? 0回復
大模型Agent的過去、現在、未來

探索AGI ? 2711瀏覽 ? 0回復
o1的規劃能力如何？LRM是未來嗎？

探索AGI ? 2187瀏覽 ? 0回復
什么是AI Agent，以及怎么實現AI Agent?

AI探索時代 ? 3210瀏覽 ? 0回復
預測未來模型能力！微調揭示LLM涌現能力的關鍵

AIGC最前線 ? 2198瀏覽 ? 0回復
預測未來模型能力！微調揭示LLM涌現能力的關鍵

AIGC最前線 ? 2369瀏覽 ? 0回復
人工智能的未來——AI Agent和Agentic AI的區別與聯系

AI探索時代 ? 2892瀏覽 ? 0回復
黃仁勛：AI Agent是個價值數萬億美元的機會

云原生AI百寶箱 ? 2548瀏覽 ? 0回復
進化搜索策略，提高LLM推理深度；學術搜索智能體，RL+PPO；LLM回答置信度

AI研究前瞻 ? 2387瀏覽 ? 0回復
想聊聊什么是“被動收入”？揭秘它的真相與LLM的機會！

Halo咯咯 ? 2175瀏覽 ? 0回復
理解什么是AI Agent，看懂這篇就夠了

AIGC新知 ? 2797瀏覽 ? 0回復
多智能體（Multi Agent）AI系統：企業智能化轉型的未來

Halo咯咯 ? 2008瀏覽 ? 0回復
人工智能與人性關懷碰撞，AI 的心理健康服務是未來藍圖

xuxiangda ? 2001瀏覽 ? 0回復
NVIDIA（ProRL）｜RL到底能不能提升LLM的推理上限？

arnoldzhw ? 859瀏覽 ? 0回復

探索AGI

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

LLM之后，Agent的未來是RL！

當前Agent的痛點

平行宇宙思維

"翻譯官"LLM

最后

目錄