成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM之后,Agent的未來是RL!

發布于 2025-1-23 09:19
瀏覽
1收藏

嘿,大家好!這里是一個專注于AI智能體的頻道~

今天給家人們聊一期播客總結,四十二章經最新一期播客請到了在Meta工作了七年的應用強化學習組負責人朱哲清Bill。作為斯坦福大學強化學習專業博士,現在創業做Agent的他,拋出了一個巨大的反共識觀點:

"LLM只是一個翻譯官,真正的Agent核心應該是RL。"

等等,這是什么意思?

在2024年,我們見證了GPT-4掀起的Agent熱潮。Claude、GPTs、Copilot...幾乎所有大公司都在用LLM構建Agent。

但Bill卻說,這條路走偏了?

并且,他用自己的技術路線,只花了不到1萬美金就訓練出了一個能在電商領域超越GPT-4的Agent。

這背后到底有什么玄機?

當前Agent的痛點

要理解Bill的觀點,我們先問自己一個問題:當前的Agent真的在"思考"嗎?

播客里邊給出了一個非常形象的類比:想象你在一個復雜的迷宮里。

如果是人類,會怎么做?

  • 分析當前位置
  • 嘗試不同路徑
  • 記住死胡同
  • 總結經驗教訓

但當前的LLM Agent呢?它就像一個只會背誦地圖的人:

  • ? 能說出每個路口的樣子
  • ? 能背誦所有可能的路徑
  • × 但不會從錯誤中學習
  • × 更不會優化自己的策略

這就是為什么你會發現:

Agent常常重復同樣的錯誤;遇到新情況就抓瞎;效率始終無法提升等等問題

平行宇宙思維

那RL是如何解決這個問題的?

這里有個有趣的概念:平行宇宙。

想象你在玩《王者榮耀》,每次決策都可以看到未來5分鐘會發生什么,這邊走會被抓,那邊走能拿龍 ,支援上路能贏團戰。

這就是RL的核心能力:

  • 并行模擬多個未來
  • 評估每個決策的收益
  • 選擇最優的行動路徑

就像,AlphaGo能在沒有人類棋譜的情況下,可以通過自我對弈達到超越人類的水平了;DeepSeek-R1最新的模型,沒有PRM(過程獎勵),沒有MCTS(蒙特卡洛),Zero模型可以直接開始RL,訓出來推理能力。

"翻譯官"LLM

這是不是意味著LLM就沒用了?

恰恰相反。

Bill提出了一個絕妙的比喻:LLM就像一個優秀的"翻譯官"。

想象你是一個天才的圍棋選手,但只會下棋,不會說話。你需要有人幫你理解對手的意圖,幫你表達想法。

這就是LLM的完美定位:

  • 輸入端:把人類語言轉換為RL可以理解的抽象狀態
  • 輸出端:把RL的決策轉換為人類可以理解的語言

最后

Bill預測,2025年會出現三個重要趨勢:

  • 專業領域的Agent會達到專業人士水平
  • 訓練成本會進一步降低
  • 應用場景會不斷擴大

但更重要的是,這個技術路線給了我們一個全新的視角:

也許,真正的AI智能體,應該像人類一樣:

  • 會在"平行宇宙"中規劃
  • 會從經驗中學習
  • 會不斷優化決策

本文轉載自??探索AGI??,作者: 獼猴桃 ????

標簽
收藏 1
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 二区视频| 国产精品久久久久一区二区三区 | 四虎影院久久 | 香蕉视频91| 欧美成人精品激情在线观看 | 久婷婷 | 日本三级在线网站 | 欧美成人h版在线观看 | 欧美激情网站 | 中文字幕av亚洲精品一部二部 | 久久久国产一区二区三区四区小说 | 国产一区二区三区在线看 | 精品视频在线免费观看 | 免费看日韩视频 | 欧美13videosex性极品 | 一区在线播放 | 人人干人人干人人干 | 成人精品久久日伦片大全免费 | 日本三级在线 | 日本三级网站在线 | 亚洲精品在线免费播放 | 91精品国产欧美一区二区成人 | 国产精品三级 | 免费大黄视频 | 欧美日韩在线国产 | 久久久久无码国产精品一区 | 日韩欧美精品在线 | 欧美黄色精品 | 性做久久久久久免费观看欧美 | 午夜视频在线免费观看 | 美女一区 | 另类在线 | 一区二区三区视频在线免费观看 | 欧美日韩高清免费 | 亚洲视频在线播放 | 欧美极品少妇xxxxⅹ免费视频 | 在线一区二区三区 | 欧美日韩中文字幕在线 | 久操国产 | 欧美日韩一区二区三区四区 | 欧美黑人巨大videos精品 |