成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o1的規(guī)劃能力如何?LRM是未來嗎?

發(fā)布于 2024-11-28 15:27
瀏覽
0收藏

嘿,大家好!這里是一個專注于AI智能體的頻道~

今天給大家分享一個新研究,前頂會AAAI主席Subbarao Kambhampati發(fā)布的論文。

o1的規(guī)劃能力如何?LRM是未來嗎?-AI.x社區(qū)


能夠規(guī)劃一系列行動以實現預期目標,長期以來被認為是智能體的核心能力之一,并自人工智能研究之初便成為其不可或缺的一部分。隨著大型語言模型(LLMs)的出現,關于它們是否具備這種規(guī)劃能力的問題引起了廣泛關注。我們于2022年開發(fā)的可擴展基準測試PlanBench,緊隨GPT-3的發(fā)布推出,至今仍是評估LLMs規(guī)劃能力的重要工具。盡管自GPT-3以來涌現了大量新的私有和開源LLMs,但在該基準測試上的進展卻出奇地緩慢。OpenAI聲稱,他們最近推出的o1(草莓)模型是專門構建和訓練的,旨在突破自回歸LLMs的常規(guī)限制,使其成為一種新型模型:大型推理模型(LRM)。本文以這一發(fā)展為契機,全面考察了當前LLMs和新LRMs在PlanBench上的表現。正如我們將看到的,盡管o1在該基準測試中的表現實現了量級上的飛躍,遠超競爭對手,但距離完全占據這一基準還有相當距離。這一進步也引發(fā)了關于準確性、效率和可靠性的討論,這些問題在部署此類系統(tǒng)前必須仔細考慮。

SOTA LLM模型在規(guī)劃能力方面仍然非常糟糕! 如下表:

  • 在未混淆的數據集-Blocksworld中,最好的LLMs(如LLaMA 3.1 405B)達到了62.6%的準確率。

在語義相同但句法混淆的數據集-Mystery Blocksworld中,所有LLMs的表現都遠遠落后,沒有一款模型的準確率超過5%。

o1的規(guī)劃能力如何?LRM是未來嗎?-AI.x社區(qū)

OpenAI的o1模型:是為了突破傳統(tǒng)自回歸LLMs的限制而設計和訓練的,屬于LRMs的一種。特點:

  • 結合了基礎LLM(可能是修改版的GPT-4)。
  • 通過RL訓練系統(tǒng)來指導推理過程,生成、篩選和選擇私有推理路徑。
  • 在預訓練階段和推理時可能使用了新的自適應推理過程。

o1評測

  • 在PlanBenc上,o1模型在Blocksworld問題上的表現顯著優(yōu)于之前所有LLMs,正確回答了97.8%的問題。

然而,在Mystery Blocksworld問題上,o1的表現雖然超過所有先前的模型,但準確率也只有52.8%。

o1的規(guī)劃能力如何?LRM是未來嗎?-AI.x社區(qū)

o1的規(guī)劃能力如何?LRM是未來嗎?-AI.x社區(qū)

當處理更復雜問題時

o1模型的性能迅速下降。例如,在需要20到40步解決的更大Blocksworld問題上,o1的準確率僅為23.63%。

o1的規(guī)劃能力如何?LRM是未來嗎?-AI.x社區(qū)

o1最厲害的一點,是宣稱能夠準確識別無法解決的問題,這是規(guī)劃能力的一個重要方面。但是,實驗結果顯示,在被修改為無法解決的Blocksworld問題上,o1正確識別不可解問題的比例并不高,為27%,并且有時會錯誤地聲稱可解問題為不可解。

o1的規(guī)劃能力如何?LRM是未來嗎?-AI.x社區(qū)

最后是平衡成本和效率

下表中,大型推理模型(LRMs)比大型語言模型(LLMs)的成本要高得多。

  • o1模型的推理成本遠高于傳統(tǒng)LLMs,這可能會影響其在實際應用中的可行性。
  • o1的推理過程缺乏透明度,用戶無法控制推理過程中生成的“推理token”數量,這增加了成本的不可預測性。

o1的規(guī)劃能力如何?LRM是未來嗎?-AI.x社區(qū)

文末,作者提到,雖然我們的主要關注點是對o1在PlanBench上的表現進行量化評估,但我們也注意到一個值得提及的o1特性:當模型給出錯誤答案時,有時還會附帶一個富有創(chuàng)意但荒謬的理由,幾乎讓人覺得o1從“幻覺”進化到了“誤導”! 在一個案例中,模型認為一個不可解決的問題是可解決的,因為雖然目標條件沒有在最終狀態(tài)中出現,但在執(zhí)行過程中某個時刻曾為真,因此它認為應該繼續(xù)算數。在另一個案例中,模型聲稱on(a,c)為真,因為它在簡短的括號說明中解釋道,a在b上,b在c上,因此a在某種程度上位于c的上方,應該算作“在它上面”。

本文轉載自??探索AGI??,作者: 獼猴桃????

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产精品污www一区二区三区 | 欧美专区在线视频 | 粉嫩粉嫩芽的虎白女18在线视频 | 永久免费在线观看 | 亚洲国产aⅴ精品 | 亚洲成人播放器 | 免费三级av| 在线观看国产www | www.99久久.com | 欧美精品一区二区三区在线 | 日韩精品一区二 | 午夜影院在线观看视频 | 国产第一区二区 | 久久av一区二区三区 | 在线免费观看黄色av | 欧美成人一区二区 | 玖玖久久 | 亚洲一级在线 | 亚洲精品国产第一综合99久久 | 大象一区 | 亚洲精品一区二区三区中文字幕 | 91久色| 久久一二 | 天天躁日日躁狠狠很躁 | 久久99精品久久久久久琪琪 | 日韩在线免费 | 久久久2o19精品 | 亚洲精品电影在线观看 | 精品国产乱码久久久久久丨区2区 | 日韩不卡一区二区 | 国产精品日韩欧美一区二区三区 | h在线观看| 久久久久亚洲精品 | 99国产精品视频免费观看一公开 | 国产区在线观看 | 久久精品视频在线观看 | 精品免费国产一区二区三区四区 | 国产免费一二三区 | 久久网一区二区 | www久久久| 风间由美一区二区三区在线观看 |