成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

草莓OpenAI o1的規劃能力怎么樣?泰斗Subbarao Kambhampati給你答案! 原創

發布于 2024-10-8 11:08
瀏覽
0收藏

一、引言

OpenAI發布的草莓o1模型為評估大語言模型(LLMs)在規劃和調度基準上的進展提供了新的機會,但是它的規劃能力到底怎么樣呢?近期,規劃領域泰斗Subbarao Kambhampati教授領銜的論文對其進行了研究,旨在全面評估o1在既定規劃和調度基準上的性能,并展示如何通過將大型推理模型(Large Reasoning Model, LRM)嵌入到帶有可靠驗證器的循環中,為其輸出提供正確性保證并提高性能。

Subbarao Kambhampati一直是經典AI的代表人物,在規劃領域造詣很深。熟悉他的讀者一定知道,Subbarao Kambhampati對大語言模型一直持保守態度。關于Subbarao Kambhampati教授的工作,我們前兩天曾經報道過哦!感興趣的讀者可以參考《啥?!AAAI前主席Subbarao Kambhampati告訴你:大模型不能planning!》

本文評估了兩種大型推理模型(LRM)o1-preview和o1-mini在規劃和調度基準上的能力。結果表明,o1在某些方面優于基于自回歸的大語言模型(LLMs),但推理成本較高,且無法保證生成結果的正確性。通過將o1模型與外部驗證器結合,可以保證組合系統輸出的正確性,同時進一步提高性能。

草莓OpenAI o1的規劃能力怎么樣?泰斗Subbarao Kambhampati給你答案!-AI.x社區


二、背景和相關工作

(一)規劃領域

LLM在規劃任務上表現出一定的局限性,即使在簡單的領域也可能失敗。本文關注經典規劃問題,使用PlanBench基準測試,并在Blocksworld和Mystery Blocksworld等領域進行測試。

(二)調度領域

調度問題主要圍繞資源分配,本文在Natural Plan、TravelPlanner和graph coloring等調度基準上評估o1,這些基準涵蓋了旅行規劃、日歷調度和會議規劃等多個方面。

草莓OpenAI o1的規劃能力怎么樣?泰斗Subbarao Kambhampati給你答案!-AI.x社區

表1:不同系列的大型語言模型在Blocksworld和Mystery Blocksworld領域的600個實例上的性能,使用了零次提示和一次提示。同類最佳準確率用粗體顯示。

三、從近似檢索到近似推理

(一)o1的架構

o1結合了底層的LLM和類似System 2的能力,可能經過強化學習預訓練和自適應推理過程,使其在本質上與之前的LLM有很大不同。

(二)規劃能力評估

  1. PlanBench測試
  • 在原始600實例PlanBench測試集上,o1-preview在Blocksworld實例中正確回答率高達97.8%,遠超LLM,但在Mystery Blocksworld上性能有所下降。
  • 隨著問題規模增加,性能會快速下降,在110個更難的Blocksworld問題上,o1-preview僅能達到23.63%的準確率。
  • 在識別不可解問題方面,o1雖然有一定能力,但仍存在誤判情況,有時會錯誤地聲稱可解問題不可解,或者為不可解問題提供錯誤的計劃。
  1. 擴展到更難的領域
  • 在Sokoban領域,o1-preview和o1-mini分別能正確回答12.7%和10.9%的實例,而Llama3.1 - 405B在這些實例上全部答錯。

草莓OpenAI o1的規劃能力怎么樣?泰斗Subbarao Kambhampati給你答案!-AI.x社區

圖1:這些示例是關于Mystery Blocksworld的。Fast Downward是一種與領域無關的規劃器,它能近乎即時地解決所有給定實例,并保證完美的準確性。大語言模型(LLMs)即使在最小的實例上也很困難。測試的兩種大型推理模型(LRMs),o1 - preview和o1 - mini,效果驚人,但這種性能仍然不夠穩健,并且會隨著長度的增加而迅速下降。

(三)調度能力評估

  1. Graph Coloring
  • o1-mini在原始220個圖著色問題上解決了96%,超過了GPT - 4的16%。在擴展的更難的圖著色測試集上,o1-mini解決了50%,o1-preview解決了64%。
  1. Travel Planning
  • 在TravelPlanner的180個實例驗證集中,o1-preview解決了10%的實例,略高于GPT - 4 - turbo的4.4%,o1-mini解決了1.67%的實例。
  1. Natural Plan
  • 在Natural Plan的三個領域中,o1-mini在日歷調度領域解決了94%的實例,但在旅行規劃和會議規劃領域表現不佳。

草莓OpenAI o1的規劃能力怎么樣?泰斗Subbarao Kambhampati給你答案!-AI.x社區

表2:OpenAI的o1系列大型推理模型和Fast Downward(F.D.)在Blocksworld、Mystery Blocksworld和Randomized Mystery Blocksworld領域的600個實例以及Logistics和Randomized Logistics領域的200個實例上的性能和平均耗時

四、準確性/成本權衡和保證

(一)成本比較

LRM的成本顯著高于LLM,o1-preview和o1-mini每100個實例的成本分別為和3.69,而一些LLM每100個實例的成本在到1.80之間。

(二)權衡分析

雖然o1-preview在準確性上可能高于LLM,但它無法提供正確性保證,且成本效益不明確。相比之下,古典規劃器如Fast Downward在成本、時間和保證正確性方面具有優勢,而LLM - Modulo系統可以在較低成本下提供保證的解決方案。


五、LRM - Modulo提升o1并提供保證

(一)方法介紹

本文提出通過外部驗證器增強o1,將其集成到LRM - Modulo系統中,以提高整體性能并提供輸出保證。

(二)實驗結果

在五個最難的測試集上進行測試,結果表明即使迭代次數有限,性能也有顯著提升。例如,在更難的Blocksworld問題上,o1-preview結合系統的準確率達到98.2%,在Sokoban領域從12.7%提升到43.6%。

六、結論

本文評估了o1-preview和o1-mini在規劃和調度基準上的性能。o1在一些方面取得了進展,但在處理長問題和確定問題可解性方面存在不足。同時討論了準確性和效率的權衡,并展示了LRM - Modulo方法可應用于LRM以提高性能和提供保證。未來的評估需要關注這些因素,以保持其意義和相關性。


本文轉載自公眾號AIGC最前線   作者:實習小畢?

原文鏈接:??https://mp.weixin.qq.com/s/HjAkw-0SUUH0WccBDgbr_g???


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2024-10-8 11:08:18修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲一区二区三区高清 | 欧美毛片免费观看 | 国产精品久久久久久久久免费樱桃 | 狠狠的干狠狠的操 | 久久中文字幕视频 | av福利网| 天天躁日日躁狠狠躁白人 | 很黄很污的网站 | 91久久国产精品 | 成人免费一区二区三区视频网站 | 成人欧美一区二区三区黑人孕妇 | 久久av一区二区三区 | 精品久久国产 | 久久久美女 | 日韩和的一区二区 | 国产视频一区二区 | 久久久久综合 | 国产情侣啪啪 | 欧美精品一区二区在线观看 | 男人天堂99 | 国产精品成av人在线视午夜片 | 欧美日韩国产精品一区 | 精品免费国产 | www久久99| 久久精品视频免费观看 | 亚洲h视频 | 日韩高清成人 | 亚洲精品视频在线看 | 99精品欧美一区二区蜜桃免费 | 国产精品久久国产精品久久 | 一区中文字幕 | 久久精品国产免费看久久精品 | 91精品国产色综合久久不卡98 | 日本在线视频一区二区 | 久久成人午夜 | 亚洲国产欧美在线 | 一区二区三区四区免费在线观看 | 日本一区二区三区免费观看 | 午夜视频一区 | 在线观看午夜视频 | 婷婷福利视频导航 |