草莓OpenAI o1的規劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！原創

發布于 2024-10-8 11:08

瀏覽

0收藏

一、引言

OpenAI發布的草莓o1模型為評估大語言模型（LLMs）在規劃和調度基準上的進展提供了新的機會，但是它的規劃能力到底怎么樣呢？近期，規劃領域泰斗Subbarao Kambhampati教授領銜的論文對其進行了研究，旨在全面評估o1在既定規劃和調度基準上的性能，并展示如何通過將大型推理模型（Large Reasoning Model, LRM）嵌入到帶有可靠驗證器的循環中，為其輸出提供正確性保證并提高性能。

Subbarao Kambhampati一直是經典AI的代表人物，在規劃領域造詣很深。熟悉他的讀者一定知道，Subbarao Kambhampati對大語言模型一直持保守態度。關于Subbarao Kambhampati教授的工作，我們前兩天曾經報道過哦！感興趣的讀者可以參考《啥？！AAAI前主席Subbarao Kambhampati告訴你：大模型不能planning！》

本文評估了兩種大型推理模型（LRM）o1-preview和o1-mini在規劃和調度基準上的能力。結果表明，o1在某些方面優于基于自回歸的大語言模型（LLMs），但推理成本較高，且無法保證生成結果的正確性。通過將o1模型與外部驗證器結合，可以保證組合系統輸出的正確性，同時進一步提高性能。

草莓OpenAI o1的規劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！-AI.x社區

二、背景和相關工作

（一）規劃領域

LLM在規劃任務上表現出一定的局限性，即使在簡單的領域也可能失敗。本文關注經典規劃問題，使用PlanBench基準測試，并在Blocksworld和Mystery Blocksworld等領域進行測試。

（二）調度領域

調度問題主要圍繞資源分配，本文在Natural Plan、TravelPlanner和graph coloring等調度基準上評估o1，這些基準涵蓋了旅行規劃、日歷調度和會議規劃等多個方面。

草莓OpenAI o1的規劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！-AI.x社區

表1：不同系列的大型語言模型在Blocksworld和Mystery Blocksworld領域的600個實例上的性能，使用了零次提示和一次提示。同類最佳準確率用粗體顯示。

三、從近似檢索到近似推理

（一）o1的架構

o1結合了底層的LLM和類似System 2的能力，可能經過強化學習預訓練和自適應推理過程，使其在本質上與之前的LLM有很大不同。

（二）規劃能力評估

PlanBench測試

在原始600實例PlanBench測試集上，o1-preview在Blocksworld實例中正確回答率高達97.8%，遠超LLM，但在Mystery Blocksworld上性能有所下降。
隨著問題規模增加，性能會快速下降，在110個更難的Blocksworld問題上，o1-preview僅能達到23.63%的準確率。
在識別不可解問題方面，o1雖然有一定能力，但仍存在誤判情況，有時會錯誤地聲稱可解問題不可解，或者為不可解問題提供錯誤的計劃。

擴展到更難的領域

在Sokoban領域，o1-preview和o1-mini分別能正確回答12.7%和10.9%的實例，而Llama3.1 - 405B在這些實例上全部答錯。

草莓OpenAI o1的規劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！-AI.x社區

圖1：這些示例是關于Mystery Blocksworld的。Fast Downward是一種與領域無關的規劃器，它能近乎即時地解決所有給定實例，并保證完美的準確性。大語言模型（LLMs）即使在最小的實例上也很困難。測試的兩種大型推理模型（LRMs），o1 - preview和o1 - mini，效果驚人，但這種性能仍然不夠穩健，并且會隨著長度的增加而迅速下降。

（三）調度能力評估

Graph Coloring

o1-mini在原始220個圖著色問題上解決了96%，超過了GPT - 4的16%。在擴展的更難的圖著色測試集上，o1-mini解決了50%，o1-preview解決了64%。

Travel Planning

在TravelPlanner的180個實例驗證集中，o1-preview解決了10%的實例，略高于GPT - 4 - turbo的4.4%，o1-mini解決了1.67%的實例。

Natural Plan

在Natural Plan的三個領域中，o1-mini在日歷調度領域解決了94%的實例，但在旅行規劃和會議規劃領域表現不佳。

草莓OpenAI o1的規劃能力怎么樣？泰斗Subbarao Kambhampati給你答案！-AI.x社區

表2：OpenAI的o1系列大型推理模型和Fast Downward（F.D.）在Blocksworld、Mystery Blocksworld和Randomized Mystery Blocksworld領域的600個實例以及Logistics和Randomized Logistics領域的200個實例上的性能和平均耗時