現(xiàn)實再次給大模型帶來沉重打擊
論文筆記分享,標(biāo)題:LLMS STILL CAN’T PLAN; CAN LRMS? A PRELIMINARY EVALUATION OF OPENAI’S O1 ON PLANBENCH
一個偏實驗性的文章,這篇文章的主要的結(jié)論是。LLMs不擅長規(guī)劃,LRMs看似有希望,但是希望不大
當(dāng)故事看把~
規(guī)劃簡單定義就是說,在面對一些較復(fù)雜的開放式問題時,需要進行一些搜索以確定最佳的解決方案。這個過程,不僅僅是思考可行的方向,還需要將問題分解成更簡單的任務(wù)。
當(dāng)使用目前最牛的LLM來測試這些能力時候,如下圖,對于人來說相對容易解決:
但是結(jié)果比較糟糕,Mystery Blocks world 基準(zhǔn)結(jié)果, ChatGPT、Claude、Gemini 和 Llama 的正確問題率為 0% 。
Openai O1目前通過更多的思考,天生就是為了這些復(fù)雜的任務(wù)而生的,當(dāng)在相同的數(shù)據(jù)集上測試, o1 的結(jié)果初看確實很驚艷,使第一個簡單的數(shù)據(jù)集達(dá)到97.8% 準(zhǔn)確率,幾乎飽和了。
但是,仔細(xì)分析之后,一旦增加計劃的步驟數(shù),準(zhǔn)確曲線很快就崩潰了,當(dāng)計劃需要 14 個或更多步驟時,準(zhǔn)確率會回到 0% 。
當(dāng)然,必須考慮到成本問題,生成成本比prompt編碼成本高很多。所以相比于LLM模型,LRM模型的推理成本達(dá)到了恐怖的100到1000倍
另一方面,模型很容易自嗨看下圖,要完成一個需要 20 步的計劃,模型需要生成 6000 個token。比實際的單詞數(shù)量超出了1500+~。
成本與效果的權(quán)衡,O1真的值得么?2011年就出現(xiàn)的AI算法,F(xiàn)astForward,在這個評測中可以達(dá)到100%的準(zhǔn)確率,赤裸裸的貼臉開大。并且,F(xiàn)astDownward 運行速度快且成本便宜。比 o1 型號的成本效益高出幾個數(shù)量級,并且至少具有三倍的性能。
最后,在評估人工智能是否可以承認(rèn)一個計劃,自身是否是無法解決時。o1 表現(xiàn)出,沒有能力來評估這個事情。o1-preview 僅在 16% 的情況下將問題識別為無法解決。在很多例子中,模型產(chǎn)生了完全不可行且愚蠢的結(jié)果,同時又很能bb。
本文轉(zhuǎn)載自 ??NLP前沿??,作者: 熱愛AI
