成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

現(xiàn)實再次給大模型帶來沉重打擊

發(fā)布于 2024-10-12 14:12
瀏覽
0收藏

論文筆記分享,標(biāo)題:LLMS STILL CAN’T PLAN; CAN LRMS? A PRELIMINARY EVALUATION OF OPENAI’S O1 ON PLANBENCH

一個偏實驗性的文章,這篇文章的主要的結(jié)論是。LLMs不擅長規(guī)劃,LRMs看似有希望,但是希望不大

當(dāng)故事看把~

規(guī)劃簡單定義就是說,在面對一些較復(fù)雜的開放式問題時,需要進行一些搜索以確定最佳的解決方案。這個過程,不僅僅是思考可行的方向,還需要將問題分解成更簡單的任務(wù)。

當(dāng)使用目前最牛的LLM來測試這些能力時候,如下圖,對于人來說相對容易解決:

現(xiàn)實再次給大模型帶來沉重打擊-AI.x社區(qū)

但是結(jié)果比較糟糕,Mystery Blocks world 基準(zhǔn)結(jié)果, ChatGPT、Claude、Gemini 和 Llama 的正確問題率為 0% 。

現(xiàn)實再次給大模型帶來沉重打擊-AI.x社區(qū)

Openai O1目前通過更多的思考,天生就是為了這些復(fù)雜的任務(wù)而生的,當(dāng)在相同的數(shù)據(jù)集上測試, o1 的結(jié)果初看確實很驚艷,使第一個簡單的數(shù)據(jù)集達(dá)到97.8% 準(zhǔn)確率,幾乎飽和了。

但是,仔細(xì)分析之后,一旦增加計劃的步驟數(shù),準(zhǔn)確曲線很快就崩潰了,當(dāng)計劃需要 14 個或更多步驟時,準(zhǔn)確率會回到 0% 。

現(xiàn)實再次給大模型帶來沉重打擊-AI.x社區(qū)

當(dāng)然,必須考慮到成本問題,生成成本比prompt編碼成本高很多。所以相比于LLM模型,LRM模型的推理成本達(dá)到了恐怖的100到1000倍

現(xiàn)實再次給大模型帶來沉重打擊-AI.x社區(qū)

另一方面,模型很容易自嗨看下圖,要完成一個需要 20 步的計劃,模型需要生成 6000 個token。比實際的單詞數(shù)量超出了1500+~。

現(xiàn)實再次給大模型帶來沉重打擊-AI.x社區(qū)

成本與效果的權(quán)衡,O1真的值得么?2011年就出現(xiàn)的AI算法,F(xiàn)astForward,在這個評測中可以達(dá)到100%的準(zhǔn)確率,赤裸裸的貼臉開大。并且,F(xiàn)astDownward 運行速度快且成本便宜。比 o1 型號的成本效益高出幾個數(shù)量級,并且至少具有三倍的性能。

現(xiàn)實再次給大模型帶來沉重打擊-AI.x社區(qū)

最后,在評估人工智能是否可以承認(rèn)一個計劃,自身是否是無法解決時。o1 表現(xiàn)出,沒有能力來評估這個事情。o1-preview 僅在 16% 的情況下將問題識別為無法解決。在很多例子中,模型產(chǎn)生了完全不可行且愚蠢的結(jié)果,同時又很能bb。

現(xiàn)實再次給大模型帶來沉重打擊-AI.x社區(qū)

本文轉(zhuǎn)載自 ??NLP前沿??,作者: 熱愛AI

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产精品美女一区二区 | 久久新视频 | 午夜在线观看免费 | 欧美中文在线 | 午夜激情在线 | 日韩欧美一级片 | 一级一级毛片免费看 | 久久久久se | 一区二区久久 | 亚洲欧美一区二区三区1000 | 成人av一区| 国产精品美女一区二区 | 国产日韩一区二区三免费 | 亚洲欧洲精品在线 | 男人天堂av网 | 国产精品久久久久久久久久久久冷 | 国产一级一级 | 欧美日韩三级 | 国产精品久久久久无码av | 欧美国产免费 | 性色的免费视频 | 福利一区视频 | 91免费版在线观看 | 人成在线| 亚洲 欧美 日韩 在线 | 久久男人| 国产精品久久精品 | 激情久久网 | 黄色大片在线视频 | 午夜av在线 | 精品欧美一区二区三区精品久久 | 国产精品视频一区二区三区 | 人人种亚洲| 亚洲一区二区三区四区五区午夜 | 亚洲精品日韩一区二区电影 | 精品一区二区三区四区在线 | 99re6在线视频精品免费 | 亚洲精品视频免费观看 | 欧美一区二区三区免费电影 | 欧美精品一区二区三区蜜桃视频 | 久久国产精品一区二区三区 |