成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

現(xiàn)實再次給大模型帶來沉重打擊

發(fā)布于 2024-10-12 14:12

瀏覽

0收藏

論文筆記分享，標(biāo)題：LLMS STILL CAN’T PLAN; CAN LRMS? A PRELIMINARY EVALUATION OF OPENAI’S O1 ON PLANBENCH

一個偏實驗性的文章，這篇文章的主要的結(jié)論是。LLMs不擅長規(guī)劃，LRMs看似有希望，但是希望不大

當(dāng)故事看把~

規(guī)劃簡單定義就是說，在面對一些較復(fù)雜的開放式問題時，需要進行一些搜索以確定最佳的解決方案。這個過程，不僅僅是思考可行的方向，還需要將問題分解成更簡單的任務(wù)。

當(dāng)使用目前最牛的LLM來測試這些能力時候，如下圖，對于人來說相對容易解決：

現(xiàn)實再次給大模型帶來沉重打擊-AI.x社區(qū)

但是結(jié)果比較糟糕，Mystery Blocks world 基準(zhǔn)結(jié)果， ChatGPT、Claude、Gemini 和 Llama 的正確問題率為 0% 。

現(xiàn)實再次給大模型帶來沉重打擊-AI.x社區(qū)

Openai O1目前通過更多的思考，天生就是為了這些復(fù)雜的任務(wù)而生的，當(dāng)在相同的數(shù)據(jù)集上測試， o1 的結(jié)果初看確實很驚艷，使第一個簡單的數(shù)據(jù)集達(dá)到97.8% 準(zhǔn)確率，幾乎飽和了。

但是，仔細(xì)分析之后，一旦增加計劃的步驟數(shù)，準(zhǔn)確曲線很快就崩潰了，當(dāng)計劃需要 14 個或更多步驟時，準(zhǔn)確率會回到 0% 。

現(xiàn)實再次給大模型帶來沉重打擊-AI.x社區(qū)

當(dāng)然，必須考慮到成本問題，生成成本比prompt編碼成本高很多。所以相比于LLM模型，LRM模型的推理成本達(dá)到了恐怖的100到1000倍

現(xiàn)實再次給大模型帶來沉重打擊-AI.x社區(qū)

另一方面，模型很容易自嗨看下圖，要完成一個需要 20 步的計劃，模型需要生成 6000 個token。比實際的單詞數(shù)量超出了1500+~。

現(xiàn)實再次給大模型帶來沉重打擊-AI.x社區(qū)

成本與效果的權(quán)衡，O1真的值得么？2011年就出現(xiàn)的AI算法，F(xiàn)astForward，在這個評測中可以達(dá)到100%的準(zhǔn)確率，赤裸裸的貼臉開大。并且，F(xiàn)astDownward 運行速度快且成本便宜。比 o1 型號的成本效益高出幾個數(shù)量級，并且至少具有三倍的性能。

現(xiàn)實再次給大模型帶來沉重打擊-AI.x社區(qū)

最后，在評估人工智能是否可以承認(rèn)一個計劃，自身是否是無法解決時。o1 表現(xiàn)出，沒有能力來評估這個事情。o1-preview 僅在 16% 的情況下將問題識別為無法解決。在很多例子中，模型產(chǎn)生了完全不可行且愚蠢的結(jié)果，同時又很能bb。

現(xiàn)實再次給大模型帶來沉重打擊-AI.x社區(qū)

本文轉(zhuǎn)載自 ??NLP前沿??，作者：熱愛AI

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

清華給海內(nèi)外知名大模型做了場綜合能力評測

輕薄滴假象 ? 3179瀏覽 ? 0回復(fù)
谷歌多模態(tài)大模型ScreenAI：帶來人機界面交互新方式

魚蟲子 ? 3943瀏覽 ? 0回復(fù)
用神經(jīng)架構(gòu)搜索給LLM瘦身，模型變小，準(zhǔn)確度有時反而更高

輕薄滴假象 ? 2409瀏覽 ? 0回復(fù)
3D語言模型的新突破：解鎖虛擬現(xiàn)實中的'幻覺'問題

AI論文解讀 ? 3072瀏覽 ? 0回復(fù)
再次提升RAG性能：兩種高效的Rerank模型實踐指南

AIGC觀察者 ? 2.2w瀏覽 ? 0回復(fù)
RAPTOR 檢索樹再次進一步提升RAG性能的設(shè)計思路

AIGC觀察者 ? 4278瀏覽 ? 0回復(fù)
給 ?大模型初學(xué)者? 的 LLaMA 3 核心技術(shù)剖析

Baihai_IDP ? 3308瀏覽 ? 0回復(fù)
3D語言模型的新突破：解鎖虛擬現(xiàn)實中的'幻覺'問題

AI論文解讀 ? 2591瀏覽 ? 0回復(fù)
開源大模型如何治理？斯坦福基礎(chǔ)模型研究中心給您支招

AIGC最前線 ? 3351瀏覽 ? 0回復(fù)
一文讀懂OpenGVLab帶來的最新視覺預(yù)訓(xùn)練框架

魯班模錘1 ? 2557瀏覽 ? 0回復(fù)
多模態(tài)RAG帶來工業(yè)級革命

NLP前沿1 ? 2638瀏覽 ? 0回復(fù)
超越SDEdit等七大SOTA，免訓(xùn)練多模態(tài)圖像編輯里程碑：HeadRouter帶來精準(zhǔn)語義調(diào)整

angel ? 2539瀏覽 ? 0回復(fù)
關(guān)于兩次大模型文本生成的嘗試，以及由此帶來的思考

AI探索時代 ? 2289瀏覽 ? 0回復(fù)
谷歌再次反打OpenAI！

51CTO技術(shù)棧 ? 2421瀏覽 ? 0回復(fù)
盤點2024“理想豐滿現(xiàn)實骨感”的大模型們！

51CTO技術(shù)棧 ? 2660瀏覽 ? 0回復(fù)
外國專家解讀DeepSeek：預(yù)算有限，如何復(fù)制R1推理模型？純強化學(xué)習(xí)不現(xiàn)實！

51CTO技術(shù)棧 ? 1941瀏覽 ? 0回復(fù)
DeepSeek太給力了！自家的大模型秘方開源到底！國產(chǎn)大模型雄起

51CTO技術(shù)棧 ? 2844瀏覽 ? 0回復(fù)
DeepSeek開源新版V3，再次震驚國外

Aceryt ? 1679瀏覽 ? 0回復(fù)
除了Rag和Train有沒有其他方式給模型注入知識？

熵減AI ? 1751瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

PyMuPDF過時了，這個解析神器專治PDF疑難雜癥 4天前發(fā)布
阿里開源VRAG-RL：定義下一代檢索增強生成 2025-06-16 07:56:18發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇：卷瘋了！開源社區(qū)離Openai o1越來越近~

下一篇： Entropix，終于找到了真正解決幻覺的方法了

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：国产精品美女一区二区 | 久久新视频 | 午夜在线观看免费 | 欧美中文在线 | 午夜激情在线 | 日韩欧美一级片 | 一级一级毛片免费看 | 久久久久se | 一区二区久久 | 亚洲欧美一区二区三区1000 | 成人av一区| 国产精品美女一区二区 | 国产日韩一区二区三免费 | 亚洲欧洲精品在线 | 男人天堂av网 | 国产精品久久久久久久久久久久冷 | 国产一级一级 | 欧美日韩三级 | 国产精品久久久久无码av | 欧美国产免费 | 性色的免费视频 | 福利一区视频 | 91免费版在线观看 | 人成在线| 亚洲欧美日韩在线 | 久久男人| 国产精品久久精品 | 激情久久网 | 黄色大片在线视频 | 午夜av在线 | 精品欧美一区二区三区精品久久 | 国产精品视频一区二区三区 | 人人种亚洲| 亚洲一区二区三区四区五区午夜 | 亚洲精品日韩一区二区电影 | 精品一区二区三区四区在线 | 99re6在线视频精品免费 | 亚洲精品视频免费观看 | 欧美一区二区三区免费电影 | 欧美精品一区二区三区蜜桃视频 | 久久国产精品一区二区三区 |