思維鏈(COT)+反思(Reflection)+語言強化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平？

后向傳播

發布于 2025-5-14 06:55

瀏覽

0收藏

已有的大模型能否通過Prompt Engineering達到O1類似的推理水平？

我見過很多嘗試，在個別案例上有觀察到驚艷的推理效果，但大多沒有普遍提升已有大模型的推理能力。今天看到這個方法，感覺是通過Prompt Engineering可以有效普遍提升大模型的推理能力。以下就是那個Magic Prompt，先睹為快。

思維鏈(COT)+反思(Reflection)+語言強化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平？-AI.x社區

作者準備了50道需要長推理過程的問題，分別測試幾種場景：

Claude Sonnet + 上述Prompt
Clause Sonnet
Llama3.18B + 上述Prompt
Llama3.18B
ChatGPT 4o + 上述Prompt
ChatGPT 4o
ChatGPT o1

實驗結果如下，藍色的是使用了“上述Prompt”的測試場景，黃色的沒有使用“上述Prompt”。對比的對象是o1，因此o1沒有使用“上述Prompt”。

思維鏈(COT)+反思(Reflection)+語言強化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平？-AI.x社區

測試結果顯示，動態思維鏈（Dynamic CoT）、反思（Reflection）和語言強化學習（Verbal Reinforcement Learning）技術的應用顯著提升了大多數模型的推理性能，特別是Claude Sonnet和Llama 3.1 8b。

A. 應用了“上述Prompt”Claude Sonnet得分最高（40/48），在數學、物理和化學問題上展現了強大的性能。Llama 3.1 8b（33/48）和GPT-4O（36/48）也顯示出顯著的進步。

B. 沒有應用“上述Prompt”除了O1之外的所有模型性推理能都有所下降。

我們可以觀察到，Claude Sonnet 3.5達到了O1的推理水平。

另外一個博主使用了不同的測試題目測試后，認為“上述Prompt”可以大幅提高大模型的推理能力，但“Claude Sonnet + 上述Prompt” 還不足以達到o1的推理水平。如下

思維鏈(COT)+反思(Reflection)+語言強化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平？-AI.x社區

?本文轉載自?????后向傳播?????，作者：張發恩

標簽

思維鏈

Reflection

語言強化

贊

回復

舉報

回復

相關推薦

探究代碼思維鏈對大模型推理能力的作用

mb5f8eba9bdb0af ? 4592瀏覽 ? 0回復
自我一致性提升大模型中的思維鏈推理能力

AIRoobt ? 5947瀏覽 ? 0回復
大語言模型自動思維鏈提示

AIRoobt ? 3131瀏覽 ? 0回復
多模態思維鏈推理在語言模型中的應用

AIRoobt ? 4835瀏覽 ? 0回復
剛剛，OpenAI發布史上最強模型-o1，推理能力超人類博士！

Aceryt ? 2842瀏覽 ? 0回復
OpenAI o1模型推理能力大幅提升的背后：重復采樣如何提升AI推理能力

Syrupup ? 3923瀏覽 ? 0回復
OpenAI o1引發的思維鏈思考：思維鏈提示啟發大模型推理

angel ? 4029瀏覽 ? 0回復
從openAI最新模型GPT-o1再談思維鏈(Cot)技術，大模型該怎么提升其邏輯推理能力？

AI探索時代 ? 7513瀏覽 ? 0回復
OpenAI o1：用內部思維鏈進行復雜推理

shizhi02 ? 2837瀏覽 ? 0回復
解密o1推理過程！DeepSeek-R1-Lite預覽版上線

kede96 ? 3224瀏覽 ? 0回復
阿里發布類o1模型QWQ，可自我反思糾錯，實測數學推理遠超o1、DS-R1，人人免費

51CTO技術棧 ? 3111瀏覽 ? 0回復
大語言模型o1慢思考推理系統的破局之路：模仿、探索與自我提升的深度揭秘！

十一月雨_55 ? 4101瀏覽 ? 0回復
DeepSeek-R1 + RooCline：極佳的強化學習AI編碼代理！對標o1、蒸餾小模型本地部署

老蛀蟲 ? 3960瀏覽 ? 0回復
DeepSeek-R1：通過強化學習激發大語言模型的推理潛能

柏企閱文 ? 4717瀏覽 ? 0回復
強化學習與大模型后訓練：DeepSeek R1 如何獲得推理能力？

lintoms ? 4908瀏覽 ? 0回復
多模態模型思維鏈評估白皮書：反思機制成勝負手，感知任務竟被CoT拖后腿

angel ? 3210瀏覽 ? 0回復
Search-R1：強化學習增強大語言模型推理+搜索能力

十一月雨_55 ? 2541瀏覽 ? 0回復
Fin-R1：通過強化學習實現金融推理的大語言模型

AIRoobt ? 1831瀏覽 ? 0回復
【一文了解】大模型的思維鏈技術（CoT）

碼農隨心筆記 ? 2068瀏覽 ? 0回復

后向傳播

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

思維鏈(COT)+反思(Reflection)+語言強化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平？

目錄