成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

思維鏈(COT)+反思(Reflection)+語言強化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平?

發布于 2025-5-14 06:55
瀏覽
0收藏

已有的大模型能否通過Prompt Engineering達到O1類似的推理水平?

我見過很多嘗試,在個別案例上有觀察到驚艷的推理效果,但大多沒有普遍提升已有大模型的推理能力。今天看到這個方法,感覺是通過Prompt Engineering可以有效普遍提升大模型的推理能力。以下就是那個Magic Prompt, 先睹為快。

思維鏈(COT)+反思(Reflection)+語言強化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平?-AI.x社區

作者準備了50道需要長推理過程的問題,分別測試幾種場景:

  • Claude Sonnet + 上述Prompt
  • Clause Sonnet
  • Llama3.18B + 上述Prompt
  • Llama3.18B
  • ChatGPT 4o + 上述Prompt
  • ChatGPT 4o
  • ChatGPT o1


實驗結果如下,藍色的是使用了“上述Prompt”的測試場景,黃色的沒有使用“上述Prompt”。對比的對象是o1,因此o1沒有使用“上述Prompt”。

思維鏈(COT)+反思(Reflection)+語言強化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平?-AI.x社區

測試結果顯示,動態思維鏈(Dynamic CoT)、反思(Reflection)和語言強化學習(Verbal Reinforcement Learning)技術的應用顯著提升了大多數模型的推理性能,特別是Claude Sonnet和Llama 3.1 8b。

A. 應用了“上述Prompt”Claude Sonnet得分最高(40/48),在數學、物理和化學問題上展現了強大的性能。Llama 3.1 8b(33/48)和GPT-4O(36/48)也顯示出顯著的進步。

B. 沒有應用“上述Prompt”除了O1之外的所有模型性推理能都有所下降。

我們可以觀察到,Claude Sonnet 3.5達到了O1的推理水平。


另外一個博主使用了不同的測試題目測試后,認為“上述Prompt”可以大幅提高大模型的推理能力,但“Claude Sonnet + 上述Prompt” 還不足以達到o1的推理水平。如下

思維鏈(COT)+反思(Reflection)+語言強化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平?-AI.x社區

?本文轉載自?????后向傳播?????,作者: 張發恩


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 美女爽到呻吟久久久久 | 免费中文字幕日韩欧美 | 久久黄色 | 天天草视频 | av天天看| 极品销魂美女一区二区 | 一区二区三区视频在线 | 亚洲国产精品久久久 | 欧洲精品码一区二区三区免费看 | 综合二区| 国产精品久久久久久久模特 | 欧美电影一区 | 国产精品久久久久一区二区三区 | 日本不卡一区二区三区在线观看 | 91在线视频免费观看 | 国产精品一区久久久 | 国产自产c区 | 黄色免费网站在线看 | 日韩插插 | 福利网站导航 | 国产成视频在线观看 | www.久草.com | 成人做爰69片免费观看 | 日本又色又爽又黄的大片 | 日韩视频在线免费观看 | 日本福利视频免费观看 | 毛片毛片毛片毛片 | 久久久久久国 | 亚洲一区中文 | 天堂一区二区三区四区 | 人妖无码| 亚洲不卡在线观看 | 91九色在线观看 | 亚洲天堂男人的天堂 | 亚洲欧洲在线看 | 国产欧美精品一区二区色综合朱莉 | 中文字幕成人 | 国产一区二区三区亚洲 | 日本不卡一区二区三区在线观看 | 又爽又黄axxx片免费观看 | 91极品欧美视频 |