思維鏈(COT)+反思(Reflection)+語言強化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平?
已有的大模型能否通過Prompt Engineering達到O1類似的推理水平?
我見過很多嘗試,在個別案例上有觀察到驚艷的推理效果,但大多沒有普遍提升已有大模型的推理能力。今天看到這個方法,感覺是通過Prompt Engineering可以有效普遍提升大模型的推理能力。以下就是那個Magic Prompt, 先睹為快。
作者準備了50道需要長推理過程的問題,分別測試幾種場景:
- Claude Sonnet + 上述Prompt
- Clause Sonnet
- Llama3.18B + 上述Prompt
- Llama3.18B
- ChatGPT 4o + 上述Prompt
- ChatGPT 4o
- ChatGPT o1
實驗結果如下,藍色的是使用了“上述Prompt”的測試場景,黃色的沒有使用“上述Prompt”。對比的對象是o1,因此o1沒有使用“上述Prompt”。
測試結果顯示,動態思維鏈(Dynamic CoT)、反思(Reflection)和語言強化學習(Verbal Reinforcement Learning)技術的應用顯著提升了大多數模型的推理性能,特別是Claude Sonnet和Llama 3.1 8b。
A. 應用了“上述Prompt”Claude Sonnet得分最高(40/48),在數學、物理和化學問題上展現了強大的性能。Llama 3.1 8b(33/48)和GPT-4O(36/48)也顯示出顯著的進步。
B. 沒有應用“上述Prompt”除了O1之外的所有模型性推理能都有所下降。
我們可以觀察到,Claude Sonnet 3.5達到了O1的推理水平。
另外一個博主使用了不同的測試題目測試后,認為“上述Prompt”可以大幅提高大模型的推理能力,但“Claude Sonnet + 上述Prompt” 還不足以達到o1的推理水平。如下
?本文轉載自?????后向傳播?????,作者: 張發恩
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦