成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

思維鏈緩存-Buffer of Thoughts,北大、UC伯克利、斯坦福最新研究大幅提升LLM推理

發布于 2024-6-14 09:47
瀏覽
0收藏

思維鏈緩存-Buffer of Thoughts,北大、UC伯克利、斯坦福最新研究大幅提升LLM推理-AI.x社區

論文鏈接: https://arxiv.org/abs/2406.04271

代碼鏈接: https://github.com/YangLing0818/buffer-of-thought-llm


近年來,大語言模型(LLMs)如GPT-4、PaLM和LLaMA在各種推理任務中展現了驚人的性能。然而,盡管這些模型在規模和性能上不斷提升,它們在處理復雜推理任務時仍面臨一定的挑戰。


為了解決這些問題,我們提出了一種名為Buffer of Thoughts(BoT)的新型思維增強推理框架。BoT的核心在于引入一個輕量級的meta-buffer,其中存儲了一系列從不同問題解決過程中提煉出的高層次thought-template。這些模板可以在解決類似問題時被檢索和實例化,從而大幅提升推理的準確性、效率和魯棒性。

Buffer of Thoughts框架

與以往的方法不同,我們創新性地提出了一個緩存思維鏈框架,如下圖所示:

思維鏈緩存-Buffer of Thoughts,北大、UC伯克利、斯坦福最新研究大幅提升LLM推理-AI.x社區

Buffer-of-Thought和之前prompt-based方法對比

  1. Problem Distiller:該模塊負責從問題描述中提取關鍵信息和潛在約束,并將其轉化為易于理解和推理的格式。通過這種方式,BoT能夠更好地聚焦于問題的關鍵點,減少推理過程中的錯誤。
  2. Meta Buffer:該模塊存儲了大量的高層次思維模板,這些模板涵蓋了文本理解、創造性語言生成、常識推理、數學推理、代碼編程和應用調度等不同類別。每個模板都是從歷史任務中提煉出來的,能夠在相似任務中復用,從而提高推理的通用性和靈活性。
  3. Buffer Manager:該模塊負責動態更新元緩沖區,從已解決的問題中提煉新的高層次思維模板,持續提升模型的推理能力。通過這種方式,BoT能夠不斷學習和進化,適應更多樣化的任務需求。

在面對復雜的推理任務時,具體推理流程如下:

思維鏈緩存-Buffer of Thoughts,北大、UC伯克利、斯坦福最新研究大幅提升LLM推理-AI.x社區

  1. 問題提煉:首先,BoT會利用problem distiller從問題描述中提取關鍵信息和潛在約束,并將其轉化為易于理解和推理的格式。
  2. 模板檢索:接下來,BoT會在meta buffer中檢索與當前問題最相關的思維模板。這些模板包含了解決類似問題的高層次策略和步驟。
  3. 實例化推理:然后,BoT會根據檢索到的thought template實例化具體的推理結構,并結合問題提煉器提取的信息進行推理。
  4. 動態更新:最后,BoT會利用buffer manager將新的問題解決過程提煉成高層次思維模板,并動態更新到元緩沖區中,以便未來復用

我們在10個具有挑戰性的推理任務上進行了廣泛的實驗,包括Game of 24、Geometric shapes、Checkmate In One等。實驗結果表明,BoT在這些任務上顯著超越了現有的最先進方法。例如,在Game of 24上,BoT的準確率達到82.4%,相比于傳統Chain-of-Thought提升了11%。在Geometric shapes任務上,BoT的準確率高達93.6%,相比于現有方法提升了20%。


此外,BoT在推理效率和魯棒性上也表現出色。與Multi-query prompting方法相比,**BoT的推理成本僅為其12%**,但推理準確率顯著提升。同時,BoT在面對不同任務時表現出更高的成功率,平均成功率比第二好的方法高出10%。

思維鏈緩存-Buffer of Thoughts,北大、UC伯克利、斯坦福最新研究大幅提升LLM推理-AI.x社區

模型大小與性能的權衡分析

如下圖所示,在Game of 24、word list sorting和Checkmate-in-One任務中,Llama3-8B和Llama-70B模型可能會產生較差的結果。然而,配備了我們的BoT后,這兩個模型的準確率顯著提高。值得注意的是,BoT+Llama3-8B在某些任務上可以超越單獨使用Llama3-70B模型的結果。我們的BoT使得較小的模型能夠展示出接近甚至超越較大模型的能力,顯著縮小了它們之間的推理能力差距。此外,它大大減少了大型語言模型在處理復雜問題時所需的推理成本。

思維鏈緩存-Buffer of Thoughts,北大、UC伯克利、斯坦福最新研究大幅提升LLM推理-AI.x社區

魯棒性分析-相比較之前的思維鏈思維鏈,BoT的推理魯棒性也更好:

思維鏈緩存-Buffer of Thoughts,北大、UC伯克利、斯坦福最新研究大幅提升LLM推理-AI.x社區

BoT魯棒性分析

時間成本分布分析

如圖所示,我們測量了BoT推理框架中各組件在不同任務中的平均時間成本。提取任務信息和模板檢索所需的時間相對較短,而實例化推理所需的時間較長??傮w而言,考慮到不同組件的復雜性,我們的BoT在時間成本分布上實現了相對平衡,展示了BoT框架的效率。

思維鏈緩存-Buffer of Thoughts,北大、UC伯克利、斯坦福最新研究大幅提升LLM推理-AI.x社區

BoT的提出為大語言模型的推理能力帶來了革命性提升。通過利用預先積累的高質量思維模板,BoT不僅顯著提高了推理準確性,還大幅降低了推理成本,為未來的智能推理系統提供了新的研究方向和應用前景。


本文轉自 AI生成未來 ,作者:大仲馬


原文鏈接:??https://mp.weixin.qq.com/s/JfLekhDJvv8gx9phOGY1uQ??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 一级一片在线观看 | 日韩综合一区 | 午夜影院在线观看 | 国产高清视频在线 | 久久精品亚洲精品 | 亚洲综合二区 | 亚洲一区二区三区四区五区午夜 | 亚洲欧洲一区二区 | 三级视频在线观看电影 | 国产99精品 | 污视频在线免费观看 | 91大神在线看| 紧缚调教一区二区三区视频 | 久久久久久久综合色一本 | 操一草 | 中文字幕一区在线观看视频 | 在线播放中文字幕 | 中文字字幕一区二区三区四区五区 | 成年免费大片黄在线观看岛国 | 日本三级视频 | 欧美jizzhd精品欧美巨大免费 | 欧美一区二区免费电影 | 一级做a爰片久久毛片免费看 | 久久精品国产免费看久久精品 | 91国内在线观看 | 久久1区 | 91精品国产综合久久久久 | 国产一区二区三区四区三区四 | 日韩成人一区 | 午夜视频在线免费观看 | av国产精品毛片一区二区小说 | 亚洲精品一区二区三区在线 | 国产一区二区三区高清 | 欧洲色综合 | 九九亚洲| 欧美日韩在线精品 | 国产乱码精品一区二区三区忘忧草 | 久久久成人精品 | 日本精品在线一区 | 自拍偷拍小视频 | 中文字幕一区二区三 |