成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

清華&人大:search-o1 讓推理模型具有主動能力

發布于 2025-1-20 10:57
瀏覽
0收藏

1. 背景

大型推理模型如 OpenAI - o1、Qwen - QwQ 等通過大規模強化學習,在科學、數學、編碼等復雜領域展現出了強大的逐步推理能力。它們以 “慢思考” 模式生成長思維鏈條,有效解決復雜問題,增強了推理的邏輯性和可解釋性。然而,這也帶來了顯著弊端,在長鏈式推理過程中,模型常常遭遇知識不足的困境。這使得推理鏈條容易出現錯誤傳播,嚴重影響最終答案的質量。例如,在處理一些復雜的科學問題時,模型可能會因為對某些關鍵知識點的缺失而得出錯誤結論。

2. 研究動機

初步實驗發現,類似 OpenAI - o1 的推理模型在處理復雜問題時,平均每個推理過程中會出現超過 30 次如 “或許”“可能” 等不確定詞匯。這不僅大幅增加了推理的復雜性,還使得手動驗證推理過程變得極為困難。因此,如何在推理過程中自動補充所需知識,成為提升大型推理模型可信度的關鍵所在,這也是 Search - o1 出現的原因。


3. Search - o1 框架

3.1 Search-o1框架概述

Search - o1 是自主知識檢索增強的推理框架,這個框架是為解決大型推理模型在長鏈式推理時知識不足問題而設計的創新架構,主要由自主檢索增強生成機制和文檔內推理模塊構成。通過這一設計,模型能夠在推理過程中動態獲取并整合外部知識,確保推理的連貫性和準確性。


  • 自主檢索增強生成機制:在推理中,模型能自主判斷并生成檢索查詢,如遇到不熟悉的知識,會用特殊符號包圍查詢。檢測到查詢后,推理暫停,通過 Search 函數從外部知識庫檢索相關文檔,再將文檔注入推理鏈繼續推理,實現動態知識獲取。
  • 文檔內推理模塊:因檢索文檔可能冗長冗余,此模塊對其精煉。它依據當前搜索查詢、已有推理步驟和文檔內容,經獨立生成過程提取關鍵信息,確保信息與推理鏈緊密相關且邏輯連貫,有效避免干擾。

在推理流程上,Search - o1 采用批量推理機制。初始化時為每個問題創建推理序列,模型生成推理鏈時,若產生檢索查詢則提取并檢索文檔,隨后文檔內推理模塊精煉知識并插入推理鏈,不斷循環直至得出最終答案,有力保障推理過程的高效與準確。

3.2 自主檢索增強生成機制

在推理進程中,模型具備自主生成檢索查詢的能力,這些查詢被特殊符號包圍。一旦檢測到檢索查詢,模型會暫停當前推理,利用查詢從外部知識庫檢索相關文檔。例如,在解決化學物質反應問題時,如果模型對某種反應物的性質不確定,就會生成相應的檢索查詢。檢索到的文檔隨后會被注入推理鏈條,供模型繼續推理,從而有效彌補內部知識的不足,使模型能夠靈活應對知識缺口。

3.3 文檔內推理模塊

由于直接插入檢索文檔可能引入冗余信息,擾亂推理連貫性,文檔內推理模塊應運而生。它通過獨立的生成過程,依據當前搜索查詢、之前的推理步驟和檢索文檔內容,對檢索到的文檔進行深度分析。該模塊會提煉出與當前推理緊密相關的關鍵信息,確保這些精煉后的信息能夠無縫整合到推理鏈條中,維持推理過程的邏輯性和連貫性,避免因信息冗余而導致的推理混亂。

3.4 推理過程

Search-o1 采用批量推理機制,高效處理多個問題。對于每個問題,首先用任務指令和具體問題初始化推理序列,隨后模型生成推理鏈。在這個過程中,若生成檢索查詢,則觸發檢索和信息整合流程。具體而言,檢測到檢索查詢后,提取查詢并檢索相關文檔,再通過文檔內推理模塊精煉信息,最后將精煉后的知識插入推理鏈條繼續推理,如此循環直至生成最終答案,確保模型在整個推理過程中都能獲得充足的外部知識支持。


4. 實驗結果

Search - o1 的實驗設計精心且全面,涵蓋了豐富的任務與數據集,并選取了具有代表性的基線方法進行對比,有力地驗證了其在推理領域的卓越性能。

4.1 任務與數據集

  • 復雜推理任務

GPQA 是由物理、化學和生物學領域專家精心編制的 PhD 級科學多選問答數據集,其鉆石集包含 198 道高質量題目,擴展集則有 546 道題目,為評估模型在專業科學領域的推理能力提供了嚴格的測試環境。

數學基準測試包含 MATH500、AMC2023 和 AIME2024,MATH500 從 MATH 測試集中精選 500 道題目,AMC2023 和 AIME2024 分別是涵蓋算術、代數、幾何等多方面知識的中學數學競賽題集,其中 MATH500 和 AMC 相對基礎,AIME 難度較高,全方位考查模型的數學推理水平。

LiveCodeBench 則專注于評估模型的編程能力,精心收集了 2024 年 8 月至 11 月來自競賽平臺的不同難度編程問題,共計 112 道,嚴格檢驗模型在代碼生成和理解方面的能力。

  • 開放領域問答任務

在單跳問答方面,Natural Questions(NQ)以真實谷歌搜索查詢為問題來源,答案取自維基百科文章,TriviaQA 則來自瑣事網站和競賽,問題涉及復雜的實體關系,兩者從不同角度測試模型對簡單知識的直接獲取和回答能力。

多跳問答中,HotpotQA 是首個要求跨多個維基百科段落推理的大規模數據集,2WikiMultihopQA(2WIKI)為多跳問題提供明確推理路徑,MuSiQue 構建了 2 - 4 跳問題,Bamboogle 收集谷歌答錯的復雜問題,這些數據集著重考查模型在復雜知識關聯和多步推理方面的能力。

4.2 基線方法

  • 直接推理

此方法完全依賴模型內部已有的知識進行推理,不借助任何外部檢索。在實驗中采用了多種開源和閉源非專有模型,開源模型如 Qwen2.5-32B-Instruct、Qwen2.5-Coder-32B-Instruct、QwQ-32B-Preview、Qwen2.5-72B-Instruct 和 Llama3.3-70B-Instruct 等,閉源非專有模型包括 DeepSeek-R1-Lite-Preview、OpenAI GPT-4o 和 o1-preview 等。對于開源模型,實驗基于自行實現的版本進行測試,而閉源模型的結果則直接引用其官方發布的數據,通過這些模型在無檢索輔助下的表現,為評估 Search-o1 的性能提供了基礎參照。

  • 檢索增強推理:包含標準 RAG 和 RAgent 兩種方式。

標準 RAG 針對原始問題檢索前 10 篇文檔,并將這些文檔與問題一同輸入模型進行推理和答案生成,其特點是檢索方式相對固定。

RAgent 則允許模型自主決定何時生成檢索查詢,在推理過程中,受 ReAct 啟發,先檢索前 10 個片段,模型根據需要進一步獲取完整文檔的 URL,這種動態檢索方式更具靈活性,通過與這兩種檢索增強推理方法的對比,能夠凸顯 Search-o1 在知識獲取和利用方面的優勢。

4.3 實驗效果

  • 復雜推理任務:在包括 PhD 級科學問答(GPQA)、數學基準(如 MATH500、AMC2023、AIME2024)和編碼能力(LiveCodeBench)等復雜推理任務中,Search - o1 表現優異。

QwQ - 32B 在無檢索的直接推理中就優于一些更大規模模型,展示了 o1-like 長鏈思維的有效性;

RAgent - QwQ - 32B 憑借自主檢索機制超越了標準 RAG 和直接推理方法;

Search - o1 進一步通過文檔內推理模塊提升性能,在多數任務上取得最佳表現,尤其在 GPQA、數學和編碼任務上性能提升顯著。

同時,增加檢索文檔數量可進一步增強 Search - o1 的性能,體現了其動態檢索和精煉機制的高效性。如下圖


  • 開放域問答任務:在開放域問答任務中,直接推理的 LRMs 表現與非推理模型相近,凸顯了知識不足的問題。檢索增強方法顯著提升了模型在多跳問答任務上的表現,其中 RAgent - QwQ - 32B 表現優于標準 RAG。Search - o1 在多跳問答任務上更是超越所有基線方法,有力證明了文檔內推理模塊在復雜問答中的關鍵作用和有效性。


5. 小結

Search - o1 框架為大型推理模型在長時間推理中面臨的知識不足難題提供解決方案。它通過自主知識檢索和精煉整合,顯著提升了推理的準確性和連貫性,在多種復雜推理任務和開放域問答基準測試中表現卓越,部分領域甚至超越人類專家。

本文轉載自 ??鴻煊的學習筆記??,作者: 乘風破浪jxj

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产中文字幕亚洲 | 亚洲第一黄色网 | 成年人在线视频 | 99色综合| 国产在线不卡 | 国产精品不卡 | 日韩视频免费看 | 久久久久久综合 | 在线免费观看黄a | 亚洲午夜精品在线观看 | 久久久久久九九九九九九 | 在线欧美激情 | 国产精品一区二区久久 | 欧美日韩黄色一级片 | 亚洲一区二区三区视频 | 精品久久久久久久久久久久 | 亚洲欧美一区二区三区国产精品 | 羞羞的视频在线观看 | 一本一道久久a久久精品蜜桃 | 国产精品久久久免费 | 一级高清| 久久免费视频观看 | 欧州一区二区三区 | 免费v片在线观看 | 在线看无码的免费网站 | 欧美视频成人 | 怡红院免费的全部视频 | 2019精品手机国产品在线 | 亚洲精品成人av | 欧美一级在线观看 | 国产精品明星裸体写真集 | 欧美日韩视频 | 国产精品日韩一区 | 日韩在线 | 久久激情网 | 精品国产伦一区二区三区观看说明 | 亚洲视频一| 97色伦网 | 三级黄色大片网站 | 成人综合在线视频 | 久久精品亚洲精品国产欧美kt∨ |