成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

搜索Agent最新高效推理框架:吞吐量翻3倍、延遲降至1/5,還不犧牲答案質量丨南開& UIUC研究

人工智能 新聞
來自南開大學和伊利諾伊大學厄巴納-香檳分校的研究人員深入剖析了這些效率瓶頸,并提出了一套名為SearchAgent-X的高效推理框架。

AI越來越聰明,但如果它們反應慢,效率低,也難以滿足我們的需求。

大語言模型(LLM)驅動的搜索智能體,通過動態(tài)拆解問題、交錯執(zhí)行“思考”(推理)和“查找”(檢索)來解決復雜任務,展現(xiàn)了驚人能力。

然而,這種深度交互的背后,也隱藏著顯著的效率痛點。

處理復雜任務時,查得慢、查得不準,都會拖慢整個流程。

來自南開大學和伊利諾伊大學厄巴納-香檳分校的研究人員深入剖析了這些效率瓶頸,并提出了一套名為SearchAgent-X的高效推理框架。

實踐表明,SearchAgent-X實現(xiàn)了1.3至3.4倍的吞吐量提升,延遲降至原來的1/1.7至1/5,同時不犧牲最終的答案質量。

圖片

解析搜索智能體中的兩大效率瓶頸因素

研究者發(fā)現(xiàn),看似簡單的檢索環(huán)節(jié),隱藏著兩大關鍵的效率制約因素:

檢索精度:并非“越高越好”的微妙平衡

圖片

直覺上,檢索越準,LLM獲取信息質量越高,效率也應該越高。但實際情況是非單調關系

  • 過低精度LLM需更多輪檢索和推理彌補,總時間增加。
  • 過高精度檢索本身計算資源消耗巨大,拖慢整體速度。

研究表明,系統(tǒng)吞吐量隨近似檢索精度先升后降。當搜索范圍超過最佳點,檢索成本反噬整體效率。

核心洞察:搜索智能體更青睞高召回率的近似搜索,有效支撐推理,避免不必要開銷。

檢索延遲:“差之毫厘”引發(fā)的“千里之堤”效應

圖片

與傳統(tǒng)RAG不同,搜索智能體對檢索延遲極為敏感。即使微小增加,也可能導致端到端延遲急劇放大(高達83倍)。這與KV-cache命中率驟降密切相關,迫使系統(tǒng)頻繁重計算。主要原因:

不當調度(Improper Scheduling)

  • 現(xiàn)象:標準“先來先服務”可能讓短任務搶占長任務計算資源。
  • 惡果:長任務寶貴KV-cache被“擠掉”,恢復執(zhí)行時不得不重算。數(shù)據(jù)顯示,高達55.9%的token被不必要重計算。

檢索停滯(Retrieval Stalls)

  • 現(xiàn)象:異步檢索和生成可能時間錯位。長任務檢索結果在下一輪生成“窗口期”之后返回。
  • 惡果:任務錯過當前調度批次被迫等待,KV-cache可能被擠占。平均而言,超過25%的序列在完成檢索后會經歷此類停滯。

SearchAgent-X的兩大“加速引擎”

圖片

基于上述洞察,SearchAgent-X通過智能調度與自適應檢索,最大限度減少延遲,最大化GPU資源利用率,尤其提升KV-cache的有效利用。

利器一:優(yōu)先級感知調度 (Priority-Aware Scheduling)

解決不當調度問題,SearchAgent-X引入優(yōu)先級調度,動態(tài)排序并發(fā)請求。

調度依據(jù):綜合考慮:

  • 已完成的檢索次數(shù):檢索越多,計算成果越多,緩存復用價值越大。
  • 當前序列的上下文長度:指向更長、可復用的緩存。
  • 請求的等待時間:確保公平。

核心理念:“讓最有價值的計算優(yōu)先”,減少無謂等待與重復勞動。

利器二:無停頓檢索 (Non-Stall Retrieval)

緩解檢索停滯,SearchAgent-X實現(xiàn)靈活、非阻塞式檢索提前終止策略。

執(zhí)行邏輯:自適應判斷是否“見好就收”,依據(jù):

  • 檢索結果的成熟度:新信息帶來的質量提升甚微時,認為結果已足夠好。
  • LLM引擎的就緒狀態(tài):判斷LLM是否準備好下一輪計算。

核心理念:當檢索結果足夠成熟且LLM引擎就緒時,SearchAgent-X停止檢索。這種機制是恰到好處的“放手”,保證信息質量同時,讓生成過程無需不必要的等待。

實戰(zhàn)檢驗:效率與質量雙豐收

研究者在Qwen-7B/14B等模型上,對SearchAgent-X與多種基線系統(tǒng)進行了全面對比。

端到端性能:吞吐與延遲的顯著優(yōu)化

圖片圖片

  • 離線推理 (所有請求一次性到達):在Musique數(shù)據(jù)集上,SearchAgent-X的吞吐量比基線系統(tǒng)高出1.3至3.4倍,平均延遲降低至基線系統(tǒng)的20%至60%
  • 在線推理(請求持續(xù)到達):SearchAgent-X 完成的請求數(shù)量比基線系統(tǒng)多**1.5至3.5 倍。請求速率越高,其優(yōu)勢越明顯,最多時是某些基線的5.8倍。

生成質量:效率提升,效果不打折

圖片

在Musique, NQ, HotpotQA等六個代表性數(shù)據(jù)集上的評估表明,SearchAgent-X在生成準確率上,與采用精確檢索的基線系統(tǒng)表現(xiàn)相當

有趣的是,在某些數(shù)據(jù)集上,由于近似檢索帶來的輕微擾動促使模型進行額外推理,其準確率甚至略有提升。

技術拆解:每一項優(yōu)化都“功不可沒”

圖片

消融實驗揭示各組件貢獻:

  • 優(yōu)先級調度在引入緩存基礎上,將端到端延遲降低35.55%,KV-cache命中率從0.07提升至0.51
  • 無停頓檢索在前兩者基礎上,進一步將KV-cache命中率提升至0.65。它平均僅使檢索時間減少0.01秒,卻顯著降低端到端延遲,印證了“差之毫厘的等待,影響深遠”。

總結與展望

未來的AI要解決更宏大、更開放的問題,必然需要更頻繁地與外部工具和知識庫交互,而這恰恰是效率瓶頸所在。

SearchAgent-X揭示了:

  • 平衡之殤在AI智能體中,任何單一工具(如檢索)的性能并非越高越好,需要與智能體的整體工作流相匹配。
  • 等待之痛在由多個異步組件構成的復雜AI系統(tǒng)中,微小的延遲和不當?shù)馁Y源調度會被急劇放大,造成雪崩效應。

該研究通過引入優(yōu)先級感知調度無停滯檢索兩項機制,顯著提升了搜索型AI智能體的推理效率和響應速度。

實驗表明,這些優(yōu)化在不犧牲答案質量的前提下,有效緩解了深度交互中的延遲與資源浪費問題。相關方法可為包括搜索引擎、企業(yè)問答系統(tǒng)在內的多類復雜AI Agent提供實踐參考。

論文地址: https://arxiv.org/abs/2505.12065Github地址: https://github.com/tiannuo-yang/SearchAgent-X

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-11-02 10:28:03

2024-06-28 09:39:58

2024-11-01 20:25:28

2023-12-01 14:36:33

模型數(shù)據(jù)

2024-01-19 13:42:00

模型訓練

2025-04-27 09:15:40

2023-12-07 06:51:18

AI模型

2023-12-27 13:42:39

模型訓練

2025-05-09 02:00:00

代碼接口吞吐量

2024-12-13 13:58:53

2020-06-08 15:01:55

數(shù)據(jù)中心網絡架構帶寬

2013-04-19 09:45:20

AMPLabHadoopHDFS

2024-05-23 16:41:40

2013-04-25 10:38:40

思科存儲交換機

2025-01-08 13:15:02

2013-10-11 11:22:14

GraphDBLinux內存管理數(shù)據(jù)庫

2024-03-20 10:39:52

微軟Garnet緩存存儲

2023-02-09 08:57:11

Callable異步java

2023-11-07 15:11:46

Kafka技巧

2023-08-03 14:18:29

Rust阻塞函數(shù)
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲国产高清在线观看 | www亚洲精品| 久久久91 | 中文字幕亚洲一区 | 日韩一区二区视频 | 国产精品99精品久久免费 | 色精品视频 | 精品不卡 | 精品国产乱码久久久久久1区2区 | 一区免费| 国产精品99久久久久 | 美女一级毛片 | 国产伦精品一区二区三毛 | 久久久青草婷婷精品综合日韩 | 国产精品色 | 在线免费观看黄a | 你懂的在线视频播放 | 91免费电影 | 日韩av一区二区在线观看 | 欧洲色| 亚洲精品高清视频在线观看 | 日本不卡视频在线播放 | av午夜激情 | 精品国产1区2区3区 一区二区手机在线 | 中国xxxx性xxxx产国 | 99视频在线看 | 久久久噜噜噜久久中文字幕色伊伊 | 伊人久久综合 | а_天堂中文最新版地址 | 91免费在线看 | 在线观看视频一区 | 久久久九九 | 亚洲精选一区二区 | 久久亚洲一区 | 日韩中文字幕一区二区 | 秋霞电影一区二区三区 | 国产精品2 | 欧美中文字幕一区二区三区亚洲 | 91国内精精品久久久久久婷婷 | 国产成人免费视频网站视频社区 | 国产精品免费在线 |