成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型智能體如何突破規(guī)模化應(yīng)用瓶頸,核心在于Agentic ROI

人工智能 新聞
上海交通大學(xué)聯(lián)合中科大在本文中指出:現(xiàn)階段大模型智能體的主要障礙不在于模型能力不足,而在于其「Agentic ROI」尚未達(dá)到實(shí)用化門檻。

本文第一作者為上海交通大學(xué)計(jì)算機(jī)學(xué)院副教授劉衛(wèi)文,研究方向?yàn)榇竽P椭悄荏w,大語(yǔ)言模型,個(gè)性化算法等。

近年來,隨著大語(yǔ)言模型的快速發(fā)展,基于其構(gòu)建的大模型智能體(LLM Agents)正逐步從技術(shù)演示走向?qū)嶋H應(yīng)用部署。然而,真正實(shí)現(xiàn)規(guī)模化應(yīng)用仍面臨諸多瓶頸。使用范圍主要集中于專業(yè)領(lǐng)域,如代碼生成、科研輔助等。在大眾、高頻、日常的應(yīng)用場(chǎng)景(如電商、個(gè)人助理)中,普及率依然較低。這一現(xiàn)象引發(fā)了一個(gè)關(guān)鍵問題:

當(dāng)前制約大模型智能體實(shí)際可用性的真正原因是什么?

上海交通大學(xué)聯(lián)合中科大在本文中指出:現(xiàn)階段大模型智能體的主要障礙不在于模型能力不足,而在于其「Agentic ROI」尚未達(dá)到實(shí)用化門檻。

圖片

Agentic ROI:大模型智能體實(shí)現(xiàn)規(guī)模化應(yīng)用的關(guān)鍵瓶頸

研究團(tuán)隊(duì)提出 Agentic ROI(Agentic Return on Investment)這一核心指標(biāo),用于衡量一個(gè)大模型智能體在真實(shí)使用場(chǎng)景中所帶來的「信息收益」與其「使用成本」之間的比值:

圖片

  • Information Quality:指智能體所生成的信息質(zhì)量,包括準(zhǔn)確性、完整性等。
  • Quality Threshold:指最低可接受的信息質(zhì)量閾值(注:根據(jù)上下文推斷)。
  • Human Time和 Agent Time:分別指人類與智能體完成對(duì)應(yīng)任務(wù)所需的時(shí)間。
  • Interaction Time:指用戶與智能體交互所需要的時(shí)間,如用戶進(jìn)行任務(wù)描述、驗(yàn)證結(jié)果過程中所消耗的時(shí)間。
  • Expense:指用戶經(jīng)濟(jì)成本,如模型調(diào)用、API 使用的開銷。

只有當(dāng)信息質(zhì)量超過一定閾值,且智能體所節(jié)省的時(shí)間和成本之比足夠高時(shí),智能體才真正具備可用性。

圖片

如上圖所示,當(dāng)前大部分 LLM 智能體集中應(yīng)用于人類任務(wù)時(shí)間成本高的信息密集型場(chǎng)景(如科研、編程),此類任務(wù)本身就需要大量人力投入,因此即便智能體部分替代也能顯著提高效率。然而,在用戶量龐大的日常場(chǎng)景中(如電商、搜索、助理等),任務(wù)本身較為簡(jiǎn)單,交互成本低(如點(diǎn)擊、下滑操作),智能體提升的邊際價(jià)值不明顯,反而可能引入額外的交互成本和延遲,從而導(dǎo)致 Agentic ROI 較低。

因此,當(dāng)前高用戶需求與低 Agentic ROI 之間的矛盾,反映了智能體在日常應(yīng)用中的實(shí)用性不足,需進(jìn)一步優(yōu)化信息價(jià)值、智能體任務(wù)完成時(shí)間、及交互時(shí)間以填補(bǔ)市場(chǎng)空白。

優(yōu)化 Agentic ROI 智能體發(fā)展的「之字形」軌跡

研究團(tuán)隊(duì)提出,LLM 智能體的發(fā)展路徑并非線性增長(zhǎng),而是呈現(xiàn)出一種「先規(guī)模化、后輕量化」的「之字形」發(fā)展模式:首先規(guī)模化(scaling up)參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)、推理能力以提升信息質(zhì)量;之后在保證信息質(zhì)量的前提下,輕量化(scaling down)進(jìn)行模型壓縮、蒸餾、推理優(yōu)化以減少智能體所用時(shí)間與調(diào)用成本。我們正處于智能體規(guī)模化發(fā)展的高峰階段,優(yōu)先提升信息質(zhì)量。

基礎(chǔ)模型如 OpenAI 系列模型的發(fā)展也體現(xiàn)了這一「之字形」發(fā)展趨勢(shì):同系列模型如 o1-mini 到 o1 模型表現(xiàn)顯著增強(qiáng),而新一代小模型如 o3-mini 則在持平 o1 性能的同時(shí)顯著降低了推理費(fèi)用和延遲。

圖片

規(guī)模化提升信息質(zhì)量(Scaling Up)

預(yù)訓(xùn)練規(guī)模化(Pre-training Scaling)

 預(yù)訓(xùn)練階段通過擴(kuò)大模型規(guī)模、數(shù)據(jù)量和計(jì)算資源,使智能體在語(yǔ)言理解、推理和世界知識(shí)等基礎(chǔ)能力方面獲得穩(wěn)步提升。而規(guī)模化使用包含任務(wù)結(jié)構(gòu)和操作流程的文檔數(shù)據(jù)(如操作手冊(cè)、工作流程指南)能夠幫助模型學(xué)習(xí)實(shí)際任務(wù)的分解邏輯和執(zhí)行順序。此外,隨著上下文窗口的擴(kuò)展和記憶機(jī)制的引入,智能體可以處理更長(zhǎng)的交互歷史和用戶偏好,從而提升多輪任務(wù)執(zhí)行的能力。

后訓(xùn)練規(guī)模化(Post-training Scaling)

 后訓(xùn)練階段(如監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí))使智能體更貼近人類的需求與價(jià)值觀。同時(shí),智能體性能提升還依賴于大規(guī)模復(fù)雜環(huán)境(網(wǎng)頁(yè)、API 接口)交互軌跡數(shù)據(jù),使用外部工具進(jìn)行操作決策。此外,在真實(shí)部署中積累的用戶反饋、任務(wù)完成記錄和錯(cuò)誤修復(fù)數(shù)據(jù),構(gòu)成了智能體持續(xù)學(xué)習(xí)與演化的基礎(chǔ),形成智能體的數(shù)據(jù)飛輪,使其在真實(shí)使用中不斷優(yōu)化行為。

推理時(shí)規(guī)模化(Test-time Scaling)

 推理時(shí)規(guī)模化包括:

  • 規(guī)模化推理步驟(Scaling reasoning process),以應(yīng)對(duì)復(fù)雜任務(wù)并生成更可靠的輸出;
  • 規(guī)模化多智能體系統(tǒng)(Scaling multi-agent system),通過協(xié)作完成任務(wù)分解與執(zhí)行;
  • 擴(kuò)展工具調(diào)用(Scaling tool calling),通過多次工具調(diào)用使智能體能夠逐步驗(yàn)證中間結(jié)果;
  • 擴(kuò)展推理時(shí)訓(xùn)練(Scaling test-time training),通過利用無(wú)標(biāo)簽測(cè)試數(shù)據(jù)實(shí)時(shí)更新快速適應(yīng)新任務(wù)或用戶需求
  • 有約束條件下直接優(yōu)化 Agentic ROI(Scaling towards Agentic ROI under budget constraints),智能體可在給定預(yù)算約束(如時(shí)間、API 成本)下動(dòng)態(tài)評(píng)估每一步操作信息收益,直接整體優(yōu)化 Agentic ROI。

構(gòu)建世界模型(Building World Model)

 構(gòu)建真實(shí)的「世界模型」對(duì)于實(shí)現(xiàn)真正規(guī)模化數(shù)據(jù)合成、智能體評(píng)估至關(guān)重要。世界模型應(yīng)支持多模態(tài)交互(語(yǔ)言、圖像、文檔、音頻),具備處理多步驟、長(zhǎng)時(shí)程任務(wù)的能力,并能模擬用戶的多樣化偏好與反饋機(jī)制。此外,它還應(yīng)反映現(xiàn)實(shí)世界中的不確定性,例如信息不完全、用戶意圖變化、環(huán)境干擾等。

確保魯棒性與安全性(Ensuring Robustness & Security)

 確保智能體行為的穩(wěn)健性與安全性也是提升信息質(zhì)量的重要一環(huán)。魯棒性方面,智能體應(yīng)防止獎(jiǎng)勵(lì)機(jī)制被利用,避免出現(xiàn)「獎(jiǎng)勵(lì)黑客」現(xiàn)象;安全性方面,需要防范訓(xùn)練數(shù)據(jù)污染、防止反饋被篡改和后門攻擊等。在運(yùn)行過程中,智能體應(yīng)配備異常檢測(cè)和事實(shí)核查能力,確保輸出內(nèi)容的準(zhǔn)確性與一致性。同時(shí),構(gòu)建行為審計(jì)機(jī)制和可解釋性工具,可以提升智能體的可控性和可靠性。

輕量化降低智能體時(shí)間與成本(Scaling Down)

減少智能體任務(wù)完成時(shí)間

引入記憶機(jī)制: 引入記憶機(jī)制是提高效率的重要手段。具備記憶能力的智能體可以跳過重復(fù)計(jì)算,直接調(diào)用以往任務(wù)中積累的知識(shí),從而加快處理速度。這種方式模擬人類專家的行為,依靠經(jīng)驗(yàn)而非實(shí)時(shí)推理來完成任務(wù)。模型壓縮: 通過模型壓縮或蒸餾來減少計(jì)算資源和推理延遲,是另一個(gè)核心方向。借助模型蒸餾等技術(shù),可以將大模型的能力遷移到更小的模型中,從而在不顯著降低性能的前提下,顯著縮短響應(yīng)時(shí)間、減少部署成本。

優(yōu)化推理策略: 智能體的時(shí)間消耗不僅來源于計(jì)算,還受到推理鏈條長(zhǎng)度的影響。如果推理過程過于復(fù)雜或冗余,例如頻繁的自我反思、遞歸規(guī)劃等,可能會(huì)延長(zhǎng)任務(wù)完成時(shí)間而未帶來質(zhì)的提升。因此,更高效的智能體應(yīng)具備「少而精」的思維能力,能夠通過最短路徑達(dá)成最優(yōu)解。

基礎(chǔ)設(shè)施優(yōu)化: 硬件層面的升級(jí),如 Groq 和 Cerebras 等新型 AI 芯片,以及軟件層面的優(yōu)化,如 vLLM 和 FlashAttention 等推理引擎,都能顯著提升模型運(yùn)行速度。只有軟硬件協(xié)同進(jìn)化,才能真正滿足低延遲、實(shí)時(shí)響應(yīng)的實(shí)際需求,從而提升智能體的整體可用性。

降低成本

降低交互時(shí)間: 當(dāng)前的智能體往往要求用戶提供冗長(zhǎng)、明確的指令,這帶來了較高的使用門檻與認(rèn)知負(fù)擔(dān)。為此,智能體的交互方式應(yīng)從被動(dòng)解析輸入,轉(zhuǎn)向主動(dòng)理解用戶意圖,具備一定程度的目標(biāo)推理與任務(wù)自完成能力。這種轉(zhuǎn)變不僅可以減少用戶的操作負(fù)擔(dān),也有助于提升整體使用體驗(yàn)。此外,產(chǎn)品設(shè)計(jì)上的新范式也有助于進(jìn)一步降低用戶交互時(shí)間。

降低開銷: 智能體的運(yùn)行費(fèi)用可能因模型規(guī)模、推理深度、調(diào)用外部工具等因素而迅速上升。尤其在大規(guī)模部署或持續(xù)運(yùn)行場(chǎng)景下,成本問題尤為突出。因此,未來的智能體需要更智能地管理上下文,合理控制推理復(fù)雜度與工具調(diào)用頻率,確保在保證性能的前提下,盡可能降低資源消耗與使用開銷。

Agentic ROI 提供了一個(gè)衡量智能體真實(shí)可用性的系統(tǒng)框架,幫助我們超越模型性能的單一維度,轉(zhuǎn)向「實(shí)際效益」導(dǎo)向的設(shè)計(jì)與評(píng)價(jià)邏輯。智能體的「可用性」不應(yīng)僅以模型性能定義,而應(yīng)以綜合效益衡量。在實(shí)際部署中,Agentic ROI 為我們提供了一個(gè)更貼近真實(shí)世界的評(píng)價(jià)維度,幫助我們識(shí)別系統(tǒng)中被忽視的「隱藏成本」,并指導(dǎo)我們構(gòu)建真正高效、可用、可負(fù)擔(dān)的智能體系統(tǒng)。


責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-06-30 07:07:00

智能體大型語(yǔ)言模型LLM

2022-01-06 22:29:35

人工智能機(jī)器人自動(dòng)化

2024-03-06 09:00:00

大語(yǔ)言模型人工智能

2025-05-07 16:27:23

2012-08-29 14:35:17

2022-02-11 10:16:53

5G通信數(shù)字化轉(zhuǎn)型

2025-01-08 07:02:00

人工智能GenAI美妝領(lǐng)域

2020-12-22 16:10:43

人工智能

2022-11-10 08:02:08

2025-06-03 14:17:18

WebDancerAgenticAI

2023-09-21 15:12:34

算力AI集群

2023-09-25 07:31:19

算力AI框架

2020-10-19 10:34:56

CIOERP技術(shù)

2022-07-19 15:27:48

元宇宙區(qū)塊鏈貨幣

2024-12-13 14:30:00

AI模型數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久久久1 | 日本成人免费观看 | 国产精品久久久久久久久久免费看 | 欧美一级做性受免费大片免费 | 久久69精品久久久久久久电影好 | 欧洲一区在线观看 | 欧美 日韩精品 | 一级毛片视频在线 | 麻豆国产一区二区三区四区 | 久久天堂| 国产精品高潮呻吟久久 | av片网站 | 91精品国产综合久久久久久 | 国产成人精品免费视频大全最热 | 久久久久久国产精品免费免费 | 在线亚洲人成电影网站色www | 亚洲精品一区二区三区在线 | 成人一区二区视频 | 日韩中文字幕在线视频 | 国产在线视频三区 | 日韩一区二区三区av | 日本久久久影视 | 91精品久久久久久综合五月天 | 国产 欧美 日韩 一区 | 欧美日韩一区二区视频在线观看 | 99久久免费精品 | 99免费精品视频 | 亚洲精品视频在线观看视频 | 午夜小电影 | 国产一区二区黑人欧美xxxx | 欧美一a一片一级一片 | 欧美八区 | 91久久久久久久久久久久久 | 午夜在线免费观看视频 | 久久在线视频 | 欧美日韩国产精品一区 | 99成人 | 亚洲成人精品影院 | 国产精品久久久久久久7电影 | 亚洲一区二区久久 | 日韩亚洲欧美综合 |