復(fù)旦大學(xué)/上海創(chuàng)智學(xué)院邱錫鵬:Context Scaling,通往AGI的下一幕
2024 年底,Ilya Sutskever 斷言「我們所知的預(yù)訓(xùn)練時(shí)代即將終結(jié)」,讓整個(gè)人工智能領(lǐng)域陷入對(duì) Scaling What 的集體追問(wèn)之中。
新的思路不斷涌現(xiàn):推理時(shí)擴(kuò)展(Test-Time Scaling)讓 OpenAI 的 o 系列在數(shù)學(xué)推理上大放異彩,DeepSeek-R1 通過(guò) GRPO 替代 PPO 實(shí)現(xiàn)了強(qiáng)化學(xué)習(xí)的突破,強(qiáng)化學(xué)習(xí) Self-play + LLM 讓 AI 在游戲和代碼生成中展現(xiàn)驚人能力,Agent 化路徑則催生了能夠操作瀏覽器、調(diào)用工具的新一代智能助理…… 每一條路都在探尋可能的下一個(gè)躍遷。
在這場(chǎng)技術(shù)探討中,復(fù)旦大學(xué) / 上海創(chuàng)智學(xué)院的邱錫鵬教授提出了一個(gè)耐人尋味的新路徑 ——Context Scaling。與參數(shù)規(guī)模、數(shù)據(jù)量、推理計(jì)算等擴(kuò)展路徑不同,Context Scaling 的核心,不在于更大,而在于更「深」:如何讓 AI 真正理解并適應(yīng)復(fù)雜、多變、模糊的情境(Context)。
在與機(jī)器之心的最新一次對(duì)談中,邱錫鵬教授系統(tǒng)闡述了他對(duì) AI 發(fā)展的洞察:從預(yù)訓(xùn)練擴(kuò)展到后訓(xùn)練優(yōu)化,再到情境智能(Contextual Intelligence)的深層轉(zhuǎn)變。
AGI 三幕演進(jìn)
從參數(shù)堆疊到情境理解
邱錫鵬教授將大模型的演進(jìn)總結(jié)為一個(gè)核心公式:
大模型的核心是提升給定情境(Context)條件下模型決策(Decision)的準(zhǔn)確性,需要從大量數(shù)據(jù)中學(xué)習(xí)模型參數(shù) θ。
第一幕是模型規(guī)?;膭倮?。 通過(guò)堆疊數(shù)據(jù)與參數(shù),將已發(fā)現(xiàn)且可描述的知識(shí)「壓縮」,找了很好的模型參數(shù) θ,實(shí)現(xiàn)了 LLM 在通用任務(wù)上的躍升。這一階段誕生了 ChatGPT、MOSS、Qwen 等代表性的通用模型。但隨著數(shù)據(jù)見頂、參數(shù)規(guī)模收益遞減,業(yè)界普遍意識(shí)到:簡(jiǎn)單加法已無(wú)以為繼。
第二幕則是后訓(xùn)練優(yōu)化的探索,包括推理增強(qiáng)、知識(shí)具象化等方向,這一階段的核心目標(biāo)是通過(guò)引入類人的問(wèn)題求解過(guò)程繼續(xù)提升大模型解決復(fù)雜問(wèn)題的決策能力(Decision)。強(qiáng)化學(xué)習(xí)、工具調(diào)用、思維鏈、多模態(tài)成為關(guān)鍵詞,代表性成果包括 GPT o1/o3、DeepSeek-R1、AnyGPT 等。
在第一幕和第二幕發(fā)展到一定階段,如何定義情境(Context)就成為繼續(xù)提升模型能力的關(guān)鍵因素,也是大模型落地應(yīng)用中最具挑戰(zhàn)的一環(huán)。很多模型無(wú)法正確決策的主要原因是對(duì)任務(wù)或者情境的描述不夠。目前,當(dāng)遇到難以描述或難以定義的問(wèn)題或任務(wù)時(shí),現(xiàn)有方法都顯露出局限性。例如,如何讓 AI 理解一個(gè)微妙的社交暗示?如何在文化差異巨大的環(huán)境中做出恰當(dāng)判斷?如何處理那些無(wú)法用明確規(guī)則定義的復(fù)雜交互?這些「暗知識(shí)」構(gòu)成了人類智能的核心,卻是當(dāng)前技術(shù)的盲區(qū)。
接下來(lái)的第三幕 Context Scaling,旨在解決上述問(wèn)題,并由此實(shí)現(xiàn)「情境智能」。這一階段關(guān)注的,讓 AI 能夠理解并適應(yīng)足夠豐富、真實(shí)、復(fù)雜、多變的情境信息,從而在模糊不清的世界中作出合情合理的判斷。
Context 深層內(nèi)涵
捕獲難以描述的「暗知識(shí)」
在邱錫鵬教授的定義中,Context 遠(yuǎn)非當(dāng)前大模型所使用的「上下文窗口」那么簡(jiǎn)單,它是一種多維、動(dòng)態(tài)、跨模態(tài)的信息結(jié)構(gòu),其中可能包含時(shí)間信息、空間信息、參與者狀態(tài)、目標(biāo)意圖,甚至是未明說(shuō)但語(yǔ)境暗示的文化規(guī)則與人際默契。
最關(guān)鍵的,是 Context Scaling 對(duì)「暗知識(shí)」的捕獲能力。所謂暗知識(shí)(Tacit Knowledge),指的是那些人類習(xí)得但難以清晰表述的能力,包括但不限于:
- 社交智能:如何解讀一個(gè)眼神、一個(gè)停頓、一個(gè)語(yǔ)調(diào)的變化
- 文化適應(yīng):在不同文化背景中如何適當(dāng)行事,理解未說(shuō)出口的社會(huì)規(guī)則
- 情境判斷:同樣的話語(yǔ)在不同情境下的不同含義
- 動(dòng)態(tài)適應(yīng):在變化的環(huán)境中持續(xù)調(diào)整策略和理解
舉例來(lái)說(shuō):當(dāng)一個(gè)人說(shuō)「不要」,只有身處完整情境,AI 才能判斷這句話是真正的拒絕、玩笑,還是一種反向請(qǐng)求。在多模態(tài)、多輪對(duì)話、現(xiàn)實(shí)互動(dòng)任務(wù)中,這種差別往往決定智能的成敗。
正是這些難以言述的隱性知識(shí),構(gòu)成了人類智能的底色。而 AI 若能通過(guò) Context 捕獲這些結(jié)構(gòu)模糊、路徑多變的信息,將實(shí)現(xiàn)真正意義上的智能突破。
同時(shí),這也是對(duì) AI 安全發(fā)展的核心考量。一個(gè)耳熟能詳?shù)睦邮恰富匦吾樸U摗埂?當(dāng)大模型僅僅按照生產(chǎn)更多回形針的目標(biāo)行事時(shí),可能會(huì)不擇手段地獲取資源,最終威脅人類社會(huì)。Context Scaling 通過(guò)讓 AI 理解復(fù)雜的社會(huì)情境和隱含價(jià)值觀,能夠在沒有明確禁令的情況下,基于對(duì)情境的深度理解,做出符合人類價(jià)值觀的判斷。
三大技術(shù)支柱
交互、具身、擬人化
邱錫鵬教授表示,Context Scaling 之所以能成為一個(gè)獨(dú)立的技術(shù)路徑,源于它擁有獨(dú)特的三項(xiàng)能力支柱:
1. 強(qiáng)交互性(Strong Interactivity)
情境智能的本質(zhì),在于「從交互中學(xué)習(xí)」,這包括兩個(gè)層面,一是與環(huán)境的強(qiáng)化學(xué)習(xí)交互,AI 需要在復(fù)雜環(huán)境中行動(dòng)、觀察反饋、調(diào)整策略,但 Context Scaling 要求更深層的交互 —— 不僅要學(xué)會(huì)如何行動(dòng),更要理解為什么這樣行動(dòng)。
二是與人類的多模態(tài)協(xié)作,包括語(yǔ)言澄清、任務(wù)討論、情緒共鳴等。當(dāng)前 Gemini Deep Research 等助理已經(jīng)能夠詢問(wèn)用戶的具體需求,但 Context Scaling 要求 AI 能夠理解用戶的情緒狀態(tài)、文化背景,甚至未說(shuō)出口的期望。只有能不斷從互動(dòng)中汲取信息的系統(tǒng),才具備面對(duì)復(fù)雜情境的應(yīng)變能力。
2. 具身性(Embodiment)
AI 要能交互,要理解所處世界,意味著智能體必須具備「主體性」,這樣才能感知、行動(dòng)、記憶與學(xué)習(xí)。但這并不意味著必須具備現(xiàn)實(shí)物理世界的完整身體,虛擬環(huán)境中的持續(xù)任務(wù)、AR 場(chǎng)景中的決策代理,也是對(duì)這一理念的試驗(yàn)場(chǎng)。
3. 擬人化(Anthropomorphizing)
這是 Context Scaling 獨(dú)有的特征 ——AI 需要具備類人的情感共鳴和反饋能力。這不是簡(jiǎn)單的情感模擬,而是對(duì)人類偏好和行為模式的深度理解,比如理解和回應(yīng)人類的情緒狀態(tài),掌握復(fù)雜的人際交往規(guī)則,懂得何時(shí)保持距離、何時(shí)表達(dá)關(guān)心,以及具備文化敏感性,知曉在不同文化背景下調(diào)整交互方式和價(jià)值判斷。
為了實(shí)現(xiàn)上述三點(diǎn),Context Scaling 要求模型具備持續(xù)學(xué)習(xí)的能力。不同于傳統(tǒng)的持續(xù)學(xué)習(xí),情境智能的持續(xù)學(xué)習(xí)能力更強(qiáng)調(diào)在模型參數(shù)相對(duì)固定的情況下,通過(guò) Context 的積累和更新,實(shí)現(xiàn)能力的持續(xù)提升。換句話說(shuō),是在使用過(guò)程中持續(xù)積累經(jīng)驗(yàn)、調(diào)整策略。「這也更像是人類的成長(zhǎng)與發(fā)展,在先天基因確定的情況下,通過(guò)后天學(xué)習(xí)以及不斷適應(yīng)新的環(huán)境,根據(jù)具體情境調(diào)整行為策略?!?/span>
要讓 Contextual Intelligence 成為現(xiàn)實(shí),技術(shù)上面臨幾大挑戰(zhàn):
- 模型結(jié)構(gòu)的突破:現(xiàn)有 Transformer 架構(gòu)在長(zhǎng)上下文處理上的效率受限,要支持多模態(tài)、交互式、動(dòng)態(tài)變化的情境輸入,模型架構(gòu)本身可能需要根本重構(gòu)。
- 學(xué)習(xí)范式的轉(zhuǎn)變:從傳統(tǒng)監(jiān)督學(xué)習(xí)到交互式、持續(xù)式的弱監(jiān)督、多反饋學(xué)習(xí),以及在新情境中快速適應(yīng)的元學(xué)習(xí)能力,Context Scaling 所需的訓(xùn)練目標(biāo)與損失函數(shù)正在重塑 AI 學(xué)習(xí)本質(zhì)。
- 復(fù)雜情境的定義與構(gòu)建:復(fù)雜情境難以靠人工構(gòu)建,也無(wú)法通過(guò)真實(shí)世界逐一采集。大規(guī)模情境數(shù)據(jù)的生成,需要借助 AI 自身合成場(chǎng)景、任務(wù)、交互腳本的能力。
邱錫鵬教授強(qiáng)調(diào),Context Scaling 是并非替代其他 Scaling 路線,而是對(duì)其構(gòu)成補(bǔ)充與整合。例如,Test-Time Scaling 關(guān)注輸出階段的計(jì)算效率,Context Scaling 關(guān)注輸入的質(zhì)量與結(jié)構(gòu),兩者是正交互補(bǔ)的,更豐富的上下文信息能夠?yàn)橥评頃r(shí)計(jì)算提供更好的基礎(chǔ)。
與 Agent 路徑相比,Context Scaling 更多對(duì)任務(wù)定義層的重新設(shè)想,它強(qiáng)調(diào)的是智能體理解復(fù)雜情境的核心能力,這種能力可以通過(guò)各種 Agent 架構(gòu)來(lái)實(shí)現(xiàn),但其本身超越了具體的工具使用和任務(wù)執(zhí)行。
Context Scaling 也為強(qiáng)化學(xué)習(xí)提供了新的環(huán)境定義,不再是簡(jiǎn)單的狀態(tài) - 動(dòng)作 - 獎(jiǎng)勵(lì)循環(huán),而是包含豐富情境信息的復(fù)雜交互空間。
通往 AGI 的關(guān)鍵一步
「在大模型時(shí)代,如果研究只是在已有路徑上做微調(diào),那將失去方向感?!骨皴a鵬教授說(shuō):「研究者需要去定義那些 “大家都意識(shí)到但沒人清晰表達(dá)” 的問(wèn)題?!?/span>
在這場(chǎng) Scaling What 的集體探索中,Context Scaling 將推理增強(qiáng)、多模態(tài)融合、強(qiáng)化學(xué)習(xí)等看似分散的技術(shù)路徑統(tǒng)一在「情境理解」這一核心目標(biāo)之下。智能的本質(zhì),也許就在于面對(duì)復(fù)雜世界時(shí)那份模糊中的準(zhǔn)確、不確定中的判斷、沖突中的協(xié)調(diào)。這個(gè)意義上,Context Scaling 不僅是大模型發(fā)展的下一幕,更可能是通向 AGI 的關(guān)鍵一步。