生成式AI進入第二幕:交大攜手創智學院提出「認知工程」,AI新紀元開始了
第二幕將催生一種全新的專業:認知工程師 (Cognitive Engineers)— 專注于將人類或 AI 在各領域的深度認知提煉、結構化并轉化為 AI 可學習的形式。
無論你是技術創造者還是使用者,理解這場認知革命都至關重要。我們正在從「AI as tools」向「AI as thinking partners」轉變,這不僅改變了技術的能力邊界,也改變了我們與技術協作的方式。
一、生成式 AI 的第一幕:輝煌與局限
第一幕取得的輝煌成就
2022 年末,ChatGPT 橫空出世,引發了一場席卷全球的 AI 革命。這場革命之所以深刻,正如比爾?蓋茨所言:「人生中讓我印象深刻的兩次技術革命演示,一次是現在操作系統的先驅『圖形用戶界面』,另一個就是以 ChatGPT 為代表的生成式人工智能技術。」生成式 AI 的出現不僅改變了我們與計算機交互的方式,更重塑了我們對人工智能能力邊界的認知。
從文本到代碼,從圖像到視頻,生成式 AI 展現了令人驚嘆的創造力。如今,你只需輸入一句簡單的指令,就能讓 AI 生成「兩艘海盜船在一杯咖啡中航行時相互爭斗的逼真特寫視頻」;你可以向它提出復雜的編程需求,它會為你編寫完整的代碼;你甚至可以請它以莎士比亞的風格撰寫一篇關于量子物理學的論文。這些曾經只存在于科幻小說中的場景,如今已成為我們日常生活的一部分。生成式 AI 正在實現一種前所未有的民主化,讓高級智能服務不再局限于技術精英,而是向每個人敞開大門。
在過去的兩年里,我們經歷了生成式 AI 的第一幕(2024 年 9 月前):以大規模預訓練和提示工程為基礎,實現了知識的高效存儲和檢索。這一階段的技術基礎建立在兩大核心支柱上:生成式預訓練(Generative Pretraining)作為數據存儲機制,將世界知識壓縮到神經網絡參數中;以及提示工程(Prompting Engineering)作為知識讀取方式,而且是通過人類最擅長的自然語言交互提取這些知識。
在標準基準測試上,第一幕 AI 取得了顯著進步。以 MMLU(大規模多任務理解測試)為例,從 2019 年到 2024 年,頂尖模型的性能從人類水平以下迅速攀升至超過 90% 的準確率,超越了人類表現。這些基準測試涵蓋各種知識領域和任務類型,從常識推理到專業知識,從語言理解到問題解決,AI 模型在幾乎所有領域都展現出了驚人的進步。
第一幕的根本局限
然而,隨著我們對生成式 AI 的深入應用,第一幕的根本局限也日益凸顯,尤其在復雜推理能力方面的不足。
推理能力的短板最為突出。以 AIME(美國高中數學競賽)為例,即使是最先進的模型如 Qwen-2.5-Math,在面對 2024 年 AIME 的 30 道題目時,也只能正確回答 9-13 道。這表明,在需要深度數學推理的任務上,第一幕 AI 仍然與人類專家有明顯差距。
同樣,在 OS World Benchmark (評估 AI 操作電腦完成任務的能力) 等測試中,這些模型在使用計算機完成復雜任務時表現不佳。此類任務需要長鏈規劃、工具使用和環境交互,而現有模型往往難以維持連貫的長期計劃和適應動態環境變化。
第一幕 AI 模型在這些復雜推理任務上的表現遠遠落后于其在文本理解等方面的成就。即使是 GPT-4o 這樣的頂尖模型,在需要深度思考的場景中仍然困難重重。
除了推理能力的短板外,第一幕 AI 還存在知識更新滯后的問題。模型的知識截止于其訓練數據的時間點,無法自動獲取最新信息。這導致在快速變化的領域中,模型提供的信息可能已經過時或不準確。
最根本的局限是深度思考能力的缺失。第一幕的模型更像是一個知識管理工具,善于檢索和整合已有信息,但難以進行真正的創造性思考或處理前所未見的復雜問題。它們無法像人類那樣進行長時間的深度思考,無法在思考過程中識別錯誤并調整方向,也無法連接遠距離的知識點形成新的見解。我們需要一個會深度思考的模型!
為什么(思考)推理能力如此重要?正如某位 OpenAI 科學家:「任何要完成的工作都會遇到障礙,而讓你繞過這些障礙的是你的推理能力。」 在實際應用場景中,推理能力的重要性表現在多個方面:
- 數理推理:從證明數學定理到解決物理問題,強大的推理能力是科學研究的基礎。
- 工具調用:在處理「白酒和新能源推薦更有潛力的一支股票」這類請求時,模型需要理解查詢意圖,分解為子任務,調用適當工具,并整合信息給出合理建議。
- 智能體規劃:執行「幫我下單一款蘋果去年 3 月份新出的手機」等任務時,需要理解時間線索,識別產品,了解購買流程,并執行多步操作。
- 更復雜場景:如 Deep Research(深度研究)、Computer Use(計算機使用)和 Codebase-Level Reasoning(代碼庫級推理)等任務,都需要模型具備持續、連貫的推理能力和適應性思考。
第一幕技術的總結
第一幕 AI 的推理局限引發了一個關鍵問題:僅通過預訓練擴展能否實現復雜推理?行業內已形成共識認為「預訓練將要結束」,「僅通過預訓練無法實現 AGI」。通用 LLM 已在普通用戶需求領域趨于飽和,而前沿創新領域仍存在巨大的提升空間。
這種現象表明,我們遇到了預訓練擴展的瓶頸。盡管投入更多數據和計算資源,模型在推理能力上的提升卻日漸減緩。我們需要一種根本性的范式轉變,而不僅僅是對現有方法的量化擴展。
總結第一幕的生成式 AI,我們可以看到其技術基礎是預訓練和微調的結合。這一階段的 AI 模型:
- 能力特點:掌握海量已有知識,處理日常高頻任務,完成簡單推理
- 局限性:知識更新滯后,難以深度思考,推理能力有限
正是這些局限促使我們轉向生成式 AI 的第二幕 —— 認知工程。我們需要一個真正會深度思考的模型,而不僅僅是一個高效的知識檢索工具。第二幕的到來,標志著 AI 從知識管理向認知管理的跨越,從信息處理向思維模擬的進化。這一轉變將如何實現?它又將帶來怎樣的革命性變化?這正是我們接下來要探討的內容。
二、生成式 AI 的第二幕
在生成式 AI 的發展歷程中,我們正跨入一個激動人心的新階段 —— 第二幕:認知工程。這一轉變不僅僅是技術的迭代,更是 AI 能力本質的重新定義。那么,什么是認知工程?它與第一幕的知識工程有何本質區別?為什么它會在此時出現?這些問題將成為我們理解 AI 未來發展的關鍵。
最近,上海交通大學聯合創智學院,耗時超過半年,創建了教科書級別的長達 76 的文章(并提供了雙語版本),首次提出:「認知工程」的概念:認為生成式 AI 發展已進入第二幕,從原來的以預訓練技術為核心的提示詞工程 (Prompt engineering) 轉變為以 Test-Time scaling 為核心的認知工程 (Cognition Engineering),結合 400 多篇論文和最新的研究工作全景式介紹了 Test-time scaling 技術驅動下的范式變革。
- 論文標題:Generative AI Act II: Test Time Scaling Drives Cognition Engineering
- 英文論文地址:https://arxiv.org/pdf/2504.13828
- 中文論文地址:https://github.com/GAIR-NLP/cognition-engineering/blob/main/assets/Cognition_Engineering_zh.pdf
- 代碼地址:https://github.com/GAIR-NLP/cognition-engineering
圖:提示工程使人類首次通過自然語言與 AI 實現對話級交流;如今,認知工程則通過基于語言的思想,建立起我們與 AI 之間首次思維層面的連接 —— 宛如意識之間的直接對接。
這篇工作提供了什么?
該文章全面介紹了生成式 AI 發展第二幕的特點、技術手段、應用前景、未來方向,并努力讓不同的人群都有所收獲,包括但不限于:
- 作為 AI 研究人員,您是否正在尋找突破大型語言模型當前瓶頸的新研究方向,尋找下一個 Scaling Law?
- 作為 AI 應用工程師,您是否需要一個更加實戰經驗的教程指導你如何把 Test-time Scaling 應用到你的應用場景里?
- 作為數據工程師,您是否想了解大模型第二幕下什么樣的數據更加寶貴(即數據工程 2.0)?
- 作為學生或 AI 新手,您是否希望有一個系統性框架來理解「認知工程」和「Test-time Scaling」的概念和應用以及「傻瓜式」的入門代碼教程?RL Scaling 的訓練技巧太多,如何系統性的整理?
- 作為教育工作者,您是否需要結構化的教學資源來解釋「Test-time Scaling」?
- 作為投資者或決策者,您是否想了解生成式 AI 已進入的新階段, 通過「第一 / 二幕」框架獲得強化視野,提供深度的認知洞察?
特別的,該文章提供了如下的系統化資源:
- 如何在特定領域應用 Test-time scaling 的工作流程圖總結,以及數學、代碼、多模態、智能體、具身智能、安全對齊、檢索增強生成、評估等多個領域的應用范例。
- 提高 Test-time scaling 的擴展效率方法的全面總結,涉及并行采樣、樹搜索、多輪修正、長思維鏈等主流的 Test-time scaling 技術。
- 如何利用強化學習技術激發大模型長思維鏈能力,包括代碼教程、工作總結、訓練問題的常見應對策略。
- 不同領域的長思維鏈資源匯總。
- Test-Time scaling 前沿持續追蹤。
- ...
三、深度解讀三大擴展定律(Scaling Laws)
預訓練階段(藍色區域):圖中的藍色知識節點之間存在天然連接(Innate Connection),這些連接是模型通過大規模預訓練自然形成的。例如,「Earth」(地球)、「Gravity」(重力)和「Falling Objects」(落體)之間存在直接的天然關聯,模型可以輕松理解「蘋果為什么會落下」這類問題。但注意「Kepler's Laws」(開普勒定律)和「Universal Gravitation」(萬有引力)這類更深層次的知識點與日常現象之間并沒有直接連接。
后訓練階段(綠色區域):通過額外的監督學習和對齊訓練,模型形成了更多學習得到的連接(Learned Connection)。圖中的綠色曲線顯示,這一階段的智能增長速度比預訓練階段更快,但仍然有其極限。
測試時階段(紅色區域):這是認知工程的核心部分。在這一階段,模型能夠在推理過程中動態建立「推理連接」(Reasoned Connection),將遠距離的知識節點連接起來。圖中顯示,當面對一個問題(Query Start Node,Qs)時,模型不僅利用已有連接,還能通過推理建立新的連接路徑,最終到達目標節點(Query End Node,Qe)。
生成式 AI 的發展可以通過 Computation Scaling 模型來理解。
我們可以清晰地看到這一轉變的視覺化表達。圖表將 AI 的發展劃分為三個階段:Pre-training(預訓練)、Post-training(后訓練)和 Test-time(測試時),橫軸代表 Computation Scaling(計算擴展),縱軸代表 Intelligence(智能水平)。
階段一:預訓練擴展
通過增加訓練數據和模型參數來提升性能,但逐漸遇到天花板。
階段二:后訓練擴展
通過精細調整、對齊和指令遵循進一步提升模型能力,但增長同樣趨于平緩。
階段三:測試時擴展
通過改變推理過程本身,打開了一個全新的擴展維度,性能曲線再次陡峭上升。
這種演進模式告訴我們一個重要事實:當一種擴展方式達到極限時,我們需要尋找新的擴展維度。測試時擴展正是這樣一種新維度,它不再僅僅關注「模型知道什么」,而是關注「模型如何思考」。
這種能力的本質是:模型可以在推理過程中進行深度思考,動態構建認知路徑,而不僅僅是檢索靜態知識。測試時階段的紅色曲線陡峭上升,表明這種方法帶來了智能水平的顯著提升。
四、認知工程
什么是認知工程?「認知工程是通過超越傳統預訓練方法的 Test Time Scaling (測試時擴展) 范式,系統性構建人工智能思維能力的方法論。它融合人類認知模式提煉和 AI 自主發現(如強化學習),有意識地培育人工系統的深度認知能力。」
DIKW 金字塔及其與認知工程范式的關系
認知工程代表了人工智能發展范式的根本轉變,其核心在于系統化地構建 AI 系統的深度認知能力。基于 DIKW(數據 - 信息 - 知識 - 智慧)理論框架,這一新興領域致力于實現從知識層面向智慧層面的質變突破。
在認知維度上,傳統 AI 系統主要停留在數據和信息處理層面,大語言模型雖然實現了知識層面的突破,但認知工程更進一步,聚焦于智慧層面的核心特征:包括通過多層級復雜推理與元認知能力實現的深度思考;通過跨領域知識整合與新見解生成的創造性連接,以及根據問題復雜度自主調整思維過程的動態適應能力。
與傳統 AI 范式相比,認知工程展現出根本性差異:
- 在能力基礎上實現了從數據 / 信息累積到知識 - 智慧轉化的轉變;
- 在學習方式上從行為模仿轉向思維過程模仿;
- 在系統特性方面將靜態知識庫升級為動態認知系統;
- 在輸出模式上完成了從知識檢索到知識創造的跨越。這種范式轉變標志著 AI 發展進入以「思維質量」為核心的新階段。
認知工程可以定義為:通過延長推理時間和學習人類認知過程,使大模型由第一幕的知識管理工具進化成具備深度思考能力的認知管理工具。這是一個從「知道什么」到「如何思考」的根本轉變。
我們可以通過知識圖譜的類比來直觀理解這一轉變。在第一幕中,大模型通過預訓練獲取了大量的知識點(節點)和它們之間的常見關聯(邊),形成了一個龐大但相對靜態的知識網絡。當用戶提問時,模型主要在這個預先構建的網絡中檢索和組合已有信息。這就像是在一個已經鋪好的公路網上行駛,只能到達那些有道路相連的地方。
而在第二幕的認知工程中,模型獲得了一種新能力:它可以在推理過程中「修建新路」—— 也就是通過深度思考建立遠距離知識點之間的新連接。面對一個復雜問題,比如「量子力學與心理學有何關聯?」,第二幕的模型不再僅僅檢索已知的直接聯系(如果有的話),而是能夠通過多步推理,探索這兩個領域之間可能存在的聯系路徑,甚至發現前人未曾注意到的隱含關系。
這種能力的核心在于:模型可以在推理過程中動態構建認知路徑,而不僅僅是檢索靜態知識。這正是人類深度思考的本質特征之一。
五、為什么現在發展認知工程?
認知工程的興起并非偶然,而是對 AI 發展在 DIKW 金字塔中遭遇「智慧鴻溝」的直接回應。盡管在知識檢索、內容生成和基礎推理方面取得顯著進展,大語言模型在智慧層面仍存在明顯缺陷:
- 復雜推理局限:在多步邏輯推演(如數學證明、科學問題求解)中,當前大語言模型難以實現可靠的子問題分解與路徑探索。
- 知識靜態性缺陷:預訓練模型存在知識固化問題,既無法自主更新知識體系,更缺乏提出原創假設的科學發現能力。
- 應用需求升級:從模式匹配轉向復雜決策支持,用戶需求已超越知識檢索,要求系統具備多視角分析與創新洞察。
認知工程在此特定時刻興起,得益于多項技術突破的同步成熟。這些突破共同創造了必要條件,使 AI 得以從知識管理邁向深度認知能力。認知工程的崛起建立在三大關鍵技術支柱之上:
- 知識基礎:訓練數據從非結構化文本升級為整合科學文獻、技術文檔、編程代碼庫的專業語料體系(如 Llama 2 的 2 萬億 token 知識生態)。
- 測試時擴展技術:傳統推理方法受限于固定輸出長度和單次生成范式。近期一系列技術突破顯著擴展了模型的推理能力:思維鏈提示(CoT) 引導模型像人類解題那樣逐步推理;樹狀搜索允許同時探索多條推理路徑而非局限于單一思路;自我修正與驗證技術進一步強化這些能力,使模型能評估自身推理、識別潛在錯誤并改進方法 —— 模擬人類元認知過程。
- 自訓練技術:通過強化學習框架(如 DeepSeek-R1),模型自主掌握反思 / 回溯等高級認知技能,并在可驗證獎勵機制中持續優化推理策略。
六、如何使用 Test-Time Scaling 技術推動認知工程?
全文從兩個角度介紹了如何使用 Test-Time scaling 技術推動認知工程。
(1)Test-time scaling 方法
全文主要介紹了四種 Test-time scaling 方法:并行采樣、樹搜索、多輪修正和長思維鏈推理。對于每種 Test-time scaling 方法,涵蓋構建方法、擴展規律以及如何從單個方法優化角度提高擴展效率。此外,文章還在多個維度上比較了這些方法的優劣勢,并討論如何有效地結合它們以提升性能。
提高 Test-time scaling 擴展效率的方法總結
不同 Test-time scaling 方法的比較
不同 Test-time scaling 方法的集成
(2)Test-time scaling 背后的訓練策略
對于長思維鏈的 Test-time scaling 技術,對于傳統的大語言模型,需要強化學習或者監督微調技術解鎖其長思維鏈能力,該文章結合最新的工作,對于強化學習技術,從訓練算法、獎勵函數、策略模型、訓練數據、多階段訓練五個角度全面介紹其設計準則,此外論文還提供了配套的代碼教程。
應用強化學習技術解鎖長思維鏈能力工作總結
解決強化學習訓練常見問題的方法匯總
不同強化學習算法比較
不同獎勵類型的比較
對于使用監督微調技術解鎖長思維鏈能力,該文章從訓練數據來源、訓練數據質量、訓練數據量、訓練方法 、基模型五個角度全面介紹其設計準則,并匯總了常見的針對不同場景的長思維鏈資源。
七、數據工程 2.0: 認知數據工程
傳統人工智能主要關注知識獲取 —— 訓練系統學習人類思維的成果。然而,認知工程要求一種根本性的不同:從思維成果轉向思維過程本身。這一轉變催生了一門新學科 —— 認知數據工程,它徹底改變了我們對有價值訓練數據的理解。
認知數據來源于三個不同但互補的來源,每個來源都為開發過程帶來了獨特的優勢和挑戰:
來源 1:人類認知投射
盡管目前缺乏直接捕捉人類思維過程的腦機接口,我們仍可以通過物理世界中的投射來獲取人類認知:
- 直接記錄的產物。專家問題解決過程的視頻記錄、出聲思考記錄以及詳細的研究日志,捕捉了認知過程的展開。這些記錄不僅保留了解決方案,還保留了專家思維中的混亂現實 —— 錯誤的開始、修改和突破。
- 工具介導的認知痕跡。復雜的認知活動在專用工具中留下了痕跡 —— 實驗室筆記本、協作白板會議、軟件開發中的版本控制系統,以及科學論文通過草稿和修訂的逐步完善。這些工具作為代理,使隱含的認知過程變得顯性和可觀察。
- 前沿專業知識提取。最有價值的認知模式通常存在于領域前沿專家的頭腦中。這些模式需要精心設計的提取方法 —— 專門的訪談技術、定制的問題場景和高質量的互動,將隱性知識提煉為顯性的推理軌跡。
來源 2:AI 生成的認知
通過適當的獎勵機制和復雜的強化學習方法,AI 系統現在可以在環境中獨立生成有價值的認知數據或軌跡:
- 環境與獎勵的協同作用。當提供設計良好的環境、適當的獎勵函數和強大的初始化模型時,AI 系統可以通過擴展探索發現新的認知策略。這些策略可能與人類方法大不相同,但能達到同等或更優的效果 —— 類似于 AlphaGo 著名的「第 37 手」,最初讓人類專家感到困惑,但最終證明非常有效。
- 自我對抗與對抗性發現。系統可以通過與自己競爭或面對越來越復雜的場景,生成越來越復雜的認知數據,開發出僅靠模仿人類例子無法出現的推理策略。
- 認知發現中的規模化效應。隨著計算資源的增加,AI 系統可以探索由于生物限制(如記憶、注意力跨度或處理速度)而無法為人類所及的認知路徑 —— 可能在從數學到藥物設計的各個領域中發現新的問題解決方法。
來源 3:人機協作生成
最有前景的或許是通過人機伙伴關系共同創造認知數據:
- 軌跡采樣與人工過濾。AI 代理可以生成多樣化的解決路徑,然后由人類專家評估和提煉,結合機器生成的多樣性和人類對質量和相關性的判斷。
- 人工種子與 AI 擴展。人類專家可以提供復雜領域中的初始推理示例,然后 AI 系統進行認知完成(即擴展、系統化變化和完成)—— 創建比僅靠人工標注更大的訓練數據集。
- 迭代優化循環。人工和 AI 的貢獻可以在漸進循環中交替進行,每一方都在對方工作的基礎上進行增強 —— 人工提供創造性飛躍或概念重構,AI 提供系統化的探索和邊緣案例。
這種認知數據建立了一類全新的數字資源,有可能推動 AI 能力超越僅靠自然數據收集或合成生成所能達到的水平。由此產生的認知數據存儲庫很可能變得與大規模計算資源一樣具有戰略價值,成為決定 AI 進步領導地位的關鍵因素。
預訓練階段數據工程演變趨勢(左)與后訓練階段數據工程演變趨勢(右)
該文章還從數學、代碼、多模態、智能體、具身智能、安全對齊、檢索增強生成、評估等多個角度介紹了 Test-time scaling 驅動下的認知工程的應用實例以及未來發展方向:
Test-time scaling 技術在不同領域的應用
Test-time scaling 技術在數學領域工作的時間線總結
論文還提供了手把手寫 RL Scaling 的代碼和對應使用的數據集,讓每個感興趣的人都可以掌握這門技術:
八、結語
站在 2025 年的視角回望生成式 AI 的發展歷程,我們見證了一場前所未有的認知革命。從第一幕的知識管理工具,到第二幕的認知工程,AI 正在經歷一場本質的蛻變。
第一幕以大規模預訓練和提示工程為基礎,創造了能夠理解和生成人類語言的強大模型。這些模型擅長知識檢索和簡單推理,為人類提供了前所未有的信息處理工具。然而,它們在深度思考、復雜推理和創新性任務上的局限也日益明顯。
第二幕的認知工程帶來了根本性的突破。通過測試時擴展技術,AI 首次獲得了真正的深度思考能力;這場認知革命的影響深遠。在短期內,它將改變軟件開發、內容創作和信息分析等領域的工作方式;在中期,它將重塑教育體系、科學研究和商業創新的流程;在長期,它可能會改變人類與技術的關系本質,創造一種人機共生的新智能形態。
對于開發者,建議是:不要僅停留在 API 調用層面,深入了解認知工程的原理,學會設計能夠激發 AI 深度思考的交互;對于研究者,尋找測試時擴展與新型架構結合的創新點,探索認知與記憶的協同優化;對于產業界,投資認知數據的收集與生成,打造滿足行業特定需求的認知模型。
無論你是技術創造者還是使用者,理解這場認知革命都至關重要。我們正在從「AI as tools」向「AI as thinking partners」轉變,這不僅改變了技術的能力邊界,也改變了我們與技術協作的方式。