科普:AI 是如何理解問題的?它能像人類一樣思考嗎?
現有的AI推理的局限性
在人類的日常生活中,我們并不需要把思維的每一步說出口或畫出來才能思考。 比如:你在腦子里可以默默思考一篇文章的結構,或者在腦海中想象一下你家房間的布局。 思考這些都不需要真正動筆或動手去畫。
但對于現如今的生成式 AI(比如 GPT-4o DeepSeek這類大型多模態模型)來說,它的“思考”過程本質上是通過“生成東西”來完成的。也就是說,它并不是像人類一樣,在內部默默推理、默默構圖,而是在每一步都必須“寫出字”或“畫出圖”來輔助自己完成思考。
假設你問一個 AI:“這把椅子從不同角度看起來是什么樣子?”
??人類的處理方式: 我們會在腦中想象那把椅子的三維結構,然后“腦補”它旋轉后的樣子。我們不需要真的畫出來,靠大腦內的“心理圖像”就可以完成。
?? AI 的處理方式(傳統多模態模型): AI 可能會通過逐步生成一張旋轉后的椅子圖像,然后再用這張圖來推理下一步。它不是“在腦子里轉椅子”,而是每轉一個角度就得畫一張圖出來,再繼續想。 換句話說,生成本身就是它的一部分思考過程。
直到 Mirage
的出現,這種局限才被打破。
但問題是——我們為什么需要讓機器擁有這種像人類的思考能力?
人類想象的能力
幾十年來,科學界已經明確知道:人類在大腦中會生成帶有圖像特征的 “心理圖像”(mental images),這些圖像具有類似視覺圖畫的表征形式。
為了避免過多術語,我們簡要回顧一下。早在 1994 年,Stephen Kosslyn 就通過一系列研究證實,人類確實會在頭腦中構建“心理圖像”。
科學家在研究中發現:人類在心中旋轉物體圖像時,所需的反應時間與旋轉角度成正比。這強有力地證明了人腦中的圖像處理不僅僅真實存在,而且具有空間操作性——我們的大腦并非抽象地“理解”圖像,而是在“心中看見并操縱”它們。
這個發現說明,我們頭腦中的圖像表征是具有空間屬性的。因為人在進行這種心理旋轉時,其實是在主動地從一個新的角度重新構建圖像。
我們在思考場景時,并不是以符號的方式進行抽象推理;我們是在大腦中真實地構建出這些場景的畫面。
所以,如果人類會在腦中構建心理圖像,并且這一能力很可能正是我們進行空間推理的基礎,那為什么人工智能不應該也具備同樣的能力呢?
什么是潛在空間(Latent Space)
在現代人工智能中,幾乎所有核心機制都圍繞著一個概念展開:內部表征(internal representations)。
這些“表征”并不是文字、圖像或聲音,而是一些數值向量(vectors) 畢竟機器只能處理數字。這些向量所承載的,是模型對現實世界中各種概念的理解。這是什么意思?
在 AI 的世界里,理解不是通過“定義”來建立的,而是通過“相對相似度”來形成的。用一句更通俗的話說:
AI 理解“貓”這個概念,并不是因為它知道“貓的本質是什么”,而是因為它知道“貓”與“狗”“老虎”等概念之間比較相似, 而與“航空母艦”之類的概念差異極大。
也就是說,模型是通過“和其他概念的距離關系”來理解一個概念的意義。
通過這種方式,模型在內部構建出一個被稱為 “表征空間”(representation space)的結構,更正式的說法叫做“潛在空間”(latent space) 。
比如在潛在空間中,“貓”與“狗”或“老虎”等概念距離非常接近,因此模型會推斷出:“貓”屬于“動物”這一大類。而更進一步,由于“貓”與其他哺乳動物之間的距離也很小,模型進一步判斷出,“貓”不僅是動物,還是屬于“哺乳動物”這一子類。
這個潛在空間本質上是一個高維向量空間,它就是模型的“知識地圖”。在這個空間中:
- 每一個概念都是一個點(向量);
- 點與點之間的距離表示它們的語義差異;
- 一個概念的“意義”,就是它在整個空間中的相對位置。
因此,模型所“知道”的一切,不管是“貓”還是“航母”。都是通過在這個潛在空間中彼此定位、比較和聯系來實現的。
這也正是 AI 推理和生成的基礎。
因此,每當模型接收到新的輸入——無論是文本、圖像,還是二者的結合。它都會將這些信息映射到潛在空間中,并依賴這種空間結構來理解“輸入的內容是什么”以及“下一步應該生成什么”。
然而,盡管這些模型被稱為 “多模態模型”(multimodal) ,它們的核心處理機制仍然嚴重依賴 “文字思維”(text thinking) 來生成響應。那么,什么是“文字思維”?我們為什么說它是個問題?我們接著往下看。
從“純文本”到真正的多模態智能
假設你現在看到下圖中的問題,你會如何解答這些題目?(規劃一個路線,讓小人拿到獎勵,并且不掉進洞里):你會在腦中想象路徑的走向。你甚至可以腦補出手指在圖上移動的樣子,或是路徑被高亮的樣子。
AI 是怎么解決同樣問題的?
AI不會“想象”那條路徑長什么樣,也不會在腦中模擬走法。它會把圖像轉化成一堆“結構化信息”或者“文字描述”,比如說:“圖上有一個起點 A,終點 B,錯誤點位于一行三列,路徑方向是...”(像DeepSeek的思考過程)然后用一堆“邏輯推理 + 語言模型”來生成答案。
造成這一現象的技術原因主要有兩個:
首先,如前所述,AI 模型在“思考”時必須生成內容——說出文字、繪制圖像,或者兩者都有。它們并不存在某種“中間狀態”,可以讓模型在不輸出任何東西的前提下,隨意“思考”。對它AI來說,生成本身就是思考的必要步驟,只有通過生成,問題才能被解決。
其次,使用圖像進行思考,或者說生成圖像以輔助推理,對于用戶而言是一種非常糟糕的體驗(主要因為速度極慢)。因此,當前最前沿的模型在大多數情況下選擇回避圖像生成,而改用文本來處理問題。也就是說,即使任務本身明確需要視覺思維,模型最終還是會主要依賴文本,甚至是代碼來尋找解法。
那么,我們要如何才能賦予 AI “心理圖像”這樣的能力呢? 這正是當前研究的關鍵所在。
現有核心思路是:訓練模型識別出何時需要進行視覺化思考,并在那一刻生成一個特殊的標記 token,將模型引導進入“空間思維”模式。此時,模型將在潛在空間中進行視覺推理,而不是切換回文字空間。等到視覺思維階段結束后,模型再重新回到文本生成的軌道,繼續輸出結果。這聽起來有些玄幻,但現在很多研究團隊都在這方面努力。
麻省理工學院和阿默斯特學院的研究人員最近發表了一篇全新的論文。他們提出了一種名為 Mirage
的AI模型,它是首個真正具備“視覺思維”能力的模型。這意味著它能夠像人類一樣,在大腦中構建“心理圖像”。
讓模型在輸出答案之前先進行內部思考,是當前研究領域的一個熱門方向。 這樣做的好處在于:它可以減少生成的 token 數量(降低成本),并且這種“先思考、后表達”的過程也更貼近人類的行為方式。
但問題在于:它的這種內部思考依然是以文字為主的。換句話說,模型雖然沒“開口說話”,但它的思維過程依然建立在語言上,而非真正的心理圖像。
為了解決這個問題,Mirage
的研究人員設計了一套獨特的“視覺數據集”:其中包含由人工標注的輔助圖像,作為模型解題的參考。 簡單來說,這種訓練方式強迫模型利用圖像中的視覺線索來推理并給出答案,而不是僅依賴文字或代碼推導過程。
論文地址:https://arxiv.org/abs/2506.17218
此外,為了證明模型確實在學習并利用視覺線索,研究團隊還進行了主成分分析(PCA, Principal Component Analysis)。 結果顯示,當模型處理視覺場景時所生成的新的潛在思維(latent thoughts)的分布與圖像處理階段學到的圖像潛在分布非常接近,并且在潛在空間中呈現出高度聚集、緊密分布的特征。
相比之下,傳統的文本潛在表示則通常在模型主導的文本空間中均勻分散分布。這一差異說明:模型在進行“視覺思考”時,確實進入了一種更接近圖像表征的內在思維狀態,而不再只是“用語言假裝理解圖像”。正如預期的那樣,Mirage
在各類空間推理與規劃基準測試中都表現出顯著提升。這表明,這種方法不僅在理論上講得通,在實際效果上也確實奏效。