不是視頻模型“學(xué)習(xí)”慢,而是LLM走捷徑|18萬引大牛Sergey Levine
這是UC伯克利大學(xué)計(jì)算機(jī)副教授Sergey Levine最新提出的靈魂一問。
他同時(shí)是Google Brain的研究員,參與了Google知名機(jī)器人大模型PALM-E、RT1和RT2等項(xiàng)目。
Sergey Levine在谷歌學(xué)術(shù)的被引用次數(shù)高達(dá)18萬次。
“柏拉圖洞穴”是一個(gè)很古老的哲學(xué)比喻,通常被用來說明人們對(duì)世界認(rèn)知的局限性。
Sergey Levine的這篇文章以《柏拉圖洞穴中的語言模型》為題,又想要揭示AI的哪些缺陷呢?
在文章的開頭,作者提到人工智能就是在研究能夠反映人類智能的靈活性和適應(yīng)性的假想智能。
一些研究者推測(cè),人類心智的復(fù)雜性和靈活性源自于大腦中應(yīng)用的一個(gè)單一算法,通過這個(gè)算法可以實(shí)現(xiàn)所有多樣化的能力。
也就是說,AI如果能復(fù)現(xiàn)這個(gè)終極算法,人工智能就能通過經(jīng)驗(yàn)自主獲取多元能力,達(dá)到人類智能的高度。
在這個(gè)探索過程中,語言模型取得了非常成功的突破。
甚至,LLMs實(shí)現(xiàn)能力躍升背后的算法(下一詞預(yù)測(cè)+強(qiáng)化學(xué)習(xí)微調(diào)),也非常簡(jiǎn)單。
單一終極算法假設(shè)似乎就是AI模型的答案……
然而,這個(gè)假設(shè)對(duì)視頻模型并不適用。
語言模型與視頻模型的對(duì)比
早在基于Transformer的語言模型出現(xiàn)之前,AI研究人員就已經(jīng)忙著研究一個(gè)看似非常相似的問題:
就像LLM通過預(yù)測(cè)來自網(wǎng)絡(luò)文本數(shù)據(jù)的下一個(gè)詞來學(xué)習(xí)一樣,視頻模型也可能通過預(yù)測(cè)視頻數(shù)據(jù)的下一個(gè)幀來學(xué)習(xí)。
甚至從數(shù)據(jù)上來說,視頻數(shù)據(jù)比文本數(shù)據(jù)包含的信息更豐富,那么預(yù)測(cè)下一幀得到的認(rèn)知會(huì)遠(yuǎn)比預(yù)測(cè)下一詞得到的認(rèn)知更全面。
比如,一個(gè)飛往宇宙探索的機(jī)器人,在那里沒有人能提供文本,但是它仍然能獲取豐富的視頻數(shù)據(jù)。
基于這些證據(jù),我們可以認(rèn)為能夠“觀察”到更多物理世界的視頻模型應(yīng)該比語言模型更加強(qiáng)大。
然而,事情并沒有按研究人員所期望的那樣發(fā)展。
盡管視頻預(yù)測(cè)模型可以生成逼真的視頻,但在解決復(fù)雜問題、進(jìn)行復(fù)雜推理方面,語言模型仍然是主要且唯一的選擇。
這與LLMs對(duì)物理世界的“觀察”更少,卻獲得了更復(fù)雜的認(rèn)知能力形成了鮮明對(duì)比。
就像文章中舉出的例子:我們并不能用Veo 3估算夏威夷群島的巖石體積是否比珠穆朗瑪峰更大,但ChatGPT卻可以回答這個(gè)問題。
這是因?yàn)長LMs只需要調(diào)用人類總結(jié)的地理知識(shí)(文本中已有相關(guān)數(shù)據(jù)或推理路徑)。
簡(jiǎn)單來說,視頻數(shù)據(jù)是物理世界的直接映射,而非人類認(rèn)知的加工產(chǎn)物。
視頻模型需自主歸納物理規(guī)律,而LLMs卻可以 “抄近路” 模仿人類已有的推理結(jié)果。
LLMs 僅接觸文本 “影子”(人類認(rèn)知的投影),卻比直接觀察物理世界的視頻模型更具推理能力。
作者認(rèn)為,這是LLMs只會(huì)對(duì)人類進(jìn)行“腦部掃描”,而非真正學(xué)會(huì)了像人類一樣推理問題。
就像是AI系統(tǒng)存在于「柏拉圖洞穴」中。
AI系統(tǒng)的“柏拉圖洞穴”
“柏拉圖洞穴”原本的故事是指一群人被綁在洞穴里,只能看到墻壁上的影子,不能看到洞穴外的陽光。
這個(gè)故事通常被用來說明人們對(duì)世界認(rèn)知的局限性。
在文章中,作者將互聯(lián)網(wǎng)比作洞穴,將真實(shí)世界比做洞穴外的陽光,用“柏拉圖洞穴”來類比AI的現(xiàn)狀。
AI通過語言模型學(xué)習(xí)人類的知識(shí)和思維方式,但這些知識(shí)就像洞穴墻壁上的影子,是人類智慧的間接反映。
它們并沒有真正理解世界,其能力是對(duì)人類認(rèn)知的 “逆向工程”,而不是自主探索。
而視頻模型目前連影子都無法認(rèn)知……
AI該如何走出洞穴?
作者認(rèn)為既然LLMs已經(jīng)了實(shí)現(xiàn)人類認(rèn)知的部分模擬(如推理、生成),那么就可以將它可 “心智原型”,為通用AI提供起點(diǎn)。
而長期目標(biāo)則是突破“影子依賴”,不再依賴人類中介(類似文本數(shù)據(jù)),讓AI通過傳感器直接與物理世界交互,自主探索。
對(duì)此,有評(píng)論者提出:視覺、語言、行動(dòng)系統(tǒng)就像獨(dú)立的洞穴,如果能夠通過共享結(jié)構(gòu)建立橋梁,可能就不需要逃離“洞穴”,跨模態(tài)連接就成了探索過程中的挑戰(zhàn),需要找到一個(gè)連接這些模態(tài)的統(tǒng)一的方法。
對(duì)于AI的“洞穴困境”,你有怎樣的看法呢?