成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型=缸中之腦?通院朱松純團(tuán)隊(duì)剖析AGI關(guān)鍵缺失

人工智能 新聞
“知行合一”:大語(yǔ)言模型距離通用人工智能最欠缺的一步。

近期 ChatGPT/GPT-4 系列產(chǎn)品引發(fā)全球關(guān)注和討論,以其為代表的大模型在語(yǔ)言方面表現(xiàn)出了一定的通用性,使通用人工智能的概念浮出水面,進(jìn)入了大眾視野。

業(yè)界很多人認(rèn)為大模型是通往通用人工智能的必經(jīng)之路,然而大模型真的如業(yè)界所追捧的一樣 “無(wú)所不能” 么?以 GPT-4 為代表的大語(yǔ)言模型究竟離通用人工智能還有多遠(yuǎn)?

北京通用人工智能研究院朱松純教授團(tuán)隊(duì)最新發(fā)布了一份針對(duì)大模型的技術(shù)報(bào)告,系統(tǒng)回顧了現(xiàn)有使用標(biāo)準(zhǔn)化測(cè)試和能力基準(zhǔn)對(duì)大型語(yǔ)言模型(LLMs)進(jìn)行的評(píng)估,并指出了當(dāng)前評(píng)估方法中存在的幾個(gè)問(wèn)題,這些問(wèn)題往往會(huì)夸大 LLMs 的能力。報(bào)告進(jìn)一步提出通用人工智能(AGI)應(yīng)具備的四個(gè)特征:能夠執(zhí)行無(wú)限任務(wù),自主生成新任務(wù),由價(jià)值系統(tǒng)驅(qū)動(dòng),以及擁有反映真實(shí)世界的世界模型

研究人員在技術(shù)報(bào)告中指出,“知行合一”(認(rèn)識(shí)和行動(dòng)的內(nèi)在統(tǒng)一)是大模型目前所欠缺的機(jī)制,也是邁向通用人工智能的必經(jīng)之路。研究人員認(rèn)為,概念的學(xué)習(xí)依賴于與真實(shí)世界的交互,且知識(shí)的獲取并不完全依賴于被動(dòng)輸入,在新環(huán)境中獲取知識(shí)的關(guān)鍵途徑更應(yīng)該是主動(dòng)探索和試錯(cuò)而非被動(dòng)接受。

論文鏈接:https://arxiv.org/abs/2307.03762

一、大語(yǔ)言模型無(wú)異于缸中之腦

缸中之腦是由哲學(xué)家 Hilary Putnam 提出的一個(gè)著名思想實(shí)驗(yàn),該實(shí)驗(yàn)假設(shè)人的大腦從身體剝離,放在一個(gè)能夠維持其機(jī)能的營(yíng)養(yǎng)液缸,由一個(gè)超級(jí)計(jì)算機(jī)聯(lián)結(jié)大腦神經(jīng)元制造出各種幻象,讓人覺(jué)得一切正常,就像《黑客帝國(guó)》所演的那樣,那我們?cè)撛趺粗雷约翰皇歉字兄X呢?

圖片

基于語(yǔ)義學(xué)的分析,Putnam 反駁道,當(dāng)缸中大腦里的人聲稱自己是 “缸中之腦” 時(shí),缸和腦的所指已經(jīng)發(fā)生了變化。如何理解這一觀點(diǎn)呢?舉個(gè)簡(jiǎn)單的例子 —— 假設(shè)存在一個(gè)孿生地球,其居民和我們生活方式、語(yǔ)言均相同,但他們的 "水" 分子組成為 XYZ,與我們的 H2O 不同。盡管這兩種 "水" 在外觀、用途和名稱上無(wú)異,且兩地居民對(duì) "水" 的心理感知相同,但指向的實(shí)質(zhì)卻不同,因此其含義也應(yīng)有所區(qū)別。這也啟發(fā)研究者從符號(hào)落地(symbol grounding)的視角看待大模型。論文認(rèn)為,大模型無(wú)異于缸中之腦,因?yàn)榇竽P捅旧聿⒉辉谡鎸?shí)世界中 (living in the world),它無(wú)法像人一樣實(shí)現(xiàn)從” 詞語(yǔ) (word)“到” 世界 (world)“的聯(lián)結(jié)。這一點(diǎn)是由它的內(nèi)在構(gòu)造機(jī)制所決定的 —— 通過(guò)統(tǒng)計(jì)建模在大量文本上進(jìn)行訓(xùn)練,學(xué)習(xí)文本之間的語(yǔ)言學(xué)相關(guān)關(guān)系,從而根據(jù)上個(gè)詞匯預(yù)測(cè)下個(gè)詞匯。

缺乏符號(hào)落地使得大模型很容易陷入繞圈圈的境地。研究者嘗試給 GPT-4 一個(gè)引子,讓它跟自己對(duì)話,然而在有限回合之后,GPT 就開(kāi)始重復(fù)自己說(shuō)的話,無(wú)法跳脫當(dāng)下的語(yǔ)義空間。

圖片

大模型的 “智能” 與其說(shuō)是內(nèi)在的,不如說(shuō)是人類智能的投影。大模型生成的文本并不先天具有意義,其意義來(lái)自于人類用戶對(duì)于文本的闡釋。例如語(yǔ)言學(xué)家喬姆斯基曾經(jīng)嘗試挑戰(zhàn)語(yǔ)言學(xué)界構(gòu)造了一個(gè)符合語(yǔ)法規(guī)范但無(wú)意義的句子 ——“無(wú)色的綠思狂暴地沉睡”(“Colorless green ideas sleep furiously”),然而中國(guó)語(yǔ)言學(xué)之父趙元任在他的名文《從胡說(shuō)中尋找意義》中給予了這個(gè)句子一個(gè)充滿哲思的闡釋。

二、大模型的局限性

大模型訓(xùn)練數(shù)據(jù)集的不透明以及人類評(píng)估時(shí)所采取的指標(biāo)差異可能使得人類高估了大模型的真正表現(xiàn)。一方面,大模型的訓(xùn)練數(shù)據(jù)集通常是規(guī)模巨大且高度易得的互聯(lián)網(wǎng)數(shù)據(jù),這些訓(xùn)練數(shù)據(jù)可能會(huì)包含后續(xù)用于評(píng)估的數(shù)據(jù)集。由于當(dāng)前我們并不知道 GPT-4 等大模型的訓(xùn)練數(shù)據(jù)集構(gòu)成,泛化這一概念變得模糊,即我們無(wú)法判斷大模型是真的學(xué)習(xí)到了核心概念,還是僅僅從它的訓(xùn)練產(chǎn)生的 “隱藏記憶” 中進(jìn)行檢索,這種不透明性阻礙了學(xué)術(shù)界對(duì)其公正和可靠的評(píng)估。另一方面,有研究發(fā)現(xiàn)大模型的涌現(xiàn)能力并非源于模型行為的本質(zhì)變化,而是由于使用的評(píng)估指標(biāo)導(dǎo)致大模型看起來(lái)突然變得很強(qiáng)大。簡(jiǎn)單地說(shuō),在使用非線性度量(如 X 的 n 次方)時(shí),曲線上稀疏的采樣點(diǎn)可能讓人感覺(jué)到存在某種涌現(xiàn)現(xiàn)象,然而如果換成線性度量,這種現(xiàn)象就不存在了。

在回顧了數(shù)十篇大語(yǔ)言模型的評(píng)估研究后,研究人員發(fā)現(xiàn):

1)雖然某些研究聲稱大語(yǔ)言模型能夠在標(biāo)準(zhǔn)化測(cè)試(SAT,LSAT)中取得超越普通人類考生的卓越成績(jī),但一旦引入非英語(yǔ)的其他語(yǔ)言同類型測(cè)試,比如中國(guó)高考、印度升學(xué)考試、越南高考時(shí),GPT 的表現(xiàn)顯著下降,且其在需要應(yīng)用推理的考試(數(shù)學(xué)、物理等)的成績(jī)顯著低于強(qiáng)語(yǔ)言依賴學(xué)科(英文、歷史)的考試。GPT 的表現(xiàn)看上去更像是采取了一種題海戰(zhàn)術(shù),通過(guò)重復(fù)的記憶來(lái)做題,而非習(xí)得了如何進(jìn)行推理。

圖片

2) 大語(yǔ)言模型的數(shù)學(xué)推理能力仍然有待提高。Bubeck 等人(2023)在《Sparks of Artificial General Intelligence》這篇文章中采取了單個(gè)案例展示的方式嘗試說(shuō)明 GPT-4 能夠解決 IMO 級(jí)別的問(wèn)題,但研究者在仔細(xì)檢視了 GPT 所提供的解決方案發(fā)現(xiàn) Bubeck 等人的結(jié)論具有很強(qiáng)的誤導(dǎo)性,因?yàn)闇y(cè)試的題目被極大程度地簡(jiǎn)化了,在讓 GPT-4 解決 IMO 數(shù)學(xué)題原題時(shí), GPT-4 的數(shù)學(xué)邏輯鏈條是完全錯(cuò)誤的。另有研究發(fā)現(xiàn),在 MATH 訓(xùn)練數(shù)據(jù)集上,即使把模型設(shè)置為 MathChat 的模式,其準(zhǔn)確率也只有 40% 左右。

3)大語(yǔ)言模型的推理與其說(shuō)是來(lái)自于理解邏輯關(guān)系,不如說(shuō)是來(lái)自于大量文本的相關(guān)性。朱松純團(tuán)隊(duì)的另一篇研究發(fā)現(xiàn),一旦將自然語(yǔ)言替換為符號(hào),大語(yǔ)言模型在歸納、演繹、溯因任務(wù)上表現(xiàn)驟降,無(wú)論是否使用思維鏈(thought of chain)的策略。

一個(gè)簡(jiǎn)單的例子如下圖所示:圖左用動(dòng)物(熊、狗、牛等)生成了一系列陳述(比如 “熊喜歡狗”、“牛的屬性是圓”、“如果某個(gè)動(dòng)物的屬性是圓,那么他們喜歡松鼠”),而后給 GPT-4 一個(gè)新的陳述(比如 “牛喜歡松鼠”)讓其判斷正確與否,研究者發(fā)現(xiàn)當(dāng)把具有明確語(yǔ)義的詞匯替換成抽象符號(hào)時(shí),(比如用 e4 替代熊,e5 替代狗,e2 替代圓),大語(yǔ)言模型的表現(xiàn)將會(huì)顯著下降。另一個(gè)對(duì)大模型的因果推斷能力的研究揭露了相似的發(fā)現(xiàn) —— 當(dāng)將大模型的語(yǔ)義轉(zhuǎn)化為符號(hào)時(shí),大模型的表現(xiàn)將下降到幾乎同隨機(jī)回答無(wú)異,哪怕在微調(diào)之后,大模型也只能應(yīng)對(duì)之前出現(xiàn)過(guò)的類似的符號(hào)表達(dá),而無(wú)法泛化到新場(chǎng)景中。

圖片圖片

4)大模型做不好抽象推理,當(dāng)面對(duì)那些僅依賴于幾個(gè)小樣本演示從而找到潛在規(guī)律的任務(wù)時(shí),大模型的表現(xiàn)較為一般。如下圖所示,在瑞文測(cè)試數(shù)據(jù)集(RAVEN) 中,測(cè)試者需要根據(jù)已有的 8 個(gè)圖形(形狀、顏色、數(shù)量、大小)尋找暗含的規(guī)律,然后推理出最后一個(gè)圖形。

圖片

另外一個(gè)例子來(lái)自于 Evals-P 數(shù)據(jù)集,如下右圖所示,大模型需要能夠在缺少大量訓(xùn)練樣本的前提下找到出現(xiàn) foo 或者 bar 的規(guī)律,即當(dāng)首字母包含在之后的字符串里時(shí)是 foo,不包含時(shí)為 bar。對(duì)于某些大模型,這些任務(wù)的準(zhǔn)確率接近于 0,而哪怕 GPT-4 的準(zhǔn)確率也只有 30% 左右。

三、關(guān)于通用人工智能的一種觀點(diǎn)

判斷 “某某某 AI” 是不是通用人工智能的一個(gè)前提是得清楚通用人工智能的定義或者基本特征,朱松純團(tuán)隊(duì)嘗試刻畫出了通用人工智能(AGI)的四個(gè)特征:

1.能夠執(zhí)行無(wú)限的任務(wù);

2.能夠自主生成新任務(wù);

3.由價(jià)值系統(tǒng)驅(qū)動(dòng);

4.擁有反映真實(shí)世界的世界模型。

首先,智能體應(yīng)具備在物理和社會(huì)環(huán)境中完成無(wú)窮任務(wù)的能力。如果設(shè)定一個(gè)表示達(dá)到 AGI 的任務(wù)數(shù)量閾值,那么如何確定這個(gè)閾值將始終是一個(gè)值得質(zhì)疑的問(wèn)題。如果智能體在完成 N 個(gè)任務(wù)后沒(méi)有展現(xiàn)出通用智能,我們就沒(méi)有理由相信它在完成第 N+1 個(gè)任務(wù)后會(huì)突然擁有通用智能。雖然一系列具體而具挑戰(zhàn)性的任務(wù)清單對(duì)于評(píng)估智能體的性能有所幫助,類似于教師用學(xué)生的考試分?jǐn)?shù)來(lái)評(píng)估他們的學(xué)習(xí)成績(jī),但僅僅完成具體任務(wù)并不等同于擁有通用智能,這就像不能僅憑學(xué)生的分?jǐn)?shù)判斷他們真正的學(xué)習(xí)能力一樣。此外,無(wú)窮任務(wù)并不意味著智能體需要像超人一樣無(wú)所不能,而是指通用智能體應(yīng)能夠在特定環(huán)境中自主生成新的任務(wù),這與學(xué)生學(xué)會(huì)自我學(xué)習(xí)相仿。

智能體生成新任務(wù)需要兩個(gè)基本機(jī)制。首先,智能體需要一個(gè)驅(qū)動(dòng)任務(wù)生成的引擎。例如,達(dá)爾文的進(jìn)化論揭示出生存和繁衍這兩個(gè)本能,它們被編碼在我們的基因中,而人類的進(jìn)化過(guò)程豐富了價(jià)值系統(tǒng),出現(xiàn)了各種各樣的細(xì)分價(jià)值,如利他主義、誠(chéng)實(shí)和勇氣等,每個(gè)人都受到一個(gè)由其與現(xiàn)實(shí)世界持續(xù)互動(dòng)塑造的復(fù)雜價(jià)值系統(tǒng)的驅(qū)動(dòng)。同樣的,我們可以應(yīng)用這種價(jià)值系統(tǒng)的概念來(lái)構(gòu)建通用智能體,在這種情況下,人類可以通過(guò)調(diào)整智能體的價(jià)值函數(shù)來(lái)影響其行為,而無(wú)需預(yù)先定義詳細(xì)的任務(wù)步驟。其次,智能體需要一個(gè)包含真實(shí)世界中物理法則和社會(huì)規(guī)范的世界模型,來(lái)指導(dǎo)智能體和真實(shí)世界的交互。這就像一個(gè)玩樂(lè)高,世界模型包含了各種積木(物體表征)以及積木之間的連接方式(物理法則和因果鏈等)。然而,價(jià)值函數(shù)在所有可能的選項(xiàng)中選擇了一種藍(lán)圖,比如拼一個(gè)城堡,驅(qū)動(dòng)智能體去執(zhí)行任務(wù),在樂(lè)高城堡搭建的過(guò)程中,智能體需要根據(jù)當(dāng)前的進(jìn)度,選擇合適的積木并將其正確地放置在相應(yīng)的位置(自我生成新任務(wù))。

四、“知行合一”

王陽(yáng)明曾說(shuō),知而不行,只是未知。為了解決符號(hào)落地并且誕生具有上述特征的通用人工智能,僅依賴于知識(shí)是遠(yuǎn)遠(yuǎn)不夠的,整合知識(shí)和行動(dòng)是必須的。此時(shí),智能體不僅能夠通過(guò)主動(dòng)地行動(dòng)來(lái)生成對(duì)于現(xiàn)實(shí)世界物體的更加完整的表征,比如整合了視覺(jué)、觸覺(jué)、聽(tīng)覺(jué)等信號(hào),更重要的是能夠通過(guò)探索環(huán)境生成知識(shí),并進(jìn)一步泛化到新場(chǎng)景中。

其一,人對(duì)于世界的理解是建立在和真實(shí)世界交互中的。符號(hào)(語(yǔ)言、數(shù)學(xué)符號(hào)等)只是概念的指針,只有多模態(tài)的交互信號(hào)才能真正建立概念表征。僅停留在文本空間上的大語(yǔ)言模型雖然能夠生成符號(hào),但無(wú)法實(shí)現(xiàn)理解符號(hào)所指向的概念。如同一個(gè)螞蟻意外的行動(dòng)軌跡構(gòu)成了一個(gè) “○”,但螞蟻本身并不理解圓形意味著什么。

其二,知識(shí)并非是先天存在的,知識(shí)和行動(dòng)之間有著內(nèi)在的聯(lián)系。人類對(duì)世界的深刻理解并非來(lái)自于簡(jiǎn)單地閱讀手冊(cè),而是通過(guò)自己親身探索或者來(lái)自于他人探索的傳遞等反復(fù)的試錯(cuò)積累而來(lái)。在這里,知識(shí)體現(xiàn)了人與世界交互的能力(比如推理,問(wèn)題解決,社會(huì)理解),但如果模型只是被動(dòng)地接受知識(shí)并通過(guò)統(tǒng)計(jì)模型生成內(nèi)容,無(wú)異于一個(gè)壓縮了大量知識(shí)的百科全書,但卻無(wú)法在新環(huán)境中通過(guò)探索世界進(jìn)行新的知識(shí)生產(chǎn)( 包括知識(shí)抽象、知識(shí)積累和知識(shí)遷移等過(guò)程)。

五、總結(jié)

研究團(tuán)隊(duì)提出的大模型技術(shù)報(bào)告為接下來(lái)的人工智能研究提供了一些潛在的研究方向:

  1. 建立透明的評(píng)估機(jī)制和評(píng)估系統(tǒng);
  2. 創(chuàng)造具有豐富可供性(大量交互可能性)的仿真環(huán)境;
  3. 探索一套 “知行合一” 的認(rèn)知架構(gòu),從 “純數(shù)據(jù)驅(qū)動(dòng)” 的范式向 “任務(wù)驅(qū)動(dòng)” 的范式轉(zhuǎn)變


責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-02-27 14:51:03

2025-01-08 14:13:53

2020-09-14 09:48:27

AI 數(shù)據(jù)人工智能

2022-07-25 15:13:54

云計(jì)算關(guān)鍵詞何寶宏

2022-07-15 09:07:19

AI機(jī)器人

2025-01-09 14:34:50

2025-05-13 02:00:22

2016-03-18 15:21:10

2021-07-27 12:46:02

云計(jì)算云遷移

2021-04-26 14:58:20

AI 數(shù)據(jù)人工智能

2021-05-10 10:23:32

云計(jì)算混合云云原生

2023-05-24 20:23:50

云知聲AGI大模型

2025-05-21 13:56:37

模型圖像AI

2024-10-24 09:50:00

AI機(jī)器人

2023-03-13 15:56:00

模型框架
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 中文字幕99 | 在线国产小视频 | 久久夜夜 | 国产成人亚洲精品 | 中文字幕国产日韩 | 久久不射网 | 日韩精品视频一区二区三区 | 日韩精品一区二区三区中文字幕 | 日日夜夜天天 | 久久久久久久久中文字幕 | 亚洲午夜视频 | 免费人成激情视频在线观看冫 | 日本人和亚洲人zjzjhd | 日韩高清一区二区 | 国产情品 | 一区二区三区四区在线 | 手机看片在线播放 | 欧美一区二区三区视频 | 国产一区二区激情视频 | 色男人天堂av | 一级黄色片网站 | 亚洲午夜av久久乱码 | 男女免费网站 | 色资源站 | 一区二区三区四区在线视频 | 欧美一区二区三区视频在线观看 | 国产精品久久久久久影院8一贰佰 | 91免费看片| 中文在线一区二区 | 成人精品国产一区二区4080 | 日韩欧美在线观看视频 | 国产精品不卡 | 国产精品综合一区二区 | 精品1区2区 | 国产高清一区二区 | 精品一区二区三区不卡 | 亚洲免费在线观看av | 日日摸夜夜添夜夜添精品视频 | h视频在线观看免费 | 成年人黄色一级毛片 | 国产精品一区二区久久 |