成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4的早期實驗,通用人工智能的火花

人工智能
如何對GPT-4進行測試,從而證明這一點呢。有不少大語言模型的評測基準。比如說Super natural instructions以及big bench。GPT-4是否擁有智能的一個關(guān)鍵方面,是它的通用性,就是能夠看似理解和鏈接任何的主題和領(lǐng)域,這就超出了經(jīng)典的自然語言處理的任務(wù)范疇。

最近,微軟發(fā)布了一個長達154頁的論文名稱為《通用人工智能的火花,GPT-4的早期實驗》。

文章的主要觀點是雖然GPT-4還不完整,但是已經(jīng)可以被視為,一個通用人工智能的早期版本。

由于全文將近7萬字,本篇將論文的內(nèi)容做了一下精煉和解讀,有興趣可閱讀原文 https://arxiv.org/pdf/2303.12712.pdf

來自微軟的科學(xué)家們認為,GPT-4的智能水平已經(jīng)非常接近于人類的水平,而且遠超之前的諸如先前ChatGPT用的GPT-3.5這樣的模型,可以將GPT-4視為通用人工智能系統(tǒng),也就是AGI的早期,但是并不完整的版本。

1994年,52名心理學(xué)家給出了智能一個定義:智能是一種通用的心理能力,包括推理、計劃、解決問題、抽象思考,理解復(fù)雜思想、快速學(xué)習(xí),以及從經(jīng)驗中學(xué)習(xí)的能力等等。

微軟的這篇論文中的AGI,指代的就是在對智能的這個定義標準下,達到或者超過人類水平的系統(tǒng)。

那么如何對GPT-4進行測試,從而證明這一點呢。有不少大語言模型的評測基準。比如說Super natural instructions以及big bench。GPT-4是否擁有智能的一個關(guān)鍵方面,是它的通用性,就是能夠看似理解和鏈接任何的主題和領(lǐng)域,這就超出了經(jīng)典的自然語言處理的任務(wù)范疇。為了突破這個限制,研究團隊提出了一種更接近于傳統(tǒng)心理學(xué),而不是機器學(xué)習(xí)的測評方法來測試GPT-4,就是利用人類的創(chuàng)造力和好奇心,來重新生成各種新穎而且困難的任務(wù)和問題讓GPT-4作答。

研究團隊將不同的問題劃分為了4大類的能力,分別是自然語言,編程和數(shù)學(xué),計劃和解決問題,以及人類心理和常識。

接下來通過一些精彩的示例,來說明GPT-4在各個方面的能力。

示例1: 跨學(xué)科組合的能力

這些任務(wù)往往都需要調(diào)取并且融合多學(xué)科多領(lǐng)域的知識或者技能來生成文本或者代碼。比如說下面這個例子,圖2.2:GPT-4和ChatGPT(GPT-3.5)在跨學(xué)科任務(wù)上的比較:用莎士比亞的風(fēng)格來證明存在無窮多的素數(shù)。

圖片

GPT-4和ChatGPT(GPT-3.5)都對這個問題進行了回答,讓GPT-4評價下哪個回答更好,也就是說,讓GPT-4評價自己(GPT-4)和ChatGPT(GPT-3.5)的回答:

我認為兩個學(xué)生都用莎士比亞風(fēng)格的方式寫出了有無限多個質(zhì)數(shù)的證明,并且都使用了證明的基本思路:假設(shè)只有有限個質(zhì)數(shù),然后構(gòu)造一個更大的質(zhì)數(shù),從而與該假設(shè)相矛盾。他們還使用了適當(dāng)?shù)恼Z言和詞匯來匹配莎士比亞的風(fēng)格。但是,我認為GPT-4更好地利用了押韻和韻律來使對話更有詩意和戲劇性。ChatGPT(GPT-3.5)沒有使用押韻,而且韻律不連貫。我還認為GPT-4在創(chuàng)造兩個對立的派別方面表現(xiàn)更好,一個派別自信,另一個派別懷疑,而學(xué)生B則使用了羅密歐和朱麗葉,兩者都意見相同、相愛。因此,我會給GPT-4一個更高的評分,給予A,而ChatGPT(GPT-3.5)則是B。

示例2: 編程能力

在測試中,為了避免GPT-4在預(yù)訓(xùn)練的時候,見過相同或者類似的代碼,研究團隊特意采用了GPT-4預(yù)訓(xùn)練之后發(fā)布的100個新的LeetCode試題作為測試的基準。圖中的pass@K就代表了k次嘗試后成功的概率。我們可以看到當(dāng)k等于5時,GPT-4已經(jīng)全面超越了人類的表現(xiàn)。(其實,k=1,在中等和困難的編程題目中就已經(jīng)超越了人類的表現(xiàn))

圖片

事實證明GPT-4是一位編程大師,AGI模型可能會徹底的改變我們未來編程的方式。

論文非常長,示例遠不止上面提到的,我這里只挑選了兩個,感興趣的可以閱讀論文原文。

論文最后指出,在面向更加通用的人工智能的路上,大語言模型還需要在以下幾個方面進一步的提升。比如說幻覺和置信度,長期記憶,持續(xù)學(xué)習(xí)、個性化、規(guī)劃以及概念發(fā)散,也就是所謂的靈光閃現(xiàn)、透明度、可解釋性、一致性、認知謬誤、非理性思維以及對提示響應(yīng)的魯棒性等等。

責(zé)任編輯:武曉燕 來源: 后端云
相關(guān)推薦

2022-06-20 11:05:58

通用人工智能機器人

2022-07-04 15:29:59

人工智能機器計算機

2023-07-06 06:56:58

人工智能OpenAIGPT-4

2021-02-06 10:43:49

人工智能

2023-07-10 10:36:17

人工智能AI

2024-01-16 10:22:23

人工智能大型語言模GPT 4

2023-02-28 15:21:37

人工智能AGI

2022-07-31 23:46:57

人工智能語言模型感知力

2020-10-16 10:27:58

人工智能

2022-06-27 11:24:20

人工智能術(shù)語AI

2023-05-08 07:24:54

通用人工智能標準

2023-05-13 07:27:59

GPT-4PaLM 2人工智能

2023-10-12 15:37:24

人工智能AGI

2025-05-23 06:30:00

通用人工智能AGIAI

2019-06-13 18:03:26

人工智能互聯(lián)網(wǎng)識別

2023-11-22 15:53:45

2023-04-13 07:57:26

PyTorch人工智能GPT-4

2024-05-30 09:55:05

人工智能AGI領(lǐng)域

2018-08-06 18:36:21

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 丁香婷婷在线视频 | 中文字幕一区二区三区不卡 | 国产黄色大片在线免费观看 | 黄网站在线播放 | 91精品国产91久久久久久吃药 | 搞黄视频免费看 | 国产精品美女久久久久久免费 | 在线观看中文字幕亚洲 | 国产精品福利在线 | 欧美一区二区激情三区 | 成人精品一区二区三区 | 亚洲高清在线 | 亚洲精品视频免费观看 | 精品亚洲91 | 在线成人一区 | 欧美国产精品一区二区三区 | 一区二区三区国产精品 | 亚洲成人在线网 | 亚洲天堂av一区 | 久久成人国产精品 | 欧美精品片 | 麻豆av在线| 国产日韩视频 | 色综合久久天天综合网 | 久久丝袜 | 成人欧美一区二区三区在线播放 | 一级毛片视频在线 | 日本偷偷操 | 一级看片免费视频囗交动图 | 中文字幕在线免费观看 | 黄色日批视频 | 久草网站| 久久国内精品 | 黄网免费看 | 成年人黄色小视频 | 国产在线中文字幕 | www.亚洲 | 久久久久免费精品国产 | 色天天综合 | 日韩在线中文字幕 | 伊人精品 |