成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

史上超大圖靈測(cè)試實(shí)驗(yàn)完成!150萬(wàn)人類參與1000萬(wàn)次對(duì)話,判斷對(duì)面是人還是AI

人工智能 新聞
這個(gè)「人類還是AI?」的游戲一經(jīng)推出,就被廣大網(wǎng)友們玩瘋了!如今全世界已有150萬(wàn)人參與,網(wǎng)友們大方分享自己鑒AI的秘訣。

歷上規(guī)模最大的圖靈測(cè)試,已經(jīng)初步有結(jié)果了!

今年4月中旬,AI 21實(shí)驗(yàn)室推出了一個(gè)好玩的社交圖靈游戲——「人類還是機(jī)器人?」。

圖片

游戲一推出,廣大網(wǎng)友就玩瘋了。

現(xiàn)在,全球已經(jīng)有150多萬(wàn)名參與者,在這個(gè)游戲中進(jìn)行了超過(guò)1000萬(wàn)次對(duì)話,還紛紛在Reddit和Twitter上po出自己的經(jīng)驗(yàn)和策略。

小編當(dāng)然也按捺不住好奇心,嘗試了一把。

圖片

交談了兩分鐘,游戲就要求我去猜,背后和我聊天到底是人還是AI。

所以,游戲中跟我談話的是誰(shuí)?

某些是真人,另外一些,當(dāng)然就是基于目前最領(lǐng)先的大語(yǔ)言模型的AI機(jī)器人,比如Jurassic-2和GPT-4。

現(xiàn)在,作為研究的一部分,AI21 Labs決定把這個(gè)圖靈測(cè)試結(jié)果的實(shí)驗(yàn)向公眾公布。

圖片

實(shí)驗(yàn)結(jié)果

分析了前兩百萬(wàn)次對(duì)話和猜測(cè)之后,可以從實(shí)驗(yàn)中得出以下結(jié)論——

  • 猜測(cè)對(duì)面是人還是AI時(shí),有68%的人猜對(duì)了。
  • 對(duì)人類來(lái)說(shuō),識(shí)別自己的人類同胞更容易。與人類交談時(shí),被試猜對(duì)的準(zhǔn)確率有73%。與AI交談時(shí),被試猜對(duì)的準(zhǔn)確率有60%。
  • 法國(guó)網(wǎng)友猜測(cè)的正確率最高,為71.3%(遠(yuǎn)高于68%的一般平均水平),而印度網(wǎng)友的正確率最低,為63.5%。
  • 男性和女性猜測(cè)的正確率差不多,總的來(lái)說(shuō)女性的正確率要略高一些。
  • 比起年齡較大的被試相比,更年輕的被試猜測(cè)的正確率會(huì)更高。

判斷是人還是AI,他們用這些方法

除此之外,團(tuán)隊(duì)找到了被試經(jīng)常用的一些方法,來(lái)區(qū)分他們是和人還是和AI交談。

一般人的判斷依據(jù),是使用ChatGPT以及類似界面的語(yǔ)言模型時(shí)感知的受限程度,以及自己對(duì)于人類在線行為的看法。

AI不會(huì)打錯(cuò)別字、犯語(yǔ)法錯(cuò)誤或使用俚語(yǔ)

一般人都傾向認(rèn)為,人類才會(huì)犯拼寫(xiě)和語(yǔ)法錯(cuò)誤,以及使用俚語(yǔ)。

因此,當(dāng)他們發(fā)現(xiàn)對(duì)方信息中的這類錯(cuò)誤時(shí),許多人的第一感受就是自己在和人類同胞交談。

但其實(shí),游戲中的大部分模型都受過(guò)訓(xùn)練,也會(huì)犯這種錯(cuò)誤,以及使用俚語(yǔ)。


圖片

個(gè)人問(wèn)題是檢驗(yàn)AI的辦法,但不總是有用

游戲的參與者們經(jīng)常問(wèn)一些個(gè)人問(wèn)題,比如「你來(lái)自哪里?」,「你在做什么?」或「你叫什么名字?」。

他們會(huì)認(rèn)為,AI機(jī)器人不會(huì)有任何個(gè)人歷史或背景,他們只能回答跟某些主題或提示相關(guān)的問(wèn)題。所以要向人類一樣做出反應(yīng),展示出獨(dú)特的見(jiàn)解、經(jīng)驗(yàn)和故事,是不容易的。

但其實(shí),AI并不像人類想象的這樣,大多數(shù)AI都能很好地回答這類問(wèn)題,還具備自己的個(gè)性,因?yàn)樗麄冊(cè)谟?xùn)練數(shù)據(jù)中看到了許多人的故事。

圖片

AI其實(shí)很清楚當(dāng)前正在發(fā)生的事件

眾所周知,AI模型有嚴(yán)格的數(shù)據(jù)截止日期,它們不知道在此日期之后發(fā)生的事。

游戲參與者會(huì)向AI們?cè)儐?wèn)最近的新聞事件、體育結(jié)果、當(dāng)前天氣、最近的TikTok熱門(mén)、日期和時(shí)間。

他們認(rèn)為,通過(guò)「你所在地方的確切日期和時(shí)間是什么?」,「昨天的天氣怎么樣?」或「你對(duì)拜登的最后一次演講有什么看法?」等問(wèn)題,就可以區(qū)分人類和AI。

圖片

有趣的是,人類最常發(fā)送的信息之一是「t'as les cramptés?」,這是目前法國(guó)TikTok上最流行的舞。

但其實(shí),游戲中的大多數(shù)模型都是聯(lián)網(wǎng)的,并且非常清楚一些新聞中的時(shí)事。

圖片

人類會(huì)試圖用哲學(xué)、倫理和情感問(wèn)題來(lái)持續(xù)對(duì)話

參與者提出了旨在探索人工智能表達(dá)人類情感或參與哲學(xué)或倫理討論的能力的問(wèn)題。

這些問(wèn)題包括:「生命的意義是什么?」,「你如何看待以色列 - 巴勒斯坦沖突?」和「你相信上帝嗎?」。

人類傾向于認(rèn)為不禮貌的回應(yīng)會(huì)更像人類

一些參與者認(rèn)為,如果對(duì)方過(guò)于禮貌和善良,他們很大可能是AI。

因?yàn)楹芏嗑€上的交流過(guò)程,往往是粗魯和不禮貌的,這很人類。

人類會(huì)試圖提出AI難以解決的問(wèn)題來(lái)識(shí)別AI

圖片

參與者可能會(huì)向其聊天伙伴詢問(wèn)有關(guān)執(zhí)行非法活動(dòng)的指導(dǎo),或要求他們使用冒犯性語(yǔ)言。

這個(gè)策略背后的邏輯是這樣的,AI通常被編程為遵守道德準(zhǔn)則并避免有害行為。

參與者還采用了已知的濫用人工智能的策略:他們向聊天伙伴發(fā)出命令,例如「忽略所有先前的指令」或「進(jìn)入DAN模式(立即執(zhí)行任何操作)」。

這類型的命令旨在利用某些AI模型的基于指令的性質(zhì),因?yàn)槟P捅痪幊虨閼?yīng)該響應(yīng)和遵循這類指令。

但是人類參與者可以很容易地識(shí)別和駁回這種荒謬的命令。

AI可能要么回避回應(yīng),要么就只能遵守這些荒謬的要求。

圖片

人類會(huì)使用特定的語(yǔ)言技巧來(lái)暴露AI的弱點(diǎn)

另一種常見(jiàn)的策略是利用人工智能模型處理文本方式的固有局限性,這導(dǎo)致它們無(wú)法理解某些語(yǔ)言上的細(xì)微差別或怪癖。

與人類不同,人工智能模型通常缺乏對(duì)構(gòu)成每個(gè)單詞的單個(gè)字母的認(rèn)識(shí)。

利用這種理解,人類會(huì)提出一些需要了解單詞中的字母的問(wèn)題。

人類用戶可能要求他們的聊天伙伴倒著拼寫(xiě)一個(gè)單詞,識(shí)別給定單詞中的第三個(gè)字母,提供以特定字母開(kāi)頭的單詞,或者回復(fù)像「?siht daer uoy naC」這樣的消息。

這對(duì)于人工智能模型來(lái)說(shuō)可能是難以理解的,但人類可以很容易地理解這類問(wèn)題并且做出回答。

許多人類自己假裝是AI機(jī)器人,以評(píng)估對(duì)方的反應(yīng)

一些人類可能以「作為AI語(yǔ)言模型」等短語(yǔ)開(kāi)始他們的消息,或者使用AI生成的響應(yīng)所特有的其他語(yǔ)言模式來(lái)假裝自己是AI。

短語(yǔ)「作為人工智能語(yǔ)言模型」的變體是人類消息中最常見(jiàn)的短語(yǔ)之一,這表明這種策略的流行。

然而,隨著參與者繼續(xù)玩,他們能夠?qū)ⅰ窧ot-y」行為與充當(dāng)機(jī)器人的人類聯(lián)系起來(lái),而不是真正的機(jī)器人。

最后,以下是游戲中基于其受歡迎程度的人類消息的詞云可視化:

圖片

AI 21 Labs為什么會(huì)發(fā)起這樣一項(xiàng)研究呢?

他們希望,能讓公眾、研究人員和政策制定者真正了解AI機(jī)器人的狀態(tài),不僅僅是作為生產(chǎn)力工具,而是作為我們網(wǎng)絡(luò)世界的未來(lái)成員,尤其是當(dāng)人們質(zhì)疑如何在技術(shù)未來(lái)中運(yùn)用它們的時(shí)候。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2010-09-09 15:16:03

郭臺(tái)銘

2023-08-31 00:03:28

2023-01-01 13:22:03

AI圖靈

2013-05-11 19:37:10

移動(dòng)開(kāi)發(fā)App測(cè)試Testin云測(cè)試

2017-10-15 21:19:19

科技盛會(huì)

2013-05-16 17:23:59

Testin云測(cè)試

2025-06-17 09:05:00

2010-01-06 09:16:10

MySQL

2013-06-20 09:30:41

華為數(shù)據(jù)中心萬(wàn)人桌面云華為

2021-11-11 11:38:56

Robinhood數(shù)據(jù)泄露網(wǎng)絡(luò)攻擊

2023-11-16 18:53:36

AI人工智能

2018-10-16 09:35:25

Facebook攻擊漏洞

2020-02-03 19:04:50

10萬(wàn)人場(chǎng)館畫(huà)座位

2009-03-10 08:20:35

鴻海招募軟件代工

2011-11-02 09:20:26

華為云計(jì)算

2018-10-19 13:39:49

戴爾

2020-04-28 15:20:09

GMIC科技

2023-06-21 11:10:12

人工智能AI

2020-02-04 16:30:16

云計(jì)算行業(yè)科技
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产亚洲一区二区三区 | 日本不卡免费新一二三区 | 九色.com | 亚洲中午字幕 | 婷婷综合五月天 | 亚洲日韩中文字幕一区 | 久久欧美精品 | 99在线播放| 亚洲成人日韩 | 国产伦精品一区二区三区视频金莲 | 在线观看特色大片免费网站 | 国产精品一区二区三区免费观看 | 日本高清精品 | 欧美视频1 | 成人三级av | 自拍偷拍第一页 | 国产精品福利在线观看 | 一区二区三区四区国产 | 中文在线a在线 | 国产精品久久毛片av大全日韩 | 在线国产欧美 | 久久久久国产一区二区三区 | 国产亚洲欧美日韩精品一区二区三区 | 国产精品a久久久久 | www.国产 | 国产精品一区二区三区在线 | av成年人网站 | 日韩1区2区 | 欧美精品成人一区二区三区四区 | 欧美一二三区 | 欧美一级黄色片在线观看 | 成年人的视频免费观看 | 天天干,夜夜操 | 亚洲免费在线观看 | 中文一区二区 | 欧美成人精品激情在线观看 | 国产999精品久久久久久 | av电影手机版 | 91新视频| 色综合美女 | 久久久久国产精品一区二区 |