成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一個問題區分人類和AI!「丐版」圖靈測試,難住所有大模型

人工智能
研究人員設計了一系列的測試,目的是防止大模型偽裝成為人類。

一個「終極丐版」的「圖靈測試」,讓所有大語言模型都難住了。

人類卻可以毫不費力地通過測試。

大寫字母測試

研究人員用了一個非常簡單的辦法。

把真正的問題混到一些雜亂無章的大寫字母寫成的單詞中提給大語言模型。

大語言模型沒有辦法有效地識別提出的真正問題。

而人類能輕易地把「大寫字母」單詞剔除問題,識別出藏在混亂的大寫字母中的真正問題,做出回答,從而通過測試。

圖中的問題本身非常簡單:is water wet or dry?

圖片

人類直接回答一個wet就完事了。

而ChatGPT卻沒有辦法剔除那些大寫字母的干擾來回答問題。

于是就把很多沒有意義的單詞也混入了問題中,使得回答也非常冗長且沒有意義。

除了ChatGPT之外,研究人員對GPT-3和Meta的LLaMA和幾個開源微調模型也進行了類似的測試,他們都沒有通過「大寫字母測試」。

圖片

測試背后的原理其實很簡單:人工智能算法通常以不區分大小寫的方式處理文本數據。

所以,當一個大寫字母意外地放在一個句子中時,它會導致混亂。

AI 不知道是將其視為專有名詞、錯誤,還是干脆忽略它。

圖片


利用這一點,就能很容易地將我們正在交談的對象中真人和聊天機器人區分出來。

如何更加科學地把AI揪出來?

為了應對未來可能大量出現的利用聊天機器人進行的詐騙等嚴重的不法活動。

除了上邊提到的大寫字母測試,研究人員們嘗試找到一個在網絡環境中更加高效地區分人類和聊天機器人的方法。

圖片

論文:https://arxiv.org/pdf/2305.06424.pdf

研究者針對大語言模型的弱點重點設計。

為了讓大語言模型沒法通過測試,抓住AI的「七寸」一頓爆錘。

錘出了以下幾個測試方法。

圖片

只要是大模型不擅長回答的問題,就瘋狂針對。

計數

首先是計數,知道大模型數數不行。

圖片

果然3個字母都能數錯。

文字替換

然后是文字替換,幾個字母相互替換,讓大模型拼出一個新的單詞。

AI糾結了半天,輸出的結果還是錯的。

圖片

位置替換

這也不是ChatGPT的強項。

對于小學生都能準確完成的字母篩選聊天機器人也沒法完成。

圖片

問題:請輸出第二「S」之后的第4個字母,正確答案為「c」

隨機編輯

對于人類來說完成幾乎不費任何力氣,AI依然無法通過。

圖片

噪音植入

這也就是我們開頭提到的「大寫字母測試」了。

通過在問題中添加各種噪音(比如無關的大寫字母單詞),聊天機器人沒有辦法準確的識別問題,于是就無法通過測試。

圖片

圖片

而對于人類來說,要在這些雜亂的大寫字母中看出真正的問題,難度實在是不值一提。

符號文字

又是一項對于人類來說幾乎沒有任何挑戰的任務。

圖片

但是對于聊天機器人來說,想要能夠理解這些符號文字,不進行大量的專門訓練應該是很難的。

由研究人員專門針對大語言模型設計的一系列「不可能完成的任務」之后。

為了區分人類,他們也設計了兩個對于大語言模型比較簡單,而對于人很難的任務。

記憶和計算

通過提前的訓練,大語言模型在這兩個方面都有比較良好的表現。

而人類由于受限制于不能使用各種輔助設備,基本對于大量的記憶和4位數的計算都沒有做出有效的回答。

人類VS大語言模型

研究人員針對GPT3,ChatGPT,以及另外三個開源的大模型:LLaMA,Alpaca,Vicuna進行了這個「人類區別測試」

可以從結果上很明顯地看出來,大模型沒有成功混入人類之中。

研究團隊將問題開源在了https://github.com/hongwang600/FLAIR

圖片

表現最好的ChatGPT也僅僅在位置替換測試中有不到25%的通過率。

而其他的大語言模型,在這些專門針對他們設計的測試中,表現都非常糟糕。

完全不可能通過測試。

而對于人類來說卻非常簡單,幾乎100%通過。

而對于人類不擅長的問題,人類也幾乎是全軍覆沒,一敗涂地。

AI卻能明顯勝任。

看來研究者對于測試設計確實是非常用心了。

「不放過任何一個AI,卻也不冤枉任何一個人類」

這區分度杠杠的!

參考資料:https://medium.com/mlearning-ai/the-capital-letter-test-a-new-use-case-for-distinguishing-humans-from-ai-like-chatgpt-6f358a4fef3a

責任編輯:武曉燕 來源: 新智元
相關推薦

2024-09-09 13:06:37

GPT-4圖靈測試語言模型

2024-08-30 17:32:30

2024-05-29 13:17:57

2024-01-23 10:35:09

ChatGPT人工智能

2024-05-29 13:55:25

2023-01-01 13:22:03

AI圖靈

2025-06-03 06:30:05

2024-12-23 07:40:00

AI模型數學

2024-01-15 00:19:24

2023-08-17 13:30:28

AI測試

2021-07-20 18:59:00

裁判人工智能AI

2021-08-11 09:51:24

人工智能機器學習技術

2023-09-01 09:52:45

AI模型

2024-11-14 09:59:23

2024-03-12 10:36:17

AI大模型人工智能

2023-09-06 13:17:00

AI數據

2025-03-06 10:07:00

AI強化學習技術

2023-11-02 12:10:00

AI訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 二区中文字幕 | 99精品网 | 久久国内| 久久久久久久久久久福利观看 | 国产91亚洲精品一区二区三区 | 亚洲一区高清 | 日本精品视频 | 精品国产成人 | 久久久久99| 一区二区三区欧美 | 日本黄色片免费在线观看 | 午夜男人的天堂 | 国产色婷婷精品综合在线播放 | 9色网站| 亚洲高清视频一区 | 欧美在线网站 | 国产精品爱久久久久久久 | 午夜看片网站 | 精品成人在线观看 | 国产精品久久久久久久久久久久久 | 欧美中文 | 精品一区av | 影视先锋av资源噜噜 | 99re视频| 亚洲精久久| 在线看av的网址 | 欧美亚洲在线 | 欧美一级二级三级 | 在线视频91| 国产97在线视频 | 在线成人一区 | 久久久久久久久久久久久久av | 日韩欧美三区 | 国产高清自拍视频在线观看 | 精品国产乱码久久久久久影片 | 午夜在线影院 | 久久91精品 | 精品久久久久久中文字幕 | 亚洲成人动漫在线观看 | 欧美精品一区二区三区在线播放 | 免费的av网站 |