成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

13.11 和 13.8 到底哪個大?超過一半 AI 大模型回答錯誤,強如 GPT-4O 也翻車了

發布于 2024-7-19 11:58
瀏覽
0收藏

這個話題主要是由《歌手2024》欄目引發的,孫楠與外國歌手的微小分數差異,引發了網友關于 13.8% 和 13.11% 誰大誰小的爭論。

13.11 和 13.8 到底哪個大?超過一半 AI 大模型回答錯誤,強如 GPT-4O 也翻車了-AI.x社區

很多網友給出了自己認為 13.11 > 13.8 理由,看似合理,實則漏洞百出。

13.11 和 13.8 到底哪個大?超過一半 AI 大模型回答錯誤,強如 GPT-4O 也翻車了-AI.x社區

這個小學四年級的知識點,一下子就成為了全民熱議的話題。很多網友還舉例 AI 給出的結果也是 13.11 大,一下子激起我的興趣,這么簡單的問題,AI 竟然回答錯誤了。

國內模型測試

Kimichat:

13.11 和 13.8 到底哪個大?超過一半 AI 大模型回答錯誤,強如 GPT-4O 也翻車了-AI.x社區

通義千問:

13.11 和 13.8 到底哪個大?超過一半 AI 大模型回答錯誤,強如 GPT-4O 也翻車了-AI.x社區

騰訊元寶:

13.11 和 13.8 到底哪個大?超過一半 AI 大模型回答錯誤,強如 GPT-4O 也翻車了-AI.x社區

文心一言:

13.11 和 13.8 到底哪個大?超過一半 AI 大模型回答錯誤,強如 GPT-4O 也翻車了-AI.x社區

智譜清言:

13.11 和 13.8 到底哪個大?超過一半 AI 大模型回答錯誤,強如 GPT-4O 也翻車了-AI.x社區

訊飛星火:

13.11 和 13.8 到底哪個大?超過一半 AI 大模型回答錯誤,強如 GPT-4O 也翻車了-AI.x社區

商湯商量:

13.11 和 13.8 到底哪個大?超過一半 AI 大模型回答錯誤,強如 GPT-4O 也翻車了-AI.x社區

國外模型測試

GPT-4O:

13.11 和 13.8 到底哪個大?超過一半 AI 大模型回答錯誤,強如 GPT-4O 也翻車了-AI.x社區

Gemini:

13.11 和 13.8 到底哪個大?超過一半 AI 大模型回答錯誤,強如 GPT-4O 也翻車了-AI.x社區

Claude-3.5:

13.11 和 13.8 到底哪個大?超過一半 AI 大模型回答錯誤,強如 GPT-4O 也翻車了-AI.x社區

原因分析

看到測試結果,國內模型 7 個回答錯誤 4 個,國外模型全軍覆沒,這是代表國內模型更強嘛?其實并不然,很多網友早起測試通義千問也是回答 13.11 更大,后續應該是開發團隊針對這個問題優化了。國內很多模型應該都是針對性優化過后,現在才能回答正確。

只是國內的熱議并未傳播到國外,所以國外 AI 模型并未針對這個問題優化過,導致現在強如 GPT-4O 和 Claude-3.5 這兩個地表最強 AI 模型都回答錯誤。

那么 AI 模型為什么會普遍回答錯誤呢?其實從很多模型的回答中也能猜到原因,主要是因為它們對數字的解讀方式與人類不同,以及訓練數據中存在的偏差。

  • 數字解讀方式:大語言模型將數字分解為獨立的 token 進行比較,忽略了小數點后數字的實際意義。
  • 訓練數據偏差:訓練數據中包含了大量軟件版本號的比較,如“9.11”和“9.9”,在這種場景下,“9.11”確實排在“9.9”之后。這一常見于編程領域的規則,被AI模型錯誤地應用到了數學比較中。

大語言模型在數值比較方面的局限性,提醒我們在依賴這些模型進行決策時,需要謹慎并考慮多種可能性。

本文轉載自 ??AI探索者知白??,作者: 知白

已于2024-7-19 15:50:58修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产精品久久久久久久久久免费看 | 欧美一区二区三区在线视频 | 国产精品毛片无码 | 亚洲第一视频 | 国产特一级黄色片 | 天天色av| 91精品久久久久 | 日韩国产在线 | 91精品国产一区二区三区蜜臀 | 在线a视频网站 | 成人免费黄视频 | 日韩电影免费在线观看中文字幕 | 精品国产乱码久久久久久图片 | 少妇特黄a一区二区三区88av | 91在线观 | 午夜小电影 | 亚洲人在线观看视频 | 国产成人精品999在线观看 | 亚洲人va欧美va人人爽 | 国产美女视频黄 | 日韩中文字幕 | 在线一级片 | 污视频在线免费观看 | 99热热精品| 久久久久久一区 | 一区二区三区 在线 | 韩国电影久久 | 米奇7777狠狠狠狠视频 | av在线电影网站 | 亚洲精品视频导航 | 亚洲精品一区二区三区 | 久久精品网| 欧美a在线 | 国产精品观看 | 亚洲一区免费视频 | 久久综合伊人 | 91免费看片 | 午夜精品一区二区三区在线视频 | 国产精品一区二区三区在线 | 欧美精品综合在线 | 一区二区精品 |