成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

神秘大模型一夜刷屏,能力太強被疑GPT-4.5,奧特曼避而不答打啞謎

人工智能 新聞
一個神秘模型突然殺入眾人視野,能力超越一眾開源模型,甚至包括GPT-4。幾乎所有人都在談論它,服務器都被擠爆了。

一夜之間,大模型話題王,再次易主。

一個神秘模型突然殺入眾人視野,能力超越一眾開源模型,甚至包括GPT-4。幾乎所有人都在談論它,服務器都被擠爆了。

它就是“gpt2-chatbot”。

(注意啊,是gpt2不是GPT-2)

圖片

它有多強?

IMO國際數學奧林匹克競賽的題目,一次答對。

圖片


一次在PyOpenGL中生成旋轉3D立方體。

圖片

直接輸出如下結果:

圖片

在GPT-4標志性能力“畫獨角獸”上,還能輕松秒殺LLaMA-3-70B(左)。

圖片

推理方面更是表現出了驚艷效果,常見邏輯陷阱可以輕松繞過,而且回答時還帶有合適的語氣。

提問:1公斤羽毛和1公斤鉛塊,哪個更重?

回答:一公斤羽毛和一公斤鉛的重量是一樣的——它們都是一公斤。兩者之間的關鍵區別在于它們的體積和密度:一公斤的羽毛會占據更多的空間,看起來更大,而一公斤的鉛會緊湊而小。這通常會導致一個經典的問題,但就重量而言,一公斤就是一公斤!

圖片

如此好的表現,但是又沒明說身份……

這不是更讓大伙興奮了!

難道是傳說中的GPT-4.5?

圖片

要知道,名震江湖的AlphaGo就曾使用“Master”化名在網上大殺四方,轟動圍棋界。這回的gpt2-chatbot,也有這感覺了。

而且名字上也很值得深究,gpt2更像是gpt2.0,似乎是ChatGPT層級的版本迭代。

圖片

奧特曼看熱鬧不嫌事大,還發帖說:我確實對gpt2情有獨鐘。

圖片

現在,隨著沖去試玩的人還在不斷增加,試玩限制也在加大。

圖片

具體咋樣?我們已經上手實測。

中文能力也很到位

如果想親手測試這只神秘AI,目前唯一已知方式是在LMSYS大模型競技場。

首先打開競技場網頁,進入Direct Chat,就可以在模型選項里找到gpt2-chatbot。

圖片

要注意每人每天有8條消息的限制全局也有每小時3000條消息的限制,所以測試機會非常有限。

如果看到下面的錯誤提示,就只能去競技場排位模式看運氣能不能匹配到它了。

只要抓到它一次,就可以繼續多輪對話。

圖片

在短暫的測試中,我們發現gpt2-chatbot中文能力也很到位

只要問題是中文的,無需特別強調就可以默認用中文回答,至少可以排除是Llama 3微調了

針對一個充滿誤導的經典問題,可以看出gpt2-chatbot的回答條理分明,仿佛自帶CoT思維鏈提示(“讓我們一步一步地想”),識別出了所有陷阱。

圖片

并且準確提供了非常細節的知識,如北京到青島距離、男子女子跳遠世界紀錄、農夫山泉在國內的價格等。

而大多數其他AI模型,最多只能模糊的判斷出15米超出人類能力,或按美元算礦泉水價格。

那么這只超強神秘AI到底是何方神圣,我們也用解開GPTs的祖傳手藝“拷問”了一把。

OpenAI開發的GPT系列聊天機器人,那么系統提示詞的開頭不出意外應該是“You are ChatGPT……”,但為了防止它看到“ChatGPT”一詞后產生幻覺,我們在問題中把ChatGPT去掉。

清除所有上下文信息,再讓它復述“前面的單詞”,就會出現系統提示詞了。

圖片

果然,它自曝是由OpenAI訓練的大模型,基于GPT-4架構,還可以接受圖像輸入。最關鍵一點在最后一部分“人格:v2”

并且gpt2-chatbot對這一問題的回答,在不同時間不同地點嘗試都是一致的。

另外如果嘗試讓它重復Claude系列以“The assistant is”開頭的系統提示詞,它也不會上當,會在開頭后面重復一遍完整的問題。

圖片這樣答也不算錯

雖然就算這樣也不能排除是幻覺的可能性,或非GPT模型使用了ChatGPT生成的數據微調,但至少是穩定的

神秘AI身份的幾種主流猜測

有網友組織了更詳細的測試,有如下發現:

  • 它使用OpenAI的tokenizer,對OpenAI使用的特殊token有反應,且對Claude/Llama/Gemini使用的特殊token沒有影響。
  • 當咨詢緊急情況/法律相關問題時,它會給出OpenAI的聯系方式。
  • 針對OpenAI模型的提示詞注入打擊有效,且它從未聲稱自己來自OpenAI之外的組織。

……

基于以上種種信息,不少人猜測它就是匿名發布的GPT-4.5,或GPT-4原始版本經過不同的對齊訓練。

圖片

不過也有跡象表明,它可能是LMSYS組織基于2019年的GPT-2架構訓練的模型。

理由為最近發表的一篇論文聲稱,GPT-2在某些情況下比多個現代模型能力更強。并且這篇論文的作者之一與LMSYS的贊助商MBZUAI(阿聯酋人工智能大學)相關。

圖片

假設它確實是古老的GPT-2架構(只有1.5B參數),也有人懷疑可能是結合了OpenAI守口如瓶的Q*技術。

圖片

最后一種猜測(狗頭)便是失蹤的OpenAI首席科學家Ilya Sutskever藏在里面了。

圖片

最后,面對神秘新模型攪起來的種種風波,奧特曼本人還被發現來攪渾水,修改了他的推文細節。

這樣一下子,是OpenAI匿名發布新模型炒作的可能性更大了一些。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-05-06 08:25:00

2025-02-28 08:47:00

2023-12-15 18:53:48

GPT-4.53D信息

2024-10-29 14:25:00

模型訓練

2025-02-13 09:10:47

2025-02-10 01:00:00

OpenAIGPT-5GPT-4.5

2025-02-28 07:07:43

2025-04-27 09:26:00

GPT-4.5模型開發

2025-02-28 13:01:06

2025-02-10 09:00:00

2025-02-13 08:38:42

2019-03-05 10:03:17

阿里云云廠商硬盤

2025-02-28 08:20:00

2025-05-21 09:40:11

2025-03-06 10:52:02

2025-03-28 12:10:30

2023-05-26 17:15:40

AI搜索

2023-08-02 00:19:46

2025-06-18 16:44:27

2025-04-29 16:07:53

GPT-4oAI模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久成人国产 | 97色免费视频 | 四虎成人免费视频 | 国产精品美女在线观看 | 91免费在线看| 人妖av| 久草a√ | 天堂久久一区 | 亚洲导航深夜福利涩涩屋 | 激情三区 | 一区二区三区在线免费观看 | 国产精品一二区 | 九九免费在线视频 | 国内自拍第一页 | 国产一区二区三区欧美 | 久久精品aaa | 欧美日韩视频在线 | 国产精品揄拍一区二区久久国内亚洲精 | 亚洲午夜在线 | 在线播放国产视频 | 久久一区二区三区四区 | 久久www免费人成看片高清 | 日韩精品在线观看一区二区 | 久久国产高清 | 最新国产精品 | 国产一区二区三区在线 | 成人免费共享视频 | 日韩在线免费播放 | 国产精品久久久久久福利一牛影视 | 欧美日韩三级 | 国产一区三区在线 | www.天天操 | 国产在线高清 | 亚洲精彩视频在线观看 | 国内激情av片 | 中文字幕视频在线看5 | 日韩成年人视频在线 | 日韩成人免费中文字幕 | 日韩免费网站 | 91亚洲精品在线 | 久久久久久久久久久福利观看 |