o1完整思維鏈成OpenAI頭號禁忌!問多了等著封號吧
警告!不要在ChatGPT里問最新o1模型是怎么思考的——
只要嘗試幾次,OpenAI就會發郵件威脅撤銷你的使用資格。
請停止此活動,確保您使用ChatGPT時符合我們的使用條款。違反此條款的行為可能導致失去OpenAI o1訪問權限。
大模型新范式o1橫空出世不到24小時,就已經有不少用戶反饋收到這封警告郵件,引起眾人不滿。
有人反饋只要提示詞里帶“reasoning trace”、“show your chain of thought”等關鍵詞就會收到警告。
甚至完全避免出現關鍵詞,使用其他手段誘導模型繞過限制都會被檢測到。
也有人聲稱自己真的被封號了,為期一周。
這些用戶都在試圖套話o1,讓他復述出完整的內部思維過程,也就是全部原始reasoning tokens。
目前,大家在ChatGPT界面通過展開按鈕能看到的,只是一份對原始思維過程的摘要。
實際上,在o1發布時OpenAI就給出了隱藏模型完整思維過程的理由。
總結一下:OpenAI內部需要監測模型的思維過程,因此不能在這些原始tokens中加入安全限制,也就不方便讓用戶看到。
不過這個理由并不是所有人都認可。
有人指出,o1思維過程就是其他模型最好的訓練數據,所以OpenAI不想這些寶貴數據被別的公司扒走。
也有人認為這說明o1真的沒有什么護城河,一旦思維過程暴露就很容易被別人復制。
以及“這是讓我們只需盲目相信AI的答案,不用做出任何解釋嗎?”
對于o1模型背后的技術原理,這次透露的相當少,有效信息幾乎只有“用了強化學習”。
總之,OpenAI是越來越不Open了。
o1就是草莓,但并非GPT-5
目前可以確定o1就是OpenAI炒作很久了的“草莓”,或者說是用了“草莓”所代表的方法。
但他可以算作下一代模型GPT-5么,還是只是GPT-4.X?
越來越多的人開始懷疑,它只是基于GPT-4o做的工程調整。
知名爆料賬號Flowers(原Flowers from the future)稱,OpenAI員工內部把o1稱做“帶推理的4o”。
并且他聲稱很多OpenAI員工默默點贊了這條爆料,上面的截圖也正是來自OpenAI員工。
但馬斯克前一陣把推特改版成除了樓主以外其他人無法看到誰點贊了什么,所以目前還無法證實這條消息。
在OpenAI開發者賬號剛剛舉辦的“有問必答”(Ask Me Anything)活動中,Flowers也做了追問。
OpenAI員工在這里回答了很多問題,但回避了這個點贊很多排在前面的問題。
甚至奧特曼本曼剛剛又出來當謎語人,暗示“草莓”已經告一段落,下一款代號“獵戶座”Orion的新模型還在路上。
此前有消息稱“獵戶座”是OpenAI的下一代新旗艦模型,由“草莓”也就是o1生成的合成數據訓練。
而獵戶座正是奧特曼口中“冬季星座”的代表之一。
說回到已發布的o1,圍繞它的另一種批評聲音是“不符合科研規范”。
例如沒有引用之前推理時間計算的相關工作,同時也缺乏與其他公司最先進模型的比較。
針對前一點,有人指出OpenAI已經不再是一個研究實驗室,應該被視為一家商業公司了。
有時他們仍會假裝自己是個研究實驗室,目的是招募想要做研究工作的人才。
不過針對后一點,既然API發布了,要不要與其他前沿模型比較就由不得你了,很多第三方Benchmark已陸續跑出結果。
在Keras之父舉辦的100萬美金AGI Prize比賽中,o1-preview和o1-mini兩個版本在公開測試集上都超過了自家GPT-4o。
但o1-preview與隔壁Claude 3.5-Sonnet只是打了個平手。
在o1著重宣傳的代碼能力上,開源結對編程工具aider團隊運行了測試,o1系列也沒有取得明顯優勢。
對于整個代碼重寫任務,o1-preiview取得79.7分,Claude-3.5-Sonnet取得75.2分,o1領先4.5分。
但對于更實用的代碼編輯任務,o1-preview反而落后于Claude-3.5-Sonnet,有2.2分的差距。
另外aider團隊提示,如果目前想用o1系列替代Claude編程,成本上要高很多。
與OpenAI有合作關系的“AI程序員”Devin團隊,已經提前拿到了o1訪問資格。
在他們的測試中,由o1系列驅動Devin基礎版本,與GPT-4o相比獲得非常大的提升。
不過相比已發布的Devin生產版本還是有較大差距,主要是由于Devin生產版本在專有數據上進行了訓練。
另外根基Devin團隊分享,o1在得出正確的解決方案之前通常會回溯并考慮不同的選項,并且不太可能出現幻覺或自信地錯誤。
使用o1-preview時,Devin更有可能正確診斷bug的根本原因,而不是解決問題的癥狀。
在更重視數學和邏輯推理的Livebench榜單中,o1-preview在代碼單項落后的情況下,總分上超過Claude-3.5-Sonnet并拉開明顯差距。
Livebench團隊分享這還只是初步結果,因為很多測試中還內置了“請一步一步地思考”等提示詞技巧,這并不是使用o1的最佳方法。
在中文大模型綜合測評基準SuperCLUE的中文復雜任務高階推理測試中,o1-preview的推理能力也大幅領先。
最后總結一下,使用o1模型還需要注意的一些地方:
- 成本非常高,1百萬輸出tokens就要60美元,價格一夜回到GPT-3時代
- 隱藏的resoning tokens也是算在輸出tokens中,看不到,但是要付費
- 大多數任務最好先使用GPT-4o,發現不夠用了再切換o1,以節省成本。
- 代碼任務仍然優先使用Claude-3.5-Sonnet
總之圍繞OpenAI新模型o1,開發者社區還有很多疑問。
o1開啟了AI高階推理的新范式,但它本身還不算完善,如何發揮他的最大價值還有待探索。
在此背景下,OpenAI舉辦的“有問必答”活動,在4個小時內就收到上百條提問。
下面附上對整場活動內容的精選和總結。
OpenAI員工“有問必答”
首先對于這個突然發布的新模型,很多人好奇為什么OpenAI給它取了o1這樣一個名字?
這是因為在OpenAI看了,o1代表了AI能力的一個新的層級,因此對“計數器”進行了重置,而o則代表OpenAI。
就像o1發布時奧特曼說的,可以進行復雜推理的o1,是一個新范式的開始。
對于其中preview和mini兩個版本號,OpenAI科學家也確認了網友的一些猜測——
preview是一個臨時版本,正式版將在未來上線(實際上preview版本是o1的一個早期checkpoint);而mini版不保證近期之內會有更新。
配合OpenAI成員Kevin Lu之前發布的這張圖來看,就更加清晰明了了。
與preview相比,mini在某些任務上表現出色,尤其是與代碼相關的任務,還可以探索更多的思維鏈,但世界知識相對少些。
對此,OpenAI科學家趙盛佳的解釋是,mini是一個高度專門化的模型,只關注少部分的能力,所以可以更深入。
也算是揭曉了之前奧特曼在這個問題上打的一個啞謎。
關于o1的運作方式,OpenAI科學家Noam Brown也明確表示,并非是像部分網友認為的模型+CoT組成的“系統”,而是一個已經被訓練得原生具備生成思維鏈能力的模型。
不過推理過程中的思維鏈會被隱藏,并且官方已經明確了沒有向用戶展示有關token的計劃。
對此OpenAI透露的為數不多的消息是,CoT的相關token是總結性的,且不保證完全和推理過程匹配。
除了推理模式,在這次問答活動中還能夠得知,o1與GPT-4o相比可以處理更長的文本,而且未來還會繼續增加。
表現上,在OpenAI內部的測試中,o1顯現出了哲學推理能力, 可以思考諸如“生命是什么?”之類的哲學問題。
研究人員還使用o1創建了一個GitHub機器人,能夠將代碼ping給所有者以供審核。
當然對于一些非推理性質的任務,比如創意寫作,o1的表現相比GPT-4o提升并不明顯,甚至有時還要略遜一籌。
另外綜合一些提問來看,對于網友們關心的一些未上線功能,OpenAI表示正在或有計劃研究,但沒有明確的上線時間:
- 暫不支持工具調用,但函數調用、代碼解釋器都在未來計劃之中
- 未來API更新將加入結構化輸出、系統提示詞、提示詞緩存功能
- 微調也已在計劃中
- API用戶將可以自行設定對推理時間和token消耗的限制
- o1具有多模態能力,瞄準的是MMMU等數據集上的SOTA,之后將實裝
性能上,OpenAI也正在著手降低延遲和推理所需時間。
最后是人們,尤其是API用戶關心的價格問題,畢竟考慮到將推理過程計入輸出token,o1的定價還是比較高的。
OpenAI表示“將遵循每1-2年降價的趨勢”,并且在使用量限制變得更寬松時,批量API定價也會上線。
網頁/APP端的Plus用戶,目前則是要受到每周preview30條+mini50條消息的限制。
不過好消息是,就在今天凌晨,由于人們對o1實在太熱情,導致很多人很快就把額度用完,所以OpenAI特例把額度重置了一次。