作者 | 徐杰承
審校 | 云昭
早在一個多月前,ChatGPT性能下降的傳聞便開始在網上流行,不少訂閱了Plus版的用戶紛紛表示,感覺ChatGPT在經歷了幾輪更新后開始降智,甚至有時反應速度也會出現問題。而如今,這一傳聞終于得到了證實。
就在本周,斯坦福大學和加州大學伯克利分校的研究人員發表了一篇論文,驗證了ChatGPT近幾個月來的變化,即ChatGPT的多方面能力出現了波動,尤其是在處理編碼和組合任務方面的效率發生了嚴重下滑。
圖片
此篇論文的發布也在業界引起了熱議,不少AI領域大牛都在各個平臺發表了自己的看法,而有關ChatGPT性能變化原因的分析以及OpenAI究竟意欲何為的推測也開始如野火般在圈內蔓延。
1、崩壞的ChatGPT
根據論文介紹,研究人員評估了2023年3月和6月版本的GPT3.5和GPT4模型在四個不同任務上的表現,包括解決數學問題、回答敏感或危險問題、生成代碼以及根據圖像識別進行視覺推理。
令人感到驚訝的是,實驗結果證明了這兩款大模型的性能和行為會隨時間推移發生很大變化。例如3月版的GPT4在解決數學問題方面非常出色,素數識別準確率能達到97%以上,而6月版的準確率居然暴降至了僅2.4%。
圖片
代碼生成方面,從3月到6月,GPT4生成代碼的可執行率從50%暴跌至了10%,GPT3.5雖然下降不太明顯,但也出現了同樣趨勢。并且在處理相同任務時,相比此前,6月版的兩款模型生成代碼的用時都有了一定增加。
而在回答敏感問題以及圖像推理方面,兩款模型的兩個版本差異則不明顯。由于增加了更多護欄限制,6月版GPT4對敏感問題的控制能力提升了16%,GPT3.5則下降了6%。而在圖像推理方面,不同版本之間幾乎沒有區別。
2、關于衰退的推測
關于GPT模型性能衰退的原因,不少業內人士也紛紛給出了自己推測。歸結起來大致可以分為三類,其一是OpenAI為了降低成本犧牲了模型性能,其二是過多AI對齊限制了模型能力,其三則是一個有些陰謀論的觀點——OpenAI是故意為之。
根據SEEK 全球人工智能總監Conan的推測,OpenAI在構建GPT4時大概率采用了混合專家模型(MOE)架構,也就是說GPT4并非是一個大模型,而是由多個特定領域小型專家模型所組成。值得一提的是,OpenAI創始人Greg Brockman也曾在自己所參與的研究中提到過MOE這條技術路徑。
這樣的架構理論上能夠讓GPT4更便宜、更快速地生成響應,但Conan也表示,“使用混合專家模型雖然能夠提供性價比方面的優勢,但在模型成本和質量之間需要進行取舍。”在論文發布后,Conan也特地發表了一條推特表示自己的想法很可能得到了驗證。
圖片
英偉達AI科學家Jim Fan則在推特上分享了另一個角度的觀點——安全性與性能的權衡。根據Jim Fan的猜測,OpenAI從3月至6月花費了大量精力為GPT4切除腦葉(進行AI對齊),但他們沒時間完全恢復其他的重要功能。
圖片
幾個月前微軟研究院發布的一篇論文也曾提到過這一觀點:對AI模型所進行的任何AI對齊,都會損失模型的準確性和性能。根據顧得哈特定律,獎勵模型并非完美代理,因此過度的AI對齊會阻礙模型對任務理解的真實程度及反應速度。
除此之外,目前一個有些陰謀論的觀點也在網上得到了大量的傳播——OpenAI故意降低GPT4的編碼能力,以便更多人為Copilot買單。而支持這一觀點的主要論據,則是微軟幾天前剛剛將Copilot的定價提高了驚人的83%。
3、前后不一的回應
作為身處漩渦中心之“人”,對于ChatGPT性能下降一事,其實OpenAI自5月底開始已經進行了多次回應。5月31日,OpenAI官方技術發言人Logan.GPT就曾在一條討論ChatGPT性能問題的推特下留言表示,GPT4在API模式中的質量并沒有下降。
圖片
7月14日,OpenAI產品副總裁Peter Welinder也親自發推表示,“不,我們沒有讓GPT4變笨,恰恰相反,我們讓每個版本都比上一個版本更加聰明。”對于網友留言所提出的質疑,Peter還解釋道,“當你更多使用它,你就會開始注意到以前沒有注意過的問題。”
圖片
然而伴隨著論文的發布,OpenAI對于此事的底氣與態度也發生了一些轉變。就在周三,Logan.GPT回應了論文作者之一Matei Zaharia在推特上發表的論文鏈接。然而這次Logan.GPT一改此前話鋒,不僅感謝了Matei的研究,還表示OpenAI正在調查此事,并提出愿意為此后的實驗提供幫助。
圖片
對于Logan.GPT前后不一的言論,不少網友也在這條推特下方開啟了嘲諷。一位名為Pranay的網友提到,“想要讓別人幫你進行評估和解決問題,你先開源自己的模型如何?”然而截止目前,無論是Logan.GPT還是其他OpenAI人員都沒有再對推文進行評論。
4、瞬息萬變的AI格局
伴隨著論文再一次坐實ChatGPT性能下降的事實,越來越多來自業界的指責與質疑也在指向OpenAI。AI科學家Daniel Jeffries在接受采訪時表示,OpenAI應當在推出新變化時繼續對舊版本模型進行支持,以便軟件開發人員能將工作建立在可靠工具上,而不是在沒有提示的情況下進行更新。
解決不穩定性問題的最佳解決方案就是開源模型,例如Meta剛剛宣布開源的Llama2。通過廣泛分布的權重,這些模型可以讓研究人員從相同基線開始工作,并獲取穩定可重復的結果。微軟近期與Meta的密切合作也在證明這條路線的可行性。
圖片
Hugging Face人工智能研究員Sasha Luccioni也認為OpenAI的不透明性存在很大問題,“任何閉源模型的結果都是不可復制和驗證的,科學家們也沒有責任持續監控已經部署的大模型。雖然GPT4非常優秀,但未來的更多應用與研究將會建立在更加透明和穩定的模型之上。”
值得一提的是,在Llama2發布后,包括英偉達、AMD、HuggingFace、GitHub、DataBricks等在內的一眾科技巨頭高管,以及伯克利、MIT等頂尖院校的教授也紛紛官宣將于Meta進行合作。而這對于如今受困于模型性能問題的OpenAI來說無疑是一個雪上加霜的消息。
5、寫在最后
雖然目前業內也有部分專家也在質疑這份論文中所提出的檢測方法的準確性。但無論是論文中所顯示的巨大的數據差異,還是大量來自用戶的反饋,亦或是OpenAI對待此事時的態度的轉變,無疑都證明了GPT4模型在過去幾個月確實出現了一些問題。
我們必須承認的是,如今的OpenAI依然佇立在AI技術之巔。關于技術層面的問題,如果連OpenAI也無法順利解決,那么這對于其他企業而言也將會成為一個短期內難以逾越深谷。
然而即便OpenAI在技術上擁有著領先優勢,但越來越多來自競爭對手的壓力與大模型市場格局的加速變化,也使得OpenAI這家年輕的明星公司逐漸暴露出了一些在長遠布局規劃方面的短板,近期ChatGPT訪問量增長率的大幅下降也足以說明一些問題。
一個明顯的道理是,當周遭一切都在飛速發生變化時,只有擁有足夠強大適應能力并能夠根據環境作出相應改變的物種,才擁有長期生存及持續發展的權利。而就目前來看,留給OpenAI作出改變的時間已經越來越緊張了。
最后,關于ChatGPT降智的原因,你有什么不同的看法呢,歡迎在評論區分享你的觀點。
參考鏈接:
https://twitter.com/OfficialLoganK/status/1681650521998860290?s=20