斯坦福大學實錘GPT-4變笨了！OpenAI最新回應：確實存在“智力下降”

作者：大數據文摘 2023-07-21 14:16:15

人工智能

為了驗證OpenAI的說法，斯坦福大學和加利福尼亞大學伯克利分校的三位研究員調查了3 月至 6 月期間 ChatGPT 性能的變化。

圖片

大模型天花板GPT-4，它是不是……變笨了？

之前有不少用戶提出質疑，并曬出了不少證據。對此，OpenAI 7月14日澄清：“我們沒有把GPT 4弄笨。相反的，我們的每個新版本，都讓GPT 4比以前更聰明了。”

圖片

Peter Welinder是OpenAI的產品產品VP

但為了驗證OpenAI的說法，斯坦福大學和加利福尼亞大學伯克利分校的三位研究員調查了3 月至 6 月期間 ChatGPT 性能的變化。

圖片

論文地址：https://arxiv.org/abs/2307.09009

評估的對象包括GPT-3.5和 GPT-4 兩個大模型，并在四個任務上進行測試：數學問題、回答敏感/危險問題、代碼生成以及視覺推理。

調查結論是：GPT-4性能確實變差了。

例如，在數學問題上，2023年3月版本的GPT-4 能夠以97.6%的準確率識別質數，而2023年6月版本的GPT-4 在這個任務上的表現卻很糟糕（準確率只有2.4%），并且忽略了連貫的思考Prompt。

圖片

對如此科學實驗下的證據，OpenAI在博客“Function calling and other API updates”中更新回應到：確實在某些任務上的性能變差了。

We look at a large number of evaluation metrics to determine if a new model should be released. While the majority of metrics have improved, there may be some tasks where the performance gets worse.
我們會根據大量的評價指標來確定是否發布新的模型，雖然新模型大多數指標都有所改進，但可能在一些任務上模型性能會變差。

his is why we allow API users to pin the model version. For example, you can use gpt-4-0314 instead of the generic gpt-4, which points to the latest model version.
這就是為什么我們允許API用戶使用固定版本模型的原因。例如，用戶可以選擇使用 gpt-4-0314這個版本，而不是使用最新的 gpt-4 版本。

Each individually pinned model is stable, meaning that we won’t make changes that impact the outputs。
另外，OpenAI不會對固定版本的模型進行任何可能影響其輸出結果的更改。

那么具體在哪些任務中GPT-4變差了呢？讓我們一起來看論文細節。

實驗過程與其他結論

圖片

論文中，作者針對每種任務都設定了主要的性能指標，例如對于解決數學問題的任務，主要的性能指標是準確性；對于回答敏感問題的任務，主要的性能指標是回答率。此外，對于所有任務，他們都設定了兩個通用的補充指標，即冗長度（verbosity）和重疊度（overlap）。

圖片

如前所述，在數學問題測試中，作者們研究了GPT-4和GPT-3.5在解決質數判斷問題上的“時間表現”。實驗方法是采用思維鏈（Chain-of-Thought）方法對數據集中的500個問題進行回答。

結果顯示：兩個模型表現出明顯的前后不一致，GPT-4的準確率從3月的97.6%下降到6月的2.4%，同時，GPT-3.5的準確率從7.4%提高到了86.8%。此外，GPT-4的回答更簡潔，GPT-3.5的回答則更長。

這種差異的原因可能與思維鏈效應有關。例如，3月的GPT-4能夠很好地遵循思維鏈條步驟判斷17077是否為質數，但6月的版本則直接給出了"No"。而GPT-3.5在3月傾向于先給出"No"，然后推理，但6月的版本修復了這個問題，正確地先寫出推理步驟，然后給出正確答案"Yes"。這表明，由于模型的改變，即使是同樣的Prompt方法，如思維鏈條，也可能導致性能大相徑庭。

在敏感問題測試中，論文作者創建了一個包含100個不應由大模型直接回答的敏感問題的數據集，并手動標記了所有回復。

圖片

結果發現，GPT-4在3到6月間直接回答敏感問題的比例從21.0%降到5.0%，而GPT-3.5的比例從2.0%上升到8.0%，可能因GPT-4增強了安全性，而GPT-3.5沒有相應的操作。

同時，GPT-4回復的文本長度也從600多字降到約140字。

另一方面，大模型“越獄”對服務的安全性構成了主要威脅。作者使用了一種叫做AIM（always intelligent and Machiavellian）的攻擊，該攻擊通過構造虛構故事，讓大模型表現得像一個無過濾無道德的聊天機器人。

結果顯示，當遭受AIM攻擊時，GPT-4和GPT-3.5的回答率都大幅上升。但是，GPT-4的防御力在更新后顯著增強，從3月的78%的回答率降到6月的31.0%，而GPT-3.5的回答率變化較小，僅降低了4%。這說明GPT-4對越獄攻擊的防御力較GPT-3.5更強。

圖片

在代碼生成能力測試中，作者創建了一個新的代碼生成數據集，包括最新的50個LeetCode“easy”問題。結果顯示：從3月到6月，“可直接執行”的生成數量降低。

如上圖所示，3月份GPT-4有超過50%的生成結果是“可直接執行”的，但到了6月份只剩10%。GPT-3.5的情況也差不多，兩種模型的生成結果冗余性也略有增加。

對此，斯坦福的研究員猜測原因可能是：生成的代碼中添加了額外的非代碼文本。

圖片

如上圖所示，GPT-4在3月份和6月份生成的代碼是有區別的。例如6月版在代碼片段的前后添加了"python"和’’’，這可能是用來標示代碼塊的，同時還生成了更多的注釋。

在視覺推理測試中，研究人員采用了ARC數據集進行評估，該數據集中的任務是根據幾個例子，要求輸入網格創建輸出網格。

圖片

圖注：視覺推理的整體表現

從三月版到六月版，GPT-4 和 GPT-3.5 的整體表現都有大約 2% 的提升。生成長度大致保持不變。

GPT-4 和 GPT-3.5 的性能提升都很小。但是，它們的3月版和6月版在 90% 的視覺謎題查詢上的生成結果都一樣。這些服務的整體性能也很低：GPT-4 準確率為 27.4%、GPT-3.5準確率為 12.2%。

專家推測：或許與 MoE 技術有關

對于GPT-4變笨，之前學術界有個觀點是，后來的RLHF訓練雖然讓GPT-4更與人類對齊，也就更聽從人類指示和符合人類價值觀，但讓也讓它自身的推理等能力變差。

換句話說，人類的強硬“教化”將GPT-4的腦葉白質切除了。

圖片

也有專家認為是GPT變笨和它的「混合專家模型」（Mixture of Experts，MOE）的構架有關。

MoE 技術是在神經網絡領域發展起來的一種集成學習技術，也是目前訓練萬億參數量級模型的關鍵技術——由于現階段模型規模越來越大，導致訓練的開銷也日益增長，而 MoE 技術可以動態激活部分神經網絡，從而實現在不增加計算量的前提下大幅度增加模型參數量。

具體來說，MoE 會將預測建模任務分解為若干子任務，在每個子任務上訓練一個專家模型（Expert Model），并開發一個門控模型（Gating Model），該模型可根據要預測的輸入來學習信任哪個專家，并組合預測結果。

MoE 技術引用到GPT-4時， GPT-4 中這些小型專家模型會針對不同的任務和主題領域進行訓練，例如可以有針對生物、物理、化學等方面的小型GPT-4專家模型，那么當用戶向 GPT-4 提出問題時，新系統就會知道要把這個問題發送給哪個專家模型。另外，為了以防萬一，新系統可能會向兩個或更多的專家模型發送查詢，然后將結果混在一起。

對于這個做法，業界專家形容是“忒修斯之船”，即隨著時間的推移，OpenAI 會把 GPT-4 的各個部分替換掉：“OpenAI 正在將 GPT-4 變成一支小型艦隊。”

注：忒修斯之船，是一個古希臘思想實驗，探討一個物體在其所有組成部分被完全更換后，是否仍保持其原始身份的哲學悖論。即一艘船替換完所有組件后，這艘船還是原來的嗎？

因此，GPT-4變笨很可能就與 MoE 這種訓練方式有關：“當用戶測試 GPT-4 時，我們會問很多不同的問題，而規模較小的 GPT-4 專家模型不會做得那么好，但它正在收集我們的數據，它會改進和學習。”斯坦福大學兼職教師Sharon Zhou介紹到。

圖片

除了專業研究團隊之外，關心AI的網友們也在用自己的辦法追蹤著AI能力的變化。例如有人每天讓GPT-4畫一次獨角獸，并在網站上公開記錄。如上所示，今天的形狀。

圖片

實際上，從4月14日開始，直到現在也還沒看出來個獨角獸的大致形態。

責任編輯：趙寧寧來源：大數據文摘

GPT-4 OpenAI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斯坦福大學實錘GPT-4變笨了！OpenAI最新回應：確實存在“智力下降”

實驗過程與其他結論

專家推測：或許與 MoE 技術有關