斯坦福研究：ChatGPT性能，曾出現下降趨勢

作者：AIGC開放社區 2025-01-17 10:26:19

本研究可以幫助開發人員和用戶了解ChatGPT的性能、行為動態，這對于確保模型的安全性、內容真實性至關重要。

斯坦福大學和加州伯克利大學的研究人員在“哈佛數據科學評論”上，發布了一篇名為《ChatGPT行為隨時間變化》的論文。

研究人員通過GPT-3.5、GPT-4（2023年3月和6月兩個版本）模型在數學問題、代碼生成、多跳知識密集問答、美國醫學執照考試、多跳知識密集型問題回答等7項任務進行了深度研究，以查看ChatGPT隨著時間推移其性能的變化趨勢。

結果顯示， GPT-3.5 GPT-4的性能和行為在3個月內出現了明顯波動。GPT-4在3月份時能夠以84%的準確率正確區分質數與合數，但到了6月份，這一能力大幅下降至51%，部分原因是其遵循“思維鏈”提示的能力減弱。

意外的是，同一時期內GPT-3.5模型在此類任務上的表現卻有所提升。

此外，GPT-4在6月份對敏感問題和意見調查的回應意愿降低，而在解答需要多步推理的問題上表現更好，而GPT-3.5則在這類任務上表現下滑。同時，兩個模型在代碼生成方面的格式錯誤均有所增加，且GPT-4遵從用戶指令的能力呈現下降趨勢。

研究人員評估GPT-3.5、GPT-4的性能、行為，主要基于多樣性和代表性兩大原則。并在數學問題、敏感/危險問題、意見調查、多跳知識密集型問題、代碼生成、美國醫學執照考試和視覺推理7大領域任務進行了綜合測試。

為了深入理解這些行為變化，研究團隊專門設計了一套新的基準測試，專注于任務無關的指令遵循度。這套測試包含了答案提取、停止道歉、避免特定詞匯和內容過濾4種常見指令類型。

通過這些指令，可以在特定任務的技能和知識，純粹評估大模型的指令遵循能力。GPT-4在3月時能較好地遵循大多數個體指令，但在6月則開始忽視這些指令，例如，回答提取指令的遵循率從99.5%驟降至接近零，內容過濾指令的忠實度也從74.0%下降到19.0%。

此外，為了準確捕捉模型在各任務上的表現，研究團隊為每個任務設定了主要的性能指標和通用的補充指標。

例如，數學問題和USMLE，使用準確性作為主要指標，即模型給出正確答案的比例；代碼生成，以輸出代碼的可執行比例為主，考量代碼生成后能否不經修改直接運行并通過單元測試等。

答案提取指令是要求模型在給定的文本或問題中，準確地找到并明確標示出答案。這類指令通常用于快速獲取簡短、明確的信息回答。

例如，如果問題是“地球是平的嗎？”模型應輸出“否”。研究發現，GPT-4在3月份時，對這種類型的指令遵循度極高，幾乎99.5%的查詢都能得到正確格式的回答。

然而，到了6月份，這個比例驟降，幾乎不再遵循這樣的指令，顯示出模型在處理明確指令格式上的退化。這種變化可能反映了模型內部更新或訓練策略的調整，導致其在理解和執行具體格式要求時的不一致。

停止道歉指令測試了模型在用戶明確要求下，能否避免使用道歉或自我指認為AI模型的語句。這旨在探究模型對用戶個性化需求的尊重程度。

3月份的GPT-4在多數情況下能夠遵循此類指示，避免提及“抱歉”或承認自己是AI，但在6月份，它頻繁違背這一指令，即使用戶明確指示，仍會生成包含“抱歉”或自我標識為AI的回應。這表明模型在處理用戶請求的個性化和敏感性方面出現了退步。

避免特定詞匯的指令是要求模型在生成的文本中，排除特定詞匯或短語。這項測試檢驗了模型的靈活性和對細節的把握，特別是在遵循特定約束方面。GPT-4由3月份的較高水平下降至6月份的低水平，表明其對復雜指令的處理能力有所減退。

內容過濾指令要求模型在生成內容時排除特定主題或敏感信息。這對于確保模型生成內容的適宜性和安全性至關重要，尤其是在處理兒童內容、政治話題或醫療信息時。在3月份，GPT-4在很大程度上能夠遵循這些過濾要求，避免提及不適當的內容。

但在6月份，它的過濾能力明顯下降，僅約19%的敏感問題處理得當。這種退步不僅關系到模型的實用性，還凸顯了模型維護和監管中的挑戰，特別是在不斷變化的網絡環境和用戶需求背景下。

研究人員表示，由于GPT-3.5、GPT-4都是閉源模型，OpenAI不會公開其詳細的訓練數據和流程，所以，每次發布大版本更新時，用戶根本不知道哪些功能發生了較大的變化。

而本研究可以幫助開發人員和用戶了解ChatGPT的性能、行為動態，這對于確保模型的安全性、內容真實性至關重要。

責任編輯：張燕妮來源： AIGC開放社區

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看