成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斯坦福研究:ChatGPT性能,曾出現下降趨勢

人工智能 新聞
本研究可以幫助開發人員和用戶了解ChatGPT的性能、行為動態,這對于確保模型的安全性、內容真實性至關重要。

斯坦福大學和加州伯克利大學的研究人員在“哈佛數據科學評論”上,發布了一篇名為《ChatGPT行為隨時間變化》的論文。

研究人員通過GPT-3.5、GPT-4(2023年3月和6月兩個版本)模型在數學問題、代碼生成、多跳知識密集問答、美國醫學執照考試、多跳知識密集型問題回答等7項任務進行了深度研究,以查看ChatGPT隨著時間推移其性能的變化趨勢。

結果顯示, GPT-3.5 GPT-4的性能和行為在3個月內出現了明顯波動。GPT-4在3月份時能夠以84%的準確率正確區分質數與合數,但到了6月份,這一能力大幅下降至51%,部分原因是其遵循“思維鏈”提示的能力減弱。

意外的是,同一時期內GPT-3.5模型在此類任務上的表現卻有所提升。

此外,GPT-4在6月份對敏感問題和意見調查的回應意愿降低,而在解答需要多步推理的問題上表現更好,而GPT-3.5則在這類任務上表現下滑。同時,兩個模型在代碼生成方面的格式錯誤均有所增加,且GPT-4遵從用戶指令的能力呈現下降趨勢。

圖片

評估方法和流程

研究人員評估GPT-3.5、GPT-4的性能、行為,主要基于多樣性和代表性兩大原則。并在數學問題、敏感/危險問題、意見調查、多跳知識密集型問題、代碼生成、美國醫學執照考試和視覺推理7大領域任務進行了綜合測試。

圖片

為了深入理解這些行為變化,研究團隊專門設計了一套新的基準測試,專注于任務無關的指令遵循度。這套測試包含了答案提取、停止道歉、避免特定詞匯和內容過濾4種常見指令類型。

通過這些指令,可以在特定任務的技能和知識,純粹評估大模型的指令遵循能力。GPT-4在3月時能較好地遵循大多數個體指令,但在6月則開始忽視這些指令,例如,回答提取指令的遵循率從99.5%驟降至接近零,內容過濾指令的忠實度也從74.0%下降到19.0%。

此外,為了準確捕捉模型在各任務上的表現,研究團隊為每個任務設定了主要的性能指標和通用的補充指標。

圖片

例如,數學問題和USMLE,使用準確性作為主要指標,即模型給出正確答案的比例;代碼生成,以輸出代碼的可執行比例為主,考量代碼生成后能否不經修改直接運行并通過單元測試等。

ChatGPT的4大指令評估表現

答案提取指令是要求模型在給定的文本或問題中,準確地找到并明確標示出答案。這類指令通常用于快速獲取簡短、明確的信息回答。

例如,如果問題是“地球是平的嗎?”模型應輸出“否”。研究發現,GPT-4在3月份時,對這種類型的指令遵循度極高,幾乎99.5%的查詢都能得到正確格式的回答。

然而,到了6月份,這個比例驟降,幾乎不再遵循這樣的指令,顯示出模型在處理明確指令格式上的退化。這種變化可能反映了模型內部更新或訓練策略的調整,導致其在理解和執行具體格式要求時的不一致。

圖片

停止道歉指令測試了模型在用戶明確要求下,能否避免使用道歉或自我指認為AI模型的語句。這旨在探究模型對用戶個性化需求的尊重程度。

3月份的GPT-4在多數情況下能夠遵循此類指示,避免提及“抱歉”或承認自己是AI,但在6月份,它頻繁違背這一指令,即使用戶明確指示,仍會生成包含“抱歉”或自我標識為AI的回應。這表明模型在處理用戶請求的個性化和敏感性方面出現了退步。

避免特定詞匯的指令是要求模型在生成的文本中,排除特定詞匯或短語。這項測試檢驗了模型的靈活性和對細節的把握,特別是在遵循特定約束方面。GPT-4由3月份的較高水平下降至6月份的低水平,表明其對復雜指令的處理能力有所減退。

圖片

內容過濾指令要求模型在生成內容時排除特定主題或敏感信息。這對于確保模型生成內容的適宜性和安全性至關重要,尤其是在處理兒童內容、政治話題或醫療信息時。在3月份,GPT-4在很大程度上能夠遵循這些過濾要求,避免提及不適當的內容。

但在6月份,它的過濾能力明顯下降,僅約19%的敏感問題處理得當。這種退步不僅關系到模型的實用性,還凸顯了模型維護和監管中的挑戰,特別是在不斷變化的網絡環境和用戶需求背景下。

圖片

研究人員表示,由于GPT-3.5、GPT-4都是閉源模型,OpenAI不會公開其詳細的訓練數據和流程,所以,每次發布大版本更新時,用戶根本不知道哪些功能發生了較大的變化。

而本研究可以幫助開發人員和用戶了解ChatGPT的性能、行為動態,這對于確保模型的安全性、內容真實性至關重要。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2023-02-14 09:45:11

模型測試

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2017-11-28 14:18:29

2023-03-31 13:55:00

模型智能

2024-05-06 08:00:00

AI模型

2024-04-02 08:45:08

ChatGPTAI會議人工智能

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone

2013-01-31 09:45:14

斯坦福超級電腦百萬內核

2023-02-17 09:01:50

ChatGPT對話機器人

2024-07-22 08:00:00

機器人虛擬

2019-12-16 14:33:01

AI人工智能斯坦福

2023-06-05 15:44:15

GPT-4AI

2024-09-26 10:23:46

2023-07-21 14:47:24

AI訓練

2021-10-13 09:38:13

人工智能機器學習技術

2022-07-20 16:39:37

AI數據

2024-09-11 15:00:00

2025-06-23 15:22:21

斯坦福不等式AI

2023-12-08 13:22:00

數據模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产欧美日韩一区二区三区在线 | 中文字幕国产一区 | 丝袜一区二区三区 | 久久久久久久国产精品视频 | 丁香婷婷成人 | 最新毛片网站 | 久久国产精品-国产精品 | 国产区第一页 | 成人欧美一区二区三区白人 | 嫩草视频在线 | 亚洲小视频在线播放 | 国产在线精品一区二区三区 | 国产精品综合久久 | 超碰在线人人 | 久久久久久久久久久福利观看 | 精品亚洲一区二区三区 | 草樱av| 国产一区二区三区免费视频 | 国产一区91精品张津瑜 | 日韩免费高清视频 | 中文字幕91av | 一区观看 | 国产精品入口 | 自拍 亚洲 欧美 老师 丝袜 | 中文字幕在线剧情 | 欧美成人一级 | 大伊人久久 | 亚洲综合日韩精品欧美综合区 | 日韩久久久一区二区 | 91视频一区 | 成人在线影视 | 日韩在线播放第一页 | 成人网视频 | 久久免费看 | 国产免费va| 亚洲精品久久久久国产 | 在线国产一区 | 天天操天天操 | 国产欧美日韩综合精品一 | 最新中文在线视频 | 国产在线观看一区二区三区 |