成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-5涌現能力可預測?UC伯克利僅使用當前模型檢查點預測未來模型

人工智能 新聞
思維鏈提出者 Jason Wei 稱贊:「這是一篇非常聰明的論文,可以預測預訓練模型的下游性能,非常有價值。因為可以使用它來預測和證明對下一個大模型訓練運行的資本投資的合理性?!?/div>

LLM 規模擴展的一個根本性挑戰是缺乏對涌現能力的理解。特別是,語言模型預訓練損失是高度可預測的。然而,下游能力的可預測性要差得多,有時甚至會出現涌現跳躍(emergent jump),這使得預測未來模型的能力變得具有挑戰性。

最近,來自加州大學伯克利分校(UC 伯克利)的研究團隊提出涌現預測的任務:是否可以僅通過使用 GPT-N 模型的檢查點(即當前模型的狀態)來預測 GPT-N+1(未來模型)是否會出現涌現能力? 并在論文《Predicting Emergent Capabilities by Finetuning》中給出了答案。

圖片

  • 論文標題:Predicting Emergent Capabilities by Finetuning
  • 論文地址:https://arxiv.org/pdf/2411.16035

值得注意的是,這篇論文的作者包括強化學習大牛 Sergey Levine。

該研究擬合了一個參數函數 —— 涌現定律,模擬了涌現點如何隨數據量的變化而變化。

為了進行驗證,該研究使用四個標準 NLP 基準 ——MMLU、GSM8K、CommonsenseQA 和 CoLA。通過僅使用小規模 LLM 來擬合涌現定律,該研究能夠準確預測涌現點。

最后,該研究提出了兩個實際的涌現案例研究,表明該研究提出的涌現定律可用于預測更復雜的能力。

思維鏈提出者 Jason Wei 稱贊:「這是一篇非常聰明的論文,可以預測預訓練模型的下游性能,非常有價值。因為可以使用它來預測和證明對下一個大模型訓練運行的資本投資的合理性?!?/span>

圖片

論文介紹

作者首先提出了涌現預測,并將涌現預測定義為僅使用涌現前的模型檢查點,來識別發生涌現的擴展點的問題。

簡單理解就是,對于給定的 LLM,其在特定任務上具有隨機少樣本準確率,我們能否預測這個 LLM 在哪個擴展點(例如,預訓練損失)上性能將超越隨機表現?

帶著這一疑問,作者發現了這樣一個見解:在給定的任務上微調 LLM, 可以將涌現發生的臨界點向著能力較低的模型移動 ,這意味著,通過微調,模型在涌現能力出現的時間點可以提前,這對于理解模型擴展和能力躍升的過程非常重要。微調所使用的數據量,會調節這種臨界點移動的幅度。 

圖 3(左)繪制了每個模型在 GSM8K 和 MMLU 上的少樣本和微調性能與預訓練損失的關系。可以看到,微調后的模型遵循與少樣本設置類似的 ReLU 形狀。此外,在相同的預訓練損失下,所有模型大小的轉變都是一致的,這表明預訓練損失可以作為少樣本和微調設置中有效的獨立變量。

作者還發現出現涌現偏移受微調數據量的影響。圖 3(右)繪制了 3B 模型檢查點在完整數據子集上進行微調后的性能。在 MMLU 和 GSM8K 上,隨著微調數據量的增加,涌現點進一步向能力較弱的 LLM 偏移。因此,微調數據量可以調節涌現偏移。

圖片

為了將這一洞察付諸實踐,作者針對不同數量的數據對 LLM 進行了微調,并擬合了一個參數函數(即涌現定律),該函數模擬了涌現點如何隨數據量的變化而變化。

圖片

圖片

然后,根據這一發現可以推斷出在少樣本設置中關于涌現的預測。

圖片

作者利用四個標準 NLP 基準來驗證涌現定律,結果發現涌現定律可以提前準確預測涌現點,最多可提前 4 倍 FLOP。

圖片

接下來作者進行了這樣一個實驗,就預訓練 FLOPS 而言,可以提前多久成功做出預測。結果發現,可以提前預測涌現的程度在某種程度上取決于任務。

在 MMLU 和 GSM8K 上,可以分別提前最多 4.3 倍和 3.9 倍的 FLOPS 涌現出現。然而,在 CommonsenseQA 和 CoLA 上,分別只能提前預測 1.9 倍和 2.3 倍。

圖片

最后,作者還進行了真實世界的案例研究:1)低成本評估預訓練數據質量(左)。2)使用困難 APPS 編碼基準預測更復雜的能力,更接近未來前沿模型的能力(右)。

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究內容。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-05 13:45:46

模型AI

2023-08-15 14:18:19

智能研究

2024-03-04 08:15:00

2023-05-04 14:55:02

模型AI

2025-04-30 09:09:00

2024-11-26 13:40:00

2023-04-07 09:28:31

模型訓練

2023-01-12 13:03:00

數據開源

2024-01-09 12:53:16

模型訓練

2025-04-18 08:42:52

模型推理AI

2023-08-14 08:37:54

2023-07-01 13:27:55

2025-01-22 15:21:00

2024-04-07 00:45:00

開源模型

2023-04-07 13:54:37

模型AI

2023-12-04 13:52:00

模型數據

2023-05-31 16:15:51

模型圖像

2022-12-23 10:15:44

模型AI

2023-11-14 07:47:42

IGN擴散模型

2023-05-16 13:32:23

模型排行
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久久国产精品一区 | 综合婷婷 | 亚洲精品一区二三区不卡 | 日韩1区| 成人在线视频观看 | 午夜视频在线免费观看 | 欧美视频在线一区 | 国产高清视频一区二区 | 国色天香综合网 | 亚洲精品久 | 高清免费av | 91看片在线| 欧美视频网| 精品久久久久久 | 国产精品视频网 | 午夜精品网站 | 欧美在线视频免费 | 毛片网在线观看 | 一级看片| 一区二区三区四区在线视频 | 中文字幕不卡一区 | 在线观看国产三级 | 亚洲精品久久久久久一区二区 | 国产精品亚洲一区二区三区在线 | 国产成人高清成人av片在线看 | 夜夜骚视频 | 天堂一区二区三区 | 亚洲综合色丁香婷婷六月图片 | 国产二区av| 一区二区三区电影在线观看 | 在线国产视频 | 日本一区二区不卡视频 | 欧美视频在线免费 | 91中文字幕在线观看 | 福利社午夜影院 | 日韩中文不卡 | 亚洲精品久久久一区二区三区 | 国产乱码一二三区精品 | 午夜视频在线观看网址 | 91精品国产日韩91久久久久久 | 国产在线不卡视频 |