成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

告別玄學選LLM!弗吉尼亞理工選型框架入選ICML 2025

人工智能 新聞
來自弗吉尼亞理工大學的研究人員推出了個選型框架LensLLM。

還在靠“開盲盒”選擇大模型?

來自弗吉尼亞理工大學的研究人員推出了個選型框架LensLLM——

大幅提升選型效果的同時,成本卻降低近90%。

圖片

眾所周知,在大模型如雨后春筍般爆發(fā)的時代,選型成了AI工程師和研究員最大的痛點之一:

  • 模型多如牛毛,怎么選才不會“踩坑”?
  • 微調代價高昂,怎么預測誰能表現(xiàn)最優(yōu)?
  • 資源受限,怎么才能用最少成本跑出最優(yōu)解?

而使用LensLLM框架,不僅可以預測微調后的性能走勢,還通過全新理論解釋了大模型微調中一直難以理解的“玄學現(xiàn)象”。

按照團隊的說法,LensLLM=用理論看清大模型未來+用極小代價選出最優(yōu)解。

該研究被ICML 2025收錄。

下面具體來看。

首度揭示:LLM微調中的“相變”動力學

近幾年,大語言模型(LLM)從學術走向產(chǎn)業(yè),從GPT到LLaMA,再到Mistral、DeepSeek,光是名字就讓人眼花繚亂。

但選錯模型不僅會浪費GPU資源,更可能拖慢產(chǎn)品迭代速度,甚至導致項目失敗。

現(xiàn)有方法依賴經(jīng)驗、調參和“玄學”,在成本和效果之間很難找到平衡。

而LensLLM正是在這個背景下誕生,其目標是終結LLM選型“靠感覺”的時代

展開來說,LensLLM的理論基礎來自一項全新的PAC-Bayes泛化界限推導,首次從數(shù)學上揭示了LLM在不同數(shù)據(jù)規(guī)模下微調表現(xiàn)的非線性變化規(guī)律,具體表現(xiàn)為:

圖片

其中,n是訓練樣本量,???與模型參數(shù)的Hessian矩陣(衡量損失函數(shù)曲率和參數(shù)敏感性)緊密相關。

在此基礎上,研究團隊進一步推導出推論1,將泛化界限簡化為:

圖片

其中C3和??3都是模型/任務相關的參數(shù)。

“預冪律相”→“冪律相”的相變現(xiàn)象

在數(shù)據(jù)量較小時,模型處于“預冪律相”,此階段參數(shù)對損失非常敏感,表現(xiàn)極不穩(wěn)定,性能提升有限;而當訓練數(shù)據(jù)量超過某個臨界點后,模型進入“冪律相”,此時誤差收斂明顯,調參也更有效率。

這一“從不確定到穩(wěn)定”的過渡,首次在理論上得到了嚴謹解釋,并被寫進了LensLLM的預測邏輯中。

下圖反映了LLM微調過程中測試損失L隨訓練數(shù)據(jù)量D變化的相變現(xiàn)象。低數(shù)據(jù)量階段為預冪律相,高數(shù)據(jù)量階段為冪律相,兩者之間存在明顯的轉折點。

圖片

實錘LensLLM:用NTK模擬微調,用極小代價選出最優(yōu)模型

理論解釋只是開始。更重要的是——LensLLM還能算準

研究團隊構建了一個基于神經(jīng)切線核(NTK)增強的縮放律模型,能夠在只微調極少量數(shù)據(jù)的前提下:

  • 精確擬合整個微調曲線(如圖2和表2所示)
  • 預測最終測試性能
  • 排出最優(yōu)模型排名

下圖2顯示了,LensLLM(藍色方塊)在FLAN、Wikitext和Gigaword數(shù)據(jù)集上對OPT-1.3b、GPT-2和T5-base模型性能的曲線擬合效果。

可以看到,LensLLM的RMSE值顯著低于Rectified Scaling Law(紅色三角形),誤差帶更窄,表明其預測更穩(wěn)定準確。圖片

下表2為預測測試損失與實際測試損失方面的均方根誤差(RMSE)對比(×)。

圖片

不需要完整訓練,不需要大規(guī)模試錯,就像提前“看穿”一個模型的未來走向

在FLAN、Wikitext、Gigaword三大數(shù)據(jù)集上,LensLLM預測準確度遠超基線方法(如Rectified Scaling Law),RMSE誤差最小可低至原來的1/5

下圖3為LensLLM在FLAN、Wikitext和Gigaword數(shù)據(jù)集上的Pearson相關系數(shù)和相對準確率表現(xiàn)。

LensLLM(最右側深藍色條形)在所有數(shù)據(jù)集上均顯著優(yōu)于Rectified Scaling Law、NLPmetrics、SubTuning、ZeroShot和ModelSize等基線方法,展現(xiàn)了其在模型選型中的卓越能力。

圖片

大幅提升選型效果,成本卻降低近90%

選得準是一方面,選得快也是關鍵。

LensLLM引入了漸進式采樣機制,計算成本比FullTuning方法最多降低88.5%,且在模型排名任務中保持高達91.1%的選型準確率,真正實現(xiàn)成本低、精度高、泛化強

圖4顯示了LLM選型性能與計算成本的Pareto-最優(yōu)曲線。LensLLM(橙色點)在顯著降低FLOPs(計算成本)的同時,保持了高水平的Pearson相關系數(shù),相較于Rectified(藍色點)、SubTuning(綠色點)和FullTuning(紫色點)展現(xiàn)出更優(yōu)的效率。

就是說,在選型性能與計算代價之間,LensLLM達到顯著的Pareto最優(yōu)。

圖片

未來場景:邊緣部署/模型迭代/個性化推薦

團隊表示,LensLLM不只是選型利器,更有潛力成為模型評估與管理的核心組件:

  • 資源受限部署場景:幫助邊緣設備快速選出兼顧精度與效率的模型;
  • A/B測試與快速迭代:縮短新模型上線周期,節(jié)省GPU試錯成本;
  • 定制化微調:根據(jù)用戶任務和數(shù)據(jù)量,找到最合適的預訓練模型,從而達到最佳效果。

未來他們將探索將LensLLM拓展到多任務環(huán)境MoE等復雜模型結構,構建更通用的智能模型選型系統(tǒng)。

論文:https://arxiv.org/pdf/2505.03793

開源地址:https://github.com/Susan571/LENSLLM

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-11-11 17:27:26

2022-03-01 11:39:24

AI技術數(shù)據(jù)治理

2025-06-30 08:36:00

AI模型強化學習

2018-10-19 12:37:47

GitHub代碼開發(fā)者

2025-06-03 08:26:00

智能體LLM開發(fā)

2025-06-09 09:23:05

2022-09-19 15:40:03

數(shù)據(jù)中心運營商IT

2009-06-18 09:29:44

Spring Web

2012-05-25 15:35:43

JMSJava

2015-07-23 10:54:09

Java Mybati框架

2025-05-07 13:48:48

AIGC生成機器人

2022-07-12 10:37:08

阿里巴巴達摩院機器學習

2024-11-29 13:58:49

2025-05-19 08:35:00

2024-10-28 07:30:00

2025-05-19 08:30:00

2020-06-19 10:33:16

阿里AIICML

2017-09-16 17:45:32

數(shù)據(jù)采集Scrapy爬蟲

2016-03-18 11:19:57

ios9replaykit入門

2021-01-23 20:00:53

程序員技能開發(fā)者
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人av网站在线观看 | 999久久久久久久 | 午夜电影网 | 欧美日韩在线一区二区三区 | 日本大片在线播放 | 国产精品视频中文字幕 | 久久久91| 日本超碰 | 日本又色又爽又黄的大片 | 亚洲欧美日韩电影 | 91免费在线视频 | 国产午夜精品久久久 | 91在线看网站 | 欧美一二三 | 色呦呦在线 | 亚洲一区精品在线 | 精精精精xxxx免费视频 | 成人激情视频网 | 男女羞羞视频网站 | 免费一级欧美在线观看视频 | 一级在线免费观看 | 男人的天堂中文字幕 | 福利二区| h视频在线观看免费 | 中文字幕国产视频 | 国产精品美女久久久久久免费 | 成人中文网 | 亚洲欧美激情网 | 久久国产精品免费一区二区三区 | 婷婷综合激情 | 国产精品久久久久久久久久东京 | 亚洲国产一区视频 | 中文字幕乱码一区二区三区 | 亚洲九九精品 | 国产一区二区自拍 | 色婷婷一区二区三区四区 | 欧美一级视频在线观看 | 成年网站在线观看 | 亚洲狠狠爱 | 亚洲国产精品成人无久久精品 | 黑人巨大精品 |