成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

陳丹琦團(tuán)隊(duì)新作:5%成本拿下SOTA,“羊駝剪毛”大法火了

人工智能 新聞
LLM-Shearing,具體來說是一種定向結(jié)構(gòu)化剪枝,將一個(gè)大模型剪枝到指定的目標(biāo)結(jié)構(gòu)。

只用3%的計(jì)算量5%的成本取得SOTA,統(tǒng)治了1B-3B規(guī)模的開源大模型。

這一成果來自普林斯頓陳丹琦團(tuán)隊(duì),名為LLM-Shearing大模型剪枝法。

以羊駝LLaMA 2 7B為基礎(chǔ),通過定向結(jié)構(gòu)化剪枝得到1.3B和3B剪枝后的Sheared-LLama模型。

圖片

分別在下游任務(wù)評(píng)估上超越之前的同等規(guī)模模型。

圖片

一作夏夢(mèng)舟表示,“比從頭開始預(yù)訓(xùn)練劃算很多”。

圖片

論文中也給出了剪枝后的Sheared-LLaMA輸出示例,表示盡管規(guī)模只有1.3B和2.7B,也已經(jīng)能生成連貫且內(nèi)容豐富的回復(fù)。

相同的“扮演一個(gè)半導(dǎo)體行業(yè)分析師”任務(wù),2.7B版本的回答結(jié)構(gòu)上還要更清晰一些。

圖片

團(tuán)隊(duì)表示雖然目前只用Llama 2 7B版做了剪枝實(shí)驗(yàn),但該方法可以擴(kuò)展到其他模型架構(gòu),也能擴(kuò)展到任意規(guī)模

另外還有一個(gè)好處,剪枝后可自行選用優(yōu)質(zhì)的數(shù)據(jù)集繼續(xù)預(yù)訓(xùn)練。

圖片

有開發(fā)者表示,6個(gè)月前還幾乎所有人都認(rèn)為65B以下的模型沒有任何實(shí)際用處。

照這樣下去,我敢打賭1B-3B模型也能產(chǎn)生巨大價(jià)值,如果不是現(xiàn)在,也是不久以后。

圖片

把剪枝當(dāng)做約束優(yōu)化

LLM-Shearing,具體來說是一種定向結(jié)構(gòu)化剪枝,將一個(gè)大模型剪枝到指定的目標(biāo)結(jié)構(gòu)。

之前的剪枝方法可能會(huì)導(dǎo)致模型性能下降,因?yàn)闀?huì)刪除一些結(jié)構(gòu),影響表達(dá)能力。

新方法將剪枝看成一種約束優(yōu)化問題,學(xué)習(xí)剪枝掩碼矩陣來搜索與指定結(jié)構(gòu)匹配的子網(wǎng)絡(luò),同時(shí)以最大化性能為目標(biāo)。

圖片

接下來對(duì)剪枝過的模型進(jìn)行繼續(xù)預(yù)訓(xùn)練,在一定程度上恢復(fù)剪枝造成的性能損失。

在這個(gè)階段,團(tuán)隊(duì)發(fā)現(xiàn)剪枝過的模型與從頭訓(xùn)練的模型對(duì)不同數(shù)據(jù)集的損失下降速率不一樣,產(chǎn)生數(shù)據(jù)使用效率低下的問題。

為此團(tuán)隊(duì)提出了動(dòng)態(tài)批量加載(Dynamic Batch Loading),根據(jù)模型在不同域數(shù)據(jù)上的損失下降速率動(dòng)態(tài)調(diào)整每個(gè)域的數(shù)據(jù)所占比例,提高數(shù)據(jù)使用效率。

圖片

實(shí)驗(yàn)發(fā)現(xiàn),雖然剪枝模型與從頭訓(xùn)練的同等規(guī)模模型相比,雖然一開始表現(xiàn)差得多,但繼續(xù)預(yù)訓(xùn)練可以迅速提高,最終超越。

這表明從強(qiáng)大的基礎(chǔ)模型中剪枝,可以為繼續(xù)預(yù)訓(xùn)練提供更好的初始化條件。

圖片

將持續(xù)更新,來一個(gè)剪一個(gè)

論文作者分別為普林斯頓博士生夏夢(mèng)舟高天宇,清華Zhiyuan Zeng,普林斯頓助理教授陳丹琦

夏夢(mèng)舟,本科畢業(yè)于復(fù)旦,碩士畢業(yè)于CMU。

高天宇,本科畢業(yè)于清華,是2019年清華特獎(jiǎng)得主。

兩人都是陳丹琦的學(xué)生,陳丹琦現(xiàn)在為普林斯頓助理教授,普林斯頓 NLP小組的共同領(lǐng)導(dǎo)者。

最近在個(gè)人主頁中,陳丹琦更新了她的研究方向。

“這些日子主要被開發(fā)大模型吸引”,正在研究的主題包括:

  • 檢索如何在下一代模型中發(fā)揮重要作用,提高真實(shí)性、適應(yīng)性、可解釋性和可信度。
  • 大模型的低成本訓(xùn)練和部署,改進(jìn)訓(xùn)練方法、數(shù)據(jù)管理、模型壓縮和下游任務(wù)適應(yīng)優(yōu)化。
  • 還對(duì)真正增進(jìn)對(duì)當(dāng)前大模型功能和局限性理解的工作感興趣,無論在經(jīng)驗(yàn)上還是理論上。

目前Sheared-Llama已在Hugging Face上提供。

圖片

團(tuán)隊(duì)表示,開源庫還會(huì)保持更新。

更多大模型發(fā)布時(shí),來一個(gè)剪一個(gè),持續(xù)發(fā)布高性能的小模型。

圖片

One More Thing

不得不說,現(xiàn)在大模型實(shí)在是太卷了。

一作Mengzhou Xia剛剛發(fā)布一條更正,表示寫論文時(shí)還是SOTA,論文寫好就已經(jīng)被最新的Stable-LM-3B超越了。

圖片

論文地址:https://arxiv.org/abs/2310.06694

Hugging Face:https://huggingface.co/princeton-nlp

項(xiàng)目主頁:https://xiamengzhou.github.io/sheared-llama/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-06-25 09:15:38

AI模型LLM

2025-01-07 12:55:00

訓(xùn)練數(shù)據(jù)模型

2022-07-26 09:56:48

模型AI

2024-02-29 12:49:37

2025-01-08 13:05:56

2024-07-18 12:58:03

2025-02-13 12:23:28

2024-05-27 08:40:00

2024-03-25 13:06:00

數(shù)據(jù)訓(xùn)練

2023-05-22 09:28:30

模型AI

2022-02-17 14:52:10

模型AI谷歌

2023-11-26 17:53:00

算法模型

2024-10-08 14:48:24

2025-01-16 09:00:00

2021-05-20 17:04:23

AI

2025-05-21 13:53:49

模型生成AI

2022-02-21 17:22:35

模型

2023-07-28 14:29:00

數(shù)據(jù)訓(xùn)練

2023-10-25 09:19:00

AI訓(xùn)練

2024-03-12 13:14:58

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日韩精品在线免费观看视频 | 亚洲成av人影片在线观看 | 国产一区二区三区视频 | 亚洲一区二区三区在线免费 | 91 在线| 一区二区免费在线观看 | 999国产视频| 精品国产乱码久久久久久丨区2区 | 国产精品国产a | 亚洲精品乱码久久久久久久久久 | 在线免费观看黄a | 色综合国产| 超碰成人在线观看 | 久久久久久久久久久久久久国产 | 亚洲国产精品自拍 | 国产欧美日韩一区 | 亚洲国产免费 | 亚洲一区二区不卡在线观看 | 国产精品av久久久久久久久久 | 在线视频中文字幕 | 国产日韩精品一区 | 影音先锋成人资源 | 色呦呦网站| avmans最新导航地址 | 色成人免费网站 | 精品日韩 | 成人精品在线观看 | 激情综合五月 | 久久久久久成人 | 国产高清免费 | 国产成人免费网站 | 中文av电影| 91久久精品一区二区二区 | 亚洲精品一区二区三区在线 | k8久久久一区二区三区 | 91久久精品 | 亚洲情侣视频 | 亚洲人成人一区二区在线观看 | 日韩在线 | 久久婷婷国产香蕉 | 视频精品一区二区三区 |