成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型蒸餾技術(shù)的演進(jìn)歷史與實(shí)現(xiàn)原理 原創(chuàng)

發(fā)布于 2025-5-9 06:31
瀏覽
0收藏

“ 知識(shí)蒸餾技術(shù)是模型輕量化小型化的一種方式,其效果也遠(yuǎn)超我們的想象 ”

在深度學(xué)習(xí)領(lǐng)域模型的壓縮與部署是一項(xiàng)非常重要的研究課題,原因就在于模型巨大的成本和算力需求;因此,怎么把模型小型化就成為一個(gè)亟待解決的問題。

因此,一項(xiàng)技術(shù)就被應(yīng)用于模型小型化的過程,這個(gè)技術(shù)就叫做知識(shí)蒸餾,而我們平常說的比較多的是大模型蒸餾技術(shù)。

當(dāng)然,知識(shí)蒸餾技術(shù)并不是一項(xiàng)新技術(shù),其在2015年就已經(jīng)被諾貝爾獎(jiǎng)獲得者——Hinton等人提出;之后在chatGPT帶火大模型技術(shù)之后,知識(shí)蒸餾就又再次進(jìn)入大眾的視野。

但如果說知識(shí)蒸餾最爆火的原因就在于DeepSeek的發(fā)布,我們都知道DeepSeek是我國的模型之光;而其解決的最主要的問題就模型的訓(xùn)練成本問題;但可能很少有人知道,其實(shí)DeepSeek是使用知識(shí)蒸餾技術(shù),從阿里的千問系列蒸餾得到的DeepSeek模型。

大模型蒸餾技術(shù)的演進(jìn)歷史與實(shí)現(xiàn)原理-AI.x社區(qū)


所以,什么是蒸餾技術(shù),以及蒸餾技術(shù)的發(fā)展歷史與實(shí)現(xiàn)原理是什么?

蒸餾技術(shù)

蒸餾技術(shù)是由諾獎(jiǎng)得主——Hinton在2015年提出的,但嚴(yán)格來說Hinton只是在前人的基礎(chǔ)之上優(yōu)化了蒸餾技術(shù)。

蒸餾技術(shù)——現(xiàn)在對蒸餾技術(shù)的定義是教師模型(大模型)通過訓(xùn)練數(shù)據(jù)學(xué)到的“知識(shí)”(如類別間關(guān)系、特征分布)被提煉到學(xué)生模型(小模型)中。

簡單理解蒸餾技術(shù)就是老師教學(xué)生,在蒸餾技術(shù)之前,訓(xùn)練模型需要從0開始;也就是需要隨機(jī)初始化模型參數(shù);這就類似于你從小開始學(xué)習(xí)全部靠自學(xué),沒有任何人教你。

大模型蒸餾技術(shù)的演進(jìn)歷史與實(shí)現(xiàn)原理-AI.x社區(qū)

很明顯,這種方式學(xué)習(xí)效率低下;因此,就產(chǎn)生了一個(gè)新的職業(yè)——教師;它們的作用就是在他們自己學(xué)習(xí)的基礎(chǔ)之上,把知識(shí)和經(jīng)驗(yàn)教給你,這樣不論是學(xué)習(xí)的速度還是效率,還是準(zhǔn)確率都會(huì)大大提高。

而模型蒸餾就是基于這個(gè)理論,用訓(xùn)練好的大模型去“教”簡單的小模型;由于是站在巨人的肩膀上,因此蒸餾出來的小模型不論是表現(xiàn)還是響應(yīng)速度都比大模型要好。

當(dāng)然,蒸餾技術(shù)作為目前一項(xiàng)熱門技術(shù),其實(shí)現(xiàn)原理并沒有大家想象中的那么簡單;首先,在2015 Hinton提出知識(shí)蒸餾之前,模型蒸餾已經(jīng)有人在使用了;只不過那時(shí)候的蒸餾技術(shù)還比較簡單,只是在輸出層對模型的預(yù)測結(jié)果進(jìn)行學(xué)習(xí);這種方式被稱為硬目標(biāo)。

這就像上學(xué)時(shí)有時(shí)老師說的那樣,你實(shí)在不會(huì)記住就行了,不需要知道為什么;但這就會(huì)產(chǎn)生一個(gè)問題,那就是你只能學(xué)會(huì)同一個(gè)題目或者是很類似的題目,但換個(gè)新題目你可能就不會(huì)了。

所以,老師常說我們不但要學(xué)會(huì)知識(shí),更重要的是要學(xué)會(huì)學(xué)習(xí)的方法——因此Hinton提出的知識(shí)蒸餾就類似于學(xué)習(xí)方法,它學(xué)習(xí)的是大模型預(yù)測數(shù)據(jù)的概率分布或思考過程,而不僅僅只是記住答案;而這種方式就被叫做軟目標(biāo)。

以目前的蒸餾技術(shù)來看,蒸餾也分為多種不同的情況;比如輸出層蒸餾,中間層蒸餾和自蒸餾等多種不同的形式;但不論什么形式的蒸餾,其目的只有一個(gè),那就是讓student模型去學(xué)習(xí)Teacher老師模型的“知識(shí)”。

大模型蒸餾技術(shù)的演進(jìn)歷史與實(shí)現(xiàn)原理-AI.x社區(qū)


實(shí)現(xiàn)原理

知識(shí)蒸餾的實(shí)現(xiàn)原理主要包括兩個(gè)方面,知識(shí)遷移和軟標(biāo)簽:

知識(shí)遷移:教師模型(大模型)通過訓(xùn)練數(shù)據(jù)學(xué)到的“知識(shí)”(如類別間關(guān)系、特征分布)被提煉到學(xué)生模型(小模型)中。

軟標(biāo)簽(Soft Labels):教師模型輸出的概率分布(非硬標(biāo)簽)包含更多信息,例如“貓和狗有相似特征”,學(xué)生模型通過模仿這些軟標(biāo)簽學(xué)習(xí)泛化能力。

模型蒸餾使用溫度T來控制軟標(biāo)簽的相關(guān)性,溫度越高,軟標(biāo)簽的相關(guān)度越高,溫度越低軟標(biāo)簽相關(guān)度越低。


本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/IsKykTm39Oq5J_aaaoYvhw??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-5-9 06:31:40修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 中文字幕在线播放第一页 | 日韩精品在线播放 | 亚洲精品久久久久久久久久久久久 | 综合色导航 | 综合久久亚洲 | 久久久综合网 | 99热成人在线 | 日韩一区二区三区在线观看 | av网站免费在线观看 | 欧美高清一区 | 久久久久久久久久久久久久av | 一级毛片播放 | 亚洲首页 | 一区二区激情 | 玖玖色在线视频 | 综合久久av | 国产在线视频一区 | 99精品免费久久久久久久久日本 | 久久久久久久久久久久91 | 亚洲精品九九 | 亚洲精品视频在线看 | 成人精品鲁一区一区二区 | 久久久蜜桃 | 国产午夜精品视频 | 日韩国产在线 | 91视频大全 | 亚洲精品乱码久久久久久按摩 | 精品久久电影 | av成年人网站 | 欧美视频三区 | 成人黄视频在线观看 | 日韩精品一区二区三区视频播放 | 操久久 | 日韩av免费在线电影 | 亚洲欧美日韩国产 | av毛片| 久久综合一区二区三区 | 日韩一区二区三区视频 | www.成人在线视频 | 色在线视频网站 | 天天草天天射 |