成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

賈揚清:大模型尺寸正在重走CNN的老路;馬斯克:在特斯拉也是這樣

人工智能
在ImageNet時代,研究人員和技術從業者見證了參數規模的快速增長,然后又開始轉向更小、更高效的模型。

Transformer大模型尺寸變化,正在重走CNN的老路!

看到大家都被LLaMA 3.1吸引了注意力,賈揚清發出如此感慨。

拿大模型尺寸的發展,和CNN的發展作對比,就能發現一個明顯的趨勢和現象:

在ImageNet時代,研究人員和技術從業者見證了參數規模的快速增長,然后又開始轉向更小、更高效的模型。

聽起來,是不是和GPT哐哐往上卷模型參數,業界普遍認同Scaling Law,然后出現GPT-4o mini、蘋果DCLM-7B、谷歌Gemma 2B如出一轍?

賈揚清笑稱,“這是前大模型時代的事兒,很多人可能都不咋記得了:)”。

圖片圖片

而且,賈揚清不是唯一一個感知到這一點的人,AI大神卡帕西也這么覺得

大模型尺寸的競爭正在加劇……但是卷的方向反著來了!

模型必須先追求“更大”,然后才能追求“更小”,因為我們需要這個過程,幫咱把訓練數據重構成理想的、合成的格式。

他甚至拍著胸脯打賭,表示我們一定能看到又好、又能可靠地思考的模型。

而且是參數規模很小很小的那種。

圖片圖片

連馬斯克都在卡帕西的評論區連連稱是:

圖片圖片

以上,大概可以稱之為“大佬所見略同”。

展開說說

賈揚清的感慨,要從只在最強王座上短暫待了一天的LLaMA 3.1說起。

那是首次實現“最強開源模型=最強模型”,不出意外,萬眾矚目。

However,賈揚清在這個時候提出了一個觀點:

“但我認為,行業會因小型垂直模型而真正蓬勃發展。”

至于啥是小型垂直模型,賈揚清也說得很清楚,比如以Patrouns AI的Iynx(該公司的幻覺檢測模型,在幻覺任務上超過GPT-4o)為代表的那些很棒的中小模型。

圖片圖片

賈揚清表示,就個人喜好而言,他本人是非常喜歡千億參數模型的。

但現實情況里,他觀察留意到,7B-70B參數規模之間的大模型,大家用起來更順手:

  • 它們更容易托管,不需要巨大的流量即可盈利;
  • 只要提出明確的問題,就能得到質量還不錯的輸出——與和之前的一些看法相反。

與此同時,他聽說OpenAI最新的、速度很快的模型也開始變得比“最先進的”大模型尺寸更小。

“如果我的理解是正確的,那么這絕對表明了行業趨勢?!辟Z揚清直接表明了自己的觀點,“即在現實世界中,使用適用的、具有成本效益、且仍然強大的模型。”

于是乎,賈揚清簡單梳理了CNN的發展歷程。

首先,是CNN的崛起時代。

以AlexNet(2012)為起點,開啟了大約三年的模型規模增長時期。

2014年出現的VGGNet就是一個性能和規模都非常強大的模型。

其次,是縮小規模時期。

2015年,GoogleNet把模型大小從“GB”縮小到了“MB”級別,即縮小了100倍;但模型性能并沒有因此驟減,反而保持了不錯的性能。

遵循類似趨勢的還有2015年面世的SqueezeNet模型等。

然后的一段時間,發展重點在追求平衡。

后續研究,如ResNet(2015)、ResNeXT(2016)等,都保持了一個適中的模型規模。

值得注意的是,模型規模的控制并沒有帶來計算量的減少——其實,大伙兒都愿意投入更多的計算資源,尋求一種“同等參數但更高效”的狀態。

緊接著就是CNN在端側起舞的一段時期。

舉個例子,MobileNet是谷歌在2017年推出的一項有趣的工作。

有趣就有趣在它占用的資源超級少,但是性能卻非常優異。

就在上周,還有人跟賈揚清提到:“Wow~我們現在還在用MobileNet,因為它可以在設備上運行,而且在出色的特征嵌入泛化(Feature Embedding Generality)?!?/p>

最后,賈揚清借用了來源于Ghimire等人的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的一張圖:

圖片圖片

并再一次發出自己的疑問:

大模型尺寸,會遵循與CNN時代相同的趨勢來發展嗎?

網友怎么看?

其實GPT-4o mini這樣走在大模型發展道路上“不大反小”的例子不在少數。

當上述幾位表達出這樣的觀點后,立馬有人點頭如搗蒜,還拿出了一些別的類似例子,證明他們看到了相同的趨勢。

有人立馬跟上:

我這兒有個新的正面例子!Gemma-2就是把27B參數大小的模型知識蒸餾成更小的版本。

圖片圖片

還有網友表示,開發更大的模型,意味著能給后續幾代更小、更垂直的模型的訓練“上強度”。

這個迭代過程最終會產生所謂的“完美訓練集”。

這樣一來,較小的大模型在特定領域,能與現在參數巨大的大模型一樣聰明,甚至更聰明。

一言以蔽之,模型必須先變大,然后才能變小。

圖片圖片

大多數討論此觀點的人,還是對這個趨勢比較認同,有人直言“這是一件好事,比‘我的模型比你的模型大’參數競賽更實用和有用?!?/p>

但是,當然了!

翻遍網絡評論區,也有人發出不同的聲音。

比如下面這位朋友就在賈揚清推文底下留言:

Mistral Large(背后公司Mistral AI)、LLaMA 3.1(背后公司Meta)和OpenAI,持有最強競爭力模型的公司,目前可能都正在訓練更大的模型。

我沒發現有“更小型號模型搞定技術突破”的趨勢喲。

圖片圖片

面對這個問題,賈揚清倒也及時回復了。

他是這么說的:“沒錯!我說大模型尺寸可能在走CNN的老路,絕對不意味著號召大家停止訓練更大的模型。”

他進一步解釋道,這么說的本意是,隨著技術(包括CNN和大模型)落地實踐越來越廣,大家已經開始越來越關注性價比更高的模型了。”

所以,或許更高效的小·大模型,能夠重新定義AI的“智能”,挑戰“越大越好”的假設。

你贊同這個觀點不?

參考鏈接:
[1]https://x.com/jiayq/status/1818703217263624385

[2]https://x.com/fun000001/status/1818791560697594310

[3]https://www.patronus.ai/

[4]https://twitter.com/karpathy/status/1814038096218083497

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-04-07 11:25:54

2023-03-15 16:09:44

2022-12-15 17:26:16

2020-08-31 12:01:43

網絡攻擊惡意軟件網絡安全

2021-05-18 10:10:01

自動駕駛數據人工智能

2023-02-20 15:12:50

特斯拉自動駕駛

2024-03-06 11:34:46

馬斯克ChatGPT無人駕駛

2024-01-26 13:18:00

AI訓練

2024-07-19 09:59:31

2024-03-18 14:17:06

大模型開源人工智能

2021-12-03 09:38:39

特斯拉自動駕駛技術

2021-11-24 10:56:04

特斯拉自動駕駛技術

2023-12-28 17:15:07

2021-01-12 15:20:39

AI 數據人工智能

2023-10-27 11:04:57

2023-03-22 13:58:59

離職阿里巴巴

2019-02-23 14:46:54

馬斯克自動駕駛無人駕駛

2023-12-08 12:58:26

2022-01-23 10:53:47

星鏈互聯網衛星

2023-05-17 10:05:58

馬斯克推特
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久久久久久久免费看 | 黄色国产视频 | 欧美色性 | 国产真实乱全部视频 | 久久久久久成人 | 狠狠色综合久久婷婷 | 精品九九| 国产欧美一区二区三区久久 | 久久国产精品偷 | 美女福利网站 | 成人性视频免费网站 | 国产亚洲精品精品国产亚洲综合 | 国产成人精品一区二区三区 | 99精品国自产在线观看 | 国产成人精品综合 | 久久人人网 | 日韩看片 | 成人国产精品免费观看 | 人人干视频在线 | 国产亚洲精品久久午夜玫瑰园 | 国产二区av | 成人精品毛片国产亚洲av十九禁 | 成人午夜在线 | 国产东北一级毛片 | 欧美精品久久久久 | 亚洲精品乱码8久久久久久日本 | 91精品一区二区三区久久久久久 | www.蜜桃av| 久久99精品久久久水蜜桃 | 精品国产综合 | 羞羞视频网 | 亚洲免费久久久 | 久久一本| 日韩一区二区三区在线 | 欧美一级做a爰片免费视频 国产美女特级嫩嫩嫩bbb片 | 中文字幕免费在线 | 久久久久久久国产 | 欧美日韩不卡 | 国产精品久久久久久久一区探花 | 欧美激情精品久久久久久 | 99精品免费 |