成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型架構創新已死?

人工智能
大模型的架構創新,可能早就死了。好比烤鴨這道菜的菜譜公開之后,核心方法和步奏,都已經被固定了。所以如果的大模型研發,都無法再在架構層面另起爐灶……那自研國產大模型,研它還能有啥用?

一場圍繞大模型自研和創新的討論,這兩天在技術圈里炸了鍋。

起初,前阿里技術VP賈揚清,盆友圈爆料吐槽:有大廠新模型就是LLaMA架構,但為了表示不同,通過改變開源代碼名字、替換幾個變量名……

一石激起千層浪,更晚一些時候,“大廠”被與零一萬物關聯,其剛發布的新模型Yi-34B被指與LLaMA架構如出一轍。

零一萬物很快給出了說明和回應。但熱議并未就此平息,甚至圍繞大模型原創、自研的標準,開始被更進一步爭論。

而初步激辯中指向的結論——冷峻又真實:

大模型的架構創新,可能早就死了。

好比烤鴨這道菜的菜譜公開之后,核心方法和步奏,都已經被固定了。

所以如果的大模型研發,都無法再在架構層面另起爐灶……那自研國產大模型,研它還能有啥用?

爭議

就在近日,賈揚清的吐槽,迅速火上了海外技術社區熱搜。

并且很快,零一萬物就被關聯起來。

圖片

因為就在Yi-34B首次推出后,迅速橫掃了各項中英文評測榜單,在英文領域也超越了Llama-2 70B和Falcon-180B等一眾大尺寸大模型……一時風頭無兩、木秀于林。

賈揚清爆料之后,一封Hugging Face的郵件也對外曝光了,郵件核心內容,就是Yi模型與已經開源的LLaMA架構上存在重合,雖然張量命名不同,但按照開源社區的規則和規范,需要作出調整。

這也成為外界對于零一萬物和Yi-34B模型自研性的質疑所在。

零一萬物很快給出了說明和回應,核心有兩點:

第一,Yi模型確實沿用了公開的架構,但和LLaMA一樣,都基于的是GPT成熟結構。

第二,大模型的研發中,模型結構只是模型訓練的一部分,還有包括數據工程、訓練方法、baby sitting(訓練過程監測)的技巧、hyperparameter設置、評估方法以及對評估指標在內的核心技術挑戰和能力……在大量訓練實驗過程中,由于實驗執行需求對代碼做了更名,所以處于尊重開源社區的反饋,將代碼進行更新,也為更好融入Transformer生態。

零一的回應,有人表示理解,比如開源社區領袖Stella Biderman,就認為說誰抄襲LLaMA是無稽之談,因為所有做大模型研發的團隊,現在都幾乎“華山一條路”了。

圖片

但更多的激辯,還在持續。

激辯

辯論的核心話題,開始不斷指向——如何定義大模型的創新?創新的標準該是什么?

在一則廣為流傳的群聊記錄中,大模型領域知名“布道者”符堯博士,提出了現狀和困惑。

他認為大模型主流架構,就是一個“天下詩歌不斷抄”的過程。LLaMA的架構抄的Chinchilla,chinchilla抄的Gopher,Gopher抄的GPT3……每個都是一兩行的改動。

而且在Hugging Face上,架構一模一樣但名字不同的模型比比皆是……

但需要強調的是,大模型的創新或不同,核心應該關注的是訓練方法和數據配比——而這些并不會反映在架構上。

以及如果嚴格來論,目前國內的自研大模型,不論是零一萬物的Yi,還是百川智能的Baichuan,或者阿里旗下的通義千問,架構上和LLaMA都是一致的。

大模型的創新,看架構沒有意義。

另一則廣為流傳的討論,來自猴子無限的尹伯昊,他表示自己親手玩過各類模型,自己也大模型從業,可以說說自己的看法。

第一,目前使用LLaMA架構已經是開原模型的最優解。因為LLaMA開源大模型已經實現了斷崖式領先,有了大量工具鏈。國內外各種大模型的預訓練,也都是保持了相同或相似的架構。

第二,相同的架構可以做出完全不同的模型,因為大模型的訓練是一個充分的系統工程,考察的因素有很多,最后的能力和效果也與這個系統工程息息相關。

但尹伯昊也強調,大模型創業者沒必要因為自研ego作祟,就不強調使用已有框架。

從現在的趨勢來看,開源大模型生態的發展,其實有統一的架構,對于業內更多開發者的切換利大于弊。

實際上,上述圈內人的發言,也在進一步揭露大模型的現狀和真相:

大模型架構創新,早就結束了。

大模型架構創新已死?

如果從大模型社區長期的發展過程來看,我們不難發現一種趨勢——向通用化收攏。

因為基本上國際主流大模型都是基于Transformer的架構;而后對attention、activation、normalization、positional embedding等部分做一些改動工作。

簡而言之,Transformer這個架構似乎已然是固定的狀態。

有圈內團隊舉例,好比讓不同的廚師都去做北京烤鴨,原材料和步驟定然是大同小異的(架構);而最終決定誰做出來的北京烤鴨更好吃,區別更多的是在于廚師本身對火候、烹調技術的掌握(數據參數、訓練方法等)。

而這種討論,幾乎也打破了圈外對于熱潮中“大模型創新”、“國產大模型”的某些期待,認為大模型的研發,可以完全另起爐灶。

事實是,架構層面,早就幾近定型了。

OpenAI用GPT-3徹底點燃了大模型架構基礎,LLaMA在GPT基礎上作出了總結并且對外開源,其后更多的玩家,沿著他們的藩籬前行。零一萬物在最新的聲明中也表示,GPT/LLaMA 的架構正在漸成行業標準。

這種事實,也讓更多圍觀這場爭議和討論的人聯想到智能手機的系統往事。

當時iPhone發布,帶來了閉源的iOS。

其后開源陣營中,Android在谷歌的大力扶植中上位,成功成為開源世界的第一名,并在其后真正成為了幾乎“唯一的一個”。

所以GPT和LLaMA,是不是就是iOS和Android的重演?

然而區別于手機操作系統,國產大模型或許還會有不同。

正如在討論中,大模型創新被強調的訓練方法、數據配比,以及更加重要的開發者生態。

iOS和Android之時,完全是太平洋東岸的獨角戲。

但現在,大模型熱潮中,國產玩家其實面臨機遇,如果能在初期就能被全球開發者認可,那最后獲得話語權和更長遠定義權的,一定是生態最強的那個玩家。

責任編輯:姜華 來源: 量子位
相關推薦

2013-03-14 10:10:14

硅谷創新利潤

2019-02-22 08:00:00

Lambda架構IOTA

2011-05-11 09:01:29

面向對象技術函數式語言

2023-02-06 07:37:29

Java編程語言

2022-09-15 10:44:42

SidecarIstioeBPFizer

2011-01-07 10:18:28

RSSWeb

2014-01-06 09:36:53

IT部門BYODBYOA

2012-02-20 10:12:09

Java

2011-08-25 09:55:30

IBMPC大型機

2017-01-22 08:08:59

硬件科技新聞早報新聞解讀

2015-08-31 10:59:22

2011-12-07 10:20:19

Email新聞

2021-01-19 10:58:15

漏洞管理漏洞數據泄露

2013-01-31 17:23:20

RIM黑莓BB10

2024-09-03 09:31:59

2020-02-19 11:35:21

iPhone越獲PP助手

2021-04-19 08:17:42

MesosKubernetesLinux

2020-02-29 15:18:10

DevOpsNoOps運維

2015-07-08 09:56:07

云數據中心

2020-12-15 10:40:14

CentOSRockyLinux
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区四区国产 | 日韩一区二区在线观看视频 | 国产精品爱久久久久久久 | 亚洲一区视频在线 | 罗宾被扒开腿做同人网站 | 91伊人网| 欧美日韩一区二区在线观看 | 亚洲一区在线播放 | 中文字幕不卡视频在线观看 | 97caoporn国产免费人人 | 免费久久网| 成人伊人 | 亚州精品天堂中文字幕 | 亚洲一区二区三区免费 | 久久久91精品国产一区二区三区 | 久久久久一区 | 日日av| 99久久久久 | 精品国产三级 | 欧美日韩在线成人 | 国产成人在线视频免费观看 | 97伦理影院| 亚洲男人天堂网 | 黄网站免费在线看 | 久久99精品国产自在现线小黄鸭 | 日韩成人免费在线视频 | 色姑娘综合网 | 精品国产一区二区久久 | 日韩羞羞| 亚洲精品68久久久一区 | 亚洲精品乱码久久久久久蜜桃 | 欧美在线视频一区二区 | 国产小视频在线 | 亚洲欧美日韩精品久久亚洲区 | 久久久精品一区二区三区 | 国产一区在线免费观看视频 | www4虎| 久久亚洲一区二区 | 亚洲免费精品 | 日韩视频二区 | 中文字幕一区二区三区精彩视频 |