鯰魚效應(yīng):DeepSeek打開了AI大模型新序幕,未來大模型技術(shù)的方向選擇
從2024年12月份DeepSeek發(fā)布了DeepSeek V3開始,整個AI圈內(nèi)就掀起了一波技術(shù)創(chuàng)新式浪潮,核心的因素在于一家在2023年剛注冊成立的初創(chuàng)企業(yè)所發(fā)布的第一個正式版本模型就直接對標(biāo)了OpenAI閉源的GPT-4o以及Claude-3.5-Sonnet,更重要的是其訓(xùn)練階段的成本只有不到600萬美元,是什么概念?
在這之前,普遍的訓(xùn)練成本都在千萬甚至于上億美元的成本支出,突然出現(xiàn)預(yù)訓(xùn)練大模型在性能上比肩目前最強(qiáng)的GPT-4o,成本上比GPT-4o要節(jié)約十幾倍,關(guān)鍵在于它還是完全開源的,而GPT-4o的是收費(fèi)且技術(shù)是閉源的,并且目前還沒有哪一個模型能夠做到類似于GPT-o1的推理能力,2025年1月20日DeepSeek-R1的發(fā)布無疑是打破了這一技術(shù)壁壘,讓整個AI技術(shù)領(lǐng)域重新點(diǎn)燃的了新的希望。
在GPT-4上線的時候,當(dāng)時大模型領(lǐng)域內(nèi)眾多的大語言模型都在做預(yù)訓(xùn)練模型,也就是說需要不斷的采集數(shù)據(jù),從各方收集數(shù)據(jù),然后將數(shù)據(jù)“喂給”大模型,以達(dá)到大模型在多種領(lǐng)域內(nèi)實(shí)現(xiàn)相關(guān)的思維能力,在預(yù)訓(xùn)練階段需要依賴源源不斷的超大規(guī)模數(shù)據(jù),以及大模型的開發(fā)基本上是以CUDA編程來進(jìn)行實(shí)現(xiàn)的。
在此之前幾乎沒有人挑戰(zhàn)過說繞開CUDA的高級編程方式,而從更加底層的角度來重寫CUDA的很多低級API(也就是PTX編程),放在編程領(lǐng)域內(nèi)可以理解為:在編寫應(yīng)用程序時有很多高級編程語言例如Java、Python、C#、Golang,但是考慮到很多高級語言所帶來的性能損耗,例如內(nèi)存管理、通信機(jī)制、CPU調(diào)度等等方面的問題,而選擇使用原始的C語言或者二進(jìn)制編程的方式來重新實(shí)現(xiàn)一套語言之下的內(nèi)存、CPU、通信管理機(jī)制。
一出道就站在C位,核心要素算法創(chuàng)新、性能表現(xiàn)、開源屬性
DeepSeek可以說一出道就直接站在了C位,受到了整個行業(yè)甚至于全球關(guān)注,春節(jié)期間無論是在那個地方,都能看到關(guān)于AI DeepSeek的種種報(bào)道,國家官方媒體也頻頻的發(fā)文宣傳對于DeepSeek的推廣,普羅大眾從不知道AI,到了解并使用AI,大家再一次的感受到了AI所帶來的不僅僅是一個趨勢性問題而是一場徹徹底底的社會變革,這種變革所帶來的影響力比移動互聯(lián)網(wǎng)的普及程度都更高更快。
相信在過去兩年作為互聯(lián)網(wǎng)圈內(nèi)的朋友都接觸過很多不同的AI產(chǎn)品,在這兩三年中整個全球AI技術(shù)的風(fēng)向標(biāo)一直是以GPT為首,無論是最開始的GPU-3發(fā)布,還是GPT-4o或者sora的發(fā)布,都對整個行業(yè)帶來了極大的影響,但DeepSeek這波可以說是引領(lǐng)級別的,什么概念?但凡DeepSeek的技術(shù)創(chuàng)新是在GPT其他產(chǎn)品中,都不足以撼動那么大的波浪,而由于中國本地技術(shù)創(chuàng)新所帶來的AI前沿科技能力,在如今的形勢下,毫無疑問是一場階段性的勝利,當(dāng)然,技術(shù)是無國度的,但是,身為國人就是自豪。
推理模型的技術(shù)瓶頸被拉開了新的序幕
在目前的大模型種類可以分為三類:基座大模型、推理模型、多模態(tài)模型,而DeepSeek-V3是DeepSeek最先發(fā)布的一個大模型,V3是一個基座大模型,而后續(xù)發(fā)布的DeepSeek R1則是在DeepSeek V3基礎(chǔ)上的推理模型,DeepSeek-R1-Zero 與 DeepSeek-R1 均基于 DeepSeek-V3-Base 訓(xùn)練,DeepSeek-R1-Distill 版本的模型基于開源模型進(jìn)行微調(diào),使用 DeepSeek-R1 生成的樣本。
推理模型是OpenAI發(fā)布o(jì)1、o3模型開創(chuàng)的新范式,在去年 OpenAI推出o1推理模型預(yù)覽版的時候,推理模型就成為了行業(yè)熱門話題,它和以往問答直接給出答案不同,推理模型會將問題進(jìn)行分解,然后劃分為幾個步驟來解決,這個過程會花費(fèi)幾秒甚至幾十秒來分析回答問題,通過思維鏈的方式來反思自己的分析,本質(zhì)上是自我問答和檢驗(yàn),基于思考的思考,認(rèn)知能力會有一定的提升(這點(diǎn)在最后再聊),這里參考DeepSeek-reasoner會更加直觀。
正如上所說,GPT-o1發(fā)布了推理模型之后,OpenAI對外并沒有公布相關(guān)的技術(shù)細(xì)節(jié)和實(shí)現(xiàn)原理,對于外界來說推理模型的技術(shù)是一個瓶頸口,而DeepSeek可以說是第一個打破了推理模型瓶頸的技術(shù)創(chuàng)新點(diǎn),它跳過了監(jiān)督微調(diào),直接從強(qiáng)化學(xué)習(xí)開始訓(xùn)練。
選擇開源模型,硬剛ChatGPT 4-o1模型,引起國內(nèi)外科技圈的關(guān)注
很多媒體都講到說這是中國人自己研發(fā)的大模型,從各方面都比美國所主導(dǎo)的AI技術(shù)都先進(jìn)一些,是中美之間科技競賽的勝利,但是,我更想說它是開源技術(shù)所帶來的成果,DeepSeek選擇開源其各項(xiàng)數(shù)據(jù)以及相關(guān)論文的理論內(nèi)容,讓原本在預(yù)訓(xùn)練模型中遇到技術(shù)挑戰(zhàn)的人找到了不同的解法,讓原本做AI應(yīng)用的企業(yè)的商業(yè)運(yùn)營成本直線下降,大家可能沒有這種體感,列舉個簡單例子:
很多app產(chǎn)品內(nèi)部集成了不同的AI大模型應(yīng)用,其實(shí)這里有很多都是調(diào)用其它AI大模型的接口,自己產(chǎn)品外部包裝了一層展示界面,然后很多企業(yè)都希望有一個足夠好且精準(zhǔn)的AI大模型來提升產(chǎn)品的質(zhì)量,于是很多都會選擇調(diào)用OpenAI的開放API,但由于OpenAI是按照Token和調(diào)用次數(shù)來收費(fèi)的,這部分收費(fèi)要么用戶出,要么是企業(yè)自己來出,一年少則幾百萬多則幾千萬的投入,而DeepSeek不一樣啊,技術(shù)本身是開源的,并且接口調(diào)用的價(jià)格也極低,很多企業(yè)接入了DeepSeek之后,一年節(jié)約了幾百上萬千,甚至由此盈利了。
這里多插一句,在過去的幾十年里,從信息化時代,到互聯(lián)網(wǎng)時代,再到移動互聯(lián)網(wǎng)我們基本都是跟隨的態(tài)度,底層的核心技術(shù)都是引入的國外廠商或者是國外開源的技術(shù)底座,我們更多的是做應(yīng)用層產(chǎn)品的研發(fā)和技術(shù)運(yùn)營的角色,但近幾年從國家戰(zhàn)略上就提出自主創(chuàng)新、國產(chǎn)化的主張,從芯片制造、數(shù)據(jù)庫技術(shù)、操作系統(tǒng)等等都主張自主研發(fā),這也是為什么很多高科技企業(yè)會受到了西方抵制?他們肯定不希望也接受不了我國的核心技術(shù)能力超過他們,但事實(shí)無數(shù)次證明,抵制是沒有用的,面對13億人口,人才輩出的大國,總有不甘平凡,勇于超越的時代弄潮兒。
未來AI技術(shù)有哪些可能性?
1. 計(jì)算量級和模型性能之間存在冪律關(guān)系可能會被打破
在過去大家都認(rèn)為大模型的訓(xùn)練和所需要的計(jì)算量(也就是GPU的算力和內(nèi)存大小)是有冪律關(guān)系的,也就是說通過增加計(jì)算量,無論是使用更強(qiáng)悍的GPU還是增加更長的訓(xùn)練時間,都可以提高模型的性能,但是事實(shí)證明現(xiàn)在可能不需要那么大的計(jì)算量也可以訓(xùn)練出比較高性能的大模型來。
2. 基于思維鏈的推理模型會越來越多,也就是提示詞工程會弱化
使用過DeepSeek之后就會發(fā)現(xiàn),當(dāng)我們組織一下語言問DeepSeek問題的時候,它不像過去其它的大語言模型直接回答問題,而是基于我們的問題,它自己站在不同的維度來闡述這個問題,再將進(jìn)一步組織之后的問題去問模型本身,過去,大模型回答問題的精準(zhǔn)度很大程度上依賴于提問者的問題,提問的問題越細(xì)化、全面、標(biāo)準(zhǔn),那么回答的就越好,而DeepSeek可以基于我們的問題來發(fā)散思考,這樣得到的答案的精準(zhǔn)度是非常高的。
3. 基于第二點(diǎn),進(jìn)一步聯(lián)網(wǎng)并進(jìn)行全網(wǎng)搜索之后再深度思考能力,也會在今年應(yīng)用落地
在OpenAI新推出的Deep Research模型已經(jīng)具備了聯(lián)網(wǎng)并深度思考能力,但是目前只針對付費(fèi)訂閱以及Web版本進(jìn)行開放,其官網(wǎng)的評測結(jié)果中,準(zhǔn)確率達(dá)到了26%的歷史新高,同時,國內(nèi)的一些大模型也在發(fā)力聯(lián)網(wǎng)深度思考能力,目前看到阿里的通義千問也已經(jīng)具備了聯(lián)網(wǎng)搜索,但是無論是OpenAI或者通義千問 對于聯(lián)網(wǎng)深度思考能力上都處于初期階段。
4. 小模型的性能會越來越好,大模型和小模型會交替學(xué)習(xí)
很多大模型由于訓(xùn)練參數(shù)過多,數(shù)據(jù)集難以維持較大的訓(xùn)練量,可能會出現(xiàn)小模型在大模型上面不斷迭代,會促進(jìn)小模型的性能越來越強(qiáng),而反之,大模型也可能會跟著小模型來學(xué)習(xí)。
5. 特定領(lǐng)域的專有模型將得到飛速發(fā)展,場景落地能力將加快
在過去AI快速發(fā)展的兩年,很多企業(yè)也意識到做大語言模型的成本實(shí)在太高昂,而且整個訓(xùn)練周期以及效果都存在諸多的風(fēng)險(xiǎn),倒不如轉(zhuǎn)入做專用模型,例如做金融領(lǐng)域、醫(yī)療領(lǐng)域、法律領(lǐng)域、教育領(lǐng)域等為中心的專用模型,通過以高度專業(yè)化的方式來實(shí)現(xiàn)更好的商業(yè)化落地。
6. DeepSeek V3所帶來的架構(gòu)創(chuàng)新或許會成為未來主流:MoE、MLA(多頭潛在注意力)、輔助無損負(fù)載均衡和多標(biāo)記預(yù)測訓(xùn)練
在GPT的訓(xùn)練大語言模型過程中,會將所有的資源算力全部調(diào)度起來,全部都用來跑模型訓(xùn)練,這樣模型本身就會變得更“聰明”,但是需要特別巨大的GPU算力資源,而且需要花費(fèi)很多的時間和費(fèi)用成本,而DeepSeek V3 的MoE架構(gòu)則不是,MoE全稱是Mixture of Experts,它是一種“混合專家”模型。
對比GPT而言,它不需要所有的GPU資源全部運(yùn)作起來,而是將任務(wù)切分為很多小的算力需求,而這些任務(wù)整個組合之后就是一個大語言模型所需的整體能力,對于任務(wù)而言,有的專注于語言,有的專注于數(shù)學(xué),有的專注于文學(xué)等等,在訓(xùn)練過程中每個專家都負(fù)責(zé)某幾個任務(wù)的執(zhí)行,其它專家經(jīng)過排序組合之后可以進(jìn)行休息,這樣GPU算力資源就能夠節(jié)省很多,而最終的訓(xùn)練效果也非常不錯(后面單獨(dú)解讀訓(xùn)練部分的邏輯)。
上面基于專家和任務(wù)的分配機(jī)制,內(nèi)部還有一個專用名詞叫MLA(Multi-Head Latent Attention)(多頭潛在注意力),類似于它在閱讀大量的資料之后,首先會歸納重點(diǎn)內(nèi)容,再從多個不同視角去理解內(nèi)容,這樣即節(jié)約時間效率又高。
本文轉(zhuǎn)載自??DataForAI??,作者:易程Date
