一文盤點2023人工智能進展,不止大模型而已
2023年大模型千帆競發(fā),除此外AI領域還有哪些新突破?
來來來,暢銷書《Python機器學習》作者Sebastian Raschka的年末總結已經(jīng)準備好了。
看完才知道:
RLHF今年雖然爆火,但實打實用到的模型并不多,現(xiàn)在還出現(xiàn)了替代方案,有望從開源界“出圈”;
大模型透明度越來越低,透明度最高的是Llama 2,但得分也僅有54;
開源模型下一步不一定是“更大”,混合專家模型(MoE)可能是個突破點。
……
除了大語言模型,Sebastian Raschka還根據(jù)CVPR 2023打包了計算機視覺進展,最后還講到了AI當前的一些局限性、以及對2024年的技術預測。
走過路過的網(wǎng)友們紛紛表示總結得很到位:
△機器翻譯,僅供參考
下面我們一起來看看這份年度總結里都有啥。
2023 AI爆點:大語言模型
今年,大模型領域似乎沒有出現(xiàn)實質性的創(chuàng)新技術,更多是基于去年的擴展:
- ChatGPT(GPT-3.5)升級到GPT-4
- DALL-E 2升級到DALL-E 3
- Stable Diffusion 2.0升級到Stable Diffusion XL
……
但學界業(yè)界依舊忙得熱火朝天,一些新趨勢、新內容總結如下——
重要AI模型論文信息量驟減
首先,是業(yè)界研究者在論文中公開的研究細節(jié)越來越少。
OpenAI此前在GPT-1、GPT-2、GPT-3、InstructGPT的論文中,還詳盡披露了模型架構和訓練過程;
但從GPT-4開始,OpenAI完全不提構建過程。
唯一不知真假的GPT-4架構信息,來源于坊間傳聞:
GPT-4是由16個子模塊構成的混合專家(MoE)模型,每個子模塊擁有高達1110億參數(shù)……
Meta亦是如此,在第一篇Llama論文中詳細闡述了訓練數(shù)據(jù)集,但Llama 2完全沒提相關內容。
即便如此,Llama 2已經(jīng)是一眾大模型中最公開的了。斯坦福大學最近發(fā)布了一項關于大模型透明度指數(shù)的研究,Llama 2得分54,透明度排第一,GPT-4得分48,排第三。
雖然模型細節(jié)算是公司商業(yè)機密,但Sebastian Raschka認為這種趨勢還是值得關注,因為它似乎會在2024持續(xù)。
大模型開卷上下文長度
今年大語言模型的另一個趨勢是擴展輸入的上下文長度。
此前GPT-4上下文長度還是32k時,競品Claude 2就將上下文推進到100k tokens,且支持PDF文件輸入。
隨后GPT-4大更新,新版本GPT-4 Turbo刷新上下文長度紀錄,已支持128k tokens。
一些編程工具,如GitHub Copilot,也在不斷增加上下文窗口長度。
開源大模型比拼“小而美”
用更小的模型比肩大模型的性能,是開源圈的“新玩法”。
目前,多數(shù)現(xiàn)有開源大模型仍然是純文本模型。
這些模型研究重點之一,是用小于100B參數(shù)的“小模型”對標GPT-4的文本處理能力。
甚至出現(xiàn)了很多可以單GPU運行的小模型,例如1.3B的phi1.5、7B的Mistral、7B的Zephyr。
Sebastian Raschka認為,開源模型的下一個突破點不一定是“更大”,或許MoE也可能把開源模型提升到新的高度。
這么做可能是考慮硬件資源成本、數(shù)據(jù)量、開發(fā)時間等因素。
但也有值得關注的開源多模態(tài)大模型,例如10月17日剛發(fā)布的Fuyu-8B。
Fuyu-8B在處理圖像時,直接將圖像切成小塊,然后把這些小塊輸入到一個線性投影層,在這一層里面自動學習小塊的向量表示,避免用額外的預訓練編碼器來提取圖像特征,簡化了模型架構和訓練過程。
同時,Llama-Adapter v1、Llama-Adapter v2等微調方法的出現(xiàn),有望將現(xiàn)有的大模型擴展到多模態(tài)領域。
RLHF平替已出現(xiàn)
RLHF(人類反饋強化學習)是大模型最受關注的技術之一,InstructGPT、ChatGPT、Llama 2中都用到了這種訓練方法。
但分析公司stateof.ai發(fā)布的“2023AI現(xiàn)狀報告”中顯示,它還沒有被廣泛運用,可能是因為實現(xiàn)起來比較復雜。目前大多開源項目仍然專注于指令微調。
不過,RLHF的最新替代方案已經(jīng)出現(xiàn):直接偏好優(yōu)化(DPO)。
這一方法由斯坦福大學研究團隊提出。
DPO利用獎勵函數(shù)到最優(yōu)策略之間的映射關系,把強化學習問題轉變成僅需要訓練策略網(wǎng)絡來擬合參考數(shù)據(jù)的問題。
也就是繞過了建模獎勵函數(shù),直接在偏好數(shù)據(jù)上優(yōu)化語言模型。
用上DPO后,模型輸出的質量也優(yōu)于RLHF/PPO。
最近首個用DPO方法訓練的開源大模型已出現(xiàn),來自HuggingFace H4團隊打造的Zephyr-7B,它在一些任務上已超過用RLHF訓練的Llama 2-70B:
Transformer潛在新對手
今年還出現(xiàn)了一些Transformer的替代方案,比如循環(huán)RWKV、卷積Hyena。
這些新的框架主要是用來提高模型效率,當然基于Transformer架構的大語言模型仍是主流。
大模型改變生產(chǎn)方式
大模型除了用來處理文本,也逐漸被用到提升生產(chǎn)力(Microsoft全家桶)和寫代碼(GitHub Copilot)等場景中。
Ark-Invest曾發(fā)布報告預測,編程助手能讓編碼任務的完成時間縮短約55%。
可以肯定,編碼助手將繼續(xù)存在,而且只會變得更好。
這對Stack Overflow(全球知名開發(fā)者問答網(wǎng)站)等平臺意味著什么?
同樣是“2023 AI現(xiàn)狀報告”中,一張StackOverflow與GitHub的網(wǎng)站流量對比圖,可以說明一些問題:
OK,以上就是大模型的一些新進展。
不過對于AI的“另半邊天”計算機視覺而言,在2023年,這個領域也有許多不可忽視的新進展。
計算機視覺怎么樣了?
今年大家都在重點關注大語言模型,但實際上,計算機視覺領域也取得了不少進展,從計算機視覺頂會CVPR 2023中就可以窺見一斑。
今年CVPR 2023共接收了2359篇論文,大多數(shù)研究都集中于以下4個主題,Sebastian Raschka逐個進行了介紹。
視覺Transformer突破限制
先來看看關注度最高的視覺Transformer。
效仿已取得巨大成功的語言Transformer架構,視覺Transformer(ViT)最初在2020年出現(xiàn)。
視覺Transformer原理與語言Transformer類似,是在多頭注意力塊中使用相同的自注意力機制。
不同的是,視覺Transformer不標記單詞,而是標記圖像,同樣能取得不錯的效果,但它一直有一個局限:相對資源密集且效率低于CNN,導致實際應用受阻。
今年在CVPR論文“EfficientViT:Memory Efficient Vision Transformer with Cascaded Group Attention”中,研究人員介紹了一種新的高效架構來解決這一限制——
相比原來的MobileViT,EfficientViT方法最多快了6倍。
主要創(chuàng)新點有兩個,一是全連接層之間的單個內存綁定多頭自注意力模塊,二是級聯(lián)群注意力。
擴散模型又有新玩法
Stable Diffusion讓擴散模型爆火,這類模型所用的方法是:
模型訓練時,逐漸往訓練數(shù)據(jù)中摻入噪聲,直到變成純噪聲。然后再訓練一個神經(jīng)網(wǎng)絡,讓模型反向學習去噪,從噪聲中合成數(shù)據(jù)。
大多數(shù)擴散模型使用CNN架構并采用基于CNN的U-Net。
但今年“All are Worth Words:A ViT Backbone for Diffusion Models”這項研究中,研究人員試圖將擴散模型中的卷積U-Net骨干(backbone)與ViT交換,變成U-ViT。
研究人員評估了新架構,在條件圖像生成任務中,新的U-ViT擴散模型可與最好的GAN相媲美,優(yōu)于其它擴散模型;在文本到圖像生成方面,它優(yōu)于在同一數(shù)據(jù)集上訓練的其它模型。
3D重建新方法擊敗NeRF
3D重建是計算機視覺的研究重點之一,在3D掃描、虛擬現(xiàn)實、增強現(xiàn)實、電影和視頻游戲中的3D建模和動作捕捉中都有運用。
今年SIGGRAPH 2023最佳論文中,有一篇被稱為三維重建領域“爆炸性”新技術——Gaussian Splatting(高斯濺射)。
一舉突破NeRF與之前的渲染引擎難兼容、需要專門設計硬件、渲染開銷的老大難問題。
這種方法的核心是使用3D高斯作為場景表示,通過優(yōu)化各向異性協(xié)方差矩陣來表示復雜場景。
論文還提出了交錯的3D高斯參數(shù)優(yōu)化和自適應密度控制方法,設計了快速、可微分的GPU柵格化方法,支持各向異性斑點,并實現(xiàn)快速反向傳播,可以達到高質量的新視圖合成,而且實現(xiàn)了首個1080p分辨率下的實時渲染。
只用很少的訓練時間,Gaussian Splatting可以達到InstantNGP的最高質量,訓練51分鐘,性能甚至比Mip-NeRF360要好。
最近,華中科技大學&華為研究團隊又繼續(xù)提出了4D Gaussian Splatting。
4D Gaussian Splatting實現(xiàn)了實時的動態(tài)場景渲染,同時可保持高效的訓練和存儲效率。
在RTX 3090 GPU上,4D Gaussian Splatting以800×800分辨率達到70 FPS的性能,同時保持了與之前的最先進方法相媲美甚至更高的質量水平。
這項研究一出,網(wǎng)友沸騰直呼:
徹底改變三維重建。
當然,Sebastian Raschka也分享了CVPR上一些NeRF(Neural Radiance Fields)方法的新進展。
NeRF主要是通過訓練神經(jīng)網(wǎng)絡來學習場景中每個點的顏色和密度,然后使用這些信息來生成逼真的3D場景渲染圖像。
但NeRF有一個缺點是:有光澤的物體通??床磺澹胪该魑矬w的顏色也很模糊。
在“ABLE-NeRF:Attention-Based Rendering with Learnable Embeddings for Neural Radiance Field”這項研究中,研究人員通過引入基于自注意力的框架和可學習的嵌入解決這一問題,并提高了半透明和光澤表面的視覺質量。
目標檢測和分割
目標檢測和分割是經(jīng)典的計算機視覺任務。
這兩個任務還是有區(qū)別的,目標檢測是關于預測邊界框和相關標簽,分割是對每個像素進行分類,來區(qū)分前景和背景。
△目標檢測(左)和分割(右)
此外還可以細分為語義分割、實例分割、全景分割三個類別。
一項名為“Mask DINO:Towards A Unified Transformer based Framework for Object Detection and Segmentation”的研究,擴展了DINO方法。
Mask DINO性能優(yōu)于所有現(xiàn)有的物體檢測和分割系統(tǒng)。
DINO是一種帶有改進去噪錨盒的DETR,而DETR是Facebook AI提出的一種端到端目標檢測模型,它使用了Transformer架構,提供了一種更簡單靈活的目標檢測方法。
AI局限&展望未來
雖然AI領域這一年來取得了諸多進展,但依舊存在一些局限性,主要包括以下幾點:
1、大模型幻覺
大語言模型依然存在著生成有毒內容和幻覺的問題。
今年出現(xiàn)了不少解決方案,包括RLHF和英偉達推出的NeMO Guardrails等,但這些方案要么難實施,要么處理得不到位。
目前為止,還沒有找到一個可靠的方法,既能解決這一問題又不損害大模型的正向性能。
2、版權爭議
與此同時,AI領域版權爭議日益嚴峻。
各大模型廠商沒少被起訴,之前開源數(shù)據(jù)集Books3也因侵權問題慘遭下架,Llama、GPT-J等都用它訓練過。
總的來看,很多相關規(guī)定還在起草和修改過程中。
3、評估標準不統(tǒng)一
學術研究領域,基準測試和排名榜單可能已經(jīng)失效是個問題。
用于測試的數(shù)據(jù)集可能已經(jīng)泄露,成為了大語言模型的訓練數(shù)據(jù)。
雖然通過詢問人類偏好來評估大模型的效果是一個普遍的方法,但這種方式較為復雜。
還有許多研究報告使用GPT-4來評估。
4、收益尚不明確
生成式AI還在探索階段,雖然無論是文本還是圖像生成工具,在特定場景下確實能給人們提供幫助。
但這些工具是否真的能給公司帶來收益,尤其是在高昂的運行成本面前,業(yè)界還在激烈討論。
有報道稱,OpenAI去年的運營虧損了5.4億美元。直到最近又有消息指出,OpenAI現(xiàn)在每月能賺取8000萬美元,有望彌補或甚至超出它的運營開支。
5、虛假圖像泛濫
生成式AI帶來的另一個問題是假圖片和視頻在社交媒體泛濫。
這個問題由來已久,PS等工具也能,而AI技術簡易快捷,正在將此現(xiàn)象推向一個新的高度。
目前也有其它AI系統(tǒng)嘗試自動識別AI產(chǎn)生的內容,但無論是文本、圖片還是視頻,這些系統(tǒng)的可靠性都不高。
6、數(shù)據(jù)集稀缺
涉及版權等爭議,不少公司(Twitter/X、Reddit等)關閉了免費的API接入點,這樣做既是為了增加收益,也是為了阻止數(shù)據(jù)采集器搜集平臺數(shù)據(jù)用于AI訓練。
之后一個好的方法可能是,建立一個眾包數(shù)據(jù)集的平臺,編寫、收集和整理那些已經(jīng)明確允許用于LLM訓練的數(shù)據(jù)集。
展望2024,Sebastian Raschka認為大語言模型會在計算機科學之外的STEM研究領域發(fā)揮更大影響。
另一方面,由于高性能GPU緊缺,各大公司紛紛開發(fā)定制的AI芯片,問題關鍵在于怎樣讓這些硬件全面、穩(wěn)定支持主流深度學習框架。
開源界,更多MoE(專家模型)也值得期待,共同創(chuàng)建數(shù)據(jù)集、DPO在開源模型中取代傳統(tǒng)監(jiān)督式微調也都是未來式。
Sebastian Raschka是誰?
Sebastian Raschka于2017年獲得密歇根州立大學博士學位,曾是威斯康星大學麥迪遜分校統(tǒng)計學助理教授。
2022年Sebastian Raschka離職,加入初創(chuàng)公司Lightning AI成為其首席AI教育官。
此外,他還是包括《Python機器學習》在內的多本暢銷書的作者。
他經(jīng)常在自己的AI博客Ahead of AI中總結AI領域的各項研究,已攬獲大波粉絲。