2022前展望大模型的未來,周志華、唐杰、楊紅霞這些大咖怎么看?
歲末年初之際,讓我們回顧大模型的過去,展望大模型的未來。
28 日,阿里巴巴達摩院發布 2022 十大科技趨勢。其中,“大模型參數競賽進入冷靜期,大小模型將在云邊端協同進化”的斷言,在 AI 圈備受關注。
2021 是大模型爆發之年,我們見證了大模型的驚艷,但也了解了目前大模型的一些局限,如顯著的高能耗等問題。
達摩院認為,超大規模預訓練模型是從弱人工智能向通用人工智能的突破性探索,解決了傳統深度學習的應用碎片化難題,但性能與能耗提升不成比例的效率問題限制了參數規模繼續擴張。
接下來,人工智能研究將從大模型參數競賽走向大小模型的協同進化,大模型向邊、端的小模型輸出模型能力,小模型負責實際的推理與執行,同時小模型再向大模型反饋算法與執行成效,讓大模型的能力持續強化,形成有機循環的智能體系。
周志華、唐杰、楊紅霞等多位學界、業界代表性專家,對此發表了評論。
大模型接下來會如何發展?歲末年初之際,讓我們回顧大模型的過去,展望大模型的未來。
大小模型將承擔不同角色
南京大學計算機科學與技術系主任兼人工智能學院院長 周志華
大模型一方面在不少問題上取得了以往難以預期的成功,另一方面其巨大的訓練能耗和碳排放是不能忽視的問題。個人以為,大模型未來會在一些事關國計民生的重大任務上發揮作用,而在其他一些場景下或許會通過類似集成學習的手段來利用小模型,尤其是通過很少量訓練來 “復用” 和集成已有的小模型來達到不錯的性能。
我們提出了一個叫做 “學件” 的思路,目前在做一些這方面的探索。大致思想是,假設很多人已經做了模型并且樂意放到某個市場去共享,市場通過建立規約來組織和管理學件,以后的人再做新應用時,就可以不用從頭收集數據訓練模型,可以先利用規約去市場里找找看是否有比較接近需求的模型,然后拿回家用自己的數據稍微打磨就能用。這其中還有一些技術挑戰需要解決,我們正在研究這個方向。
另一方面,有可能通過利用人類的常識和專業領域知識,使模型得以精簡,這就要結合邏輯推理和機器學習。邏輯推理比較善于利用人類知識,機器學習比較善于利用數據事實,如何對兩者進行有機結合一直是人工智能中的重大挑戰問題。麻煩的是邏輯推理是嚴密的基于數理邏輯的 “從一般到特殊”的演繹過程,機器學習是不那么嚴密的概率近似正確的 “從特殊到一般”的歸納過程,在方法論上就非常不一樣。已經有的探索大體上是以其中某一方為倚重,引入另一方的某些成分,我們最近在探索雙方相對均衡互促利用的方式。
站在 2022,展望大模型的未來
清華大學計算機系教授,北京智源人工智能研究院學術副院長 唐杰
2021 年,超大規模預訓練模型(簡稱大模型)成為國際人工智能前沿研究和應用的熱點,發展迅速也面臨系列挑戰。最新發布的《達摩院 2022 十大科技趨勢》將 “大小模型協同進化” 列為 AI 模型發展的新方向,提出“大模型參數競賽進入冷靜期,大小模型將在云邊端協同進化”,值得業界關注。站在年末歲初,讓我們一起回望大模型的 2021,展望它的 2022 和更遠未來。
一、超大規模預訓練模型迅速發展但也面臨系列挑戰
2021 年 8 月,斯坦福大學成立基礎模型研究中心(CRFM)并將 BERT、GPT-3 和 CLIP 等基于大規模數據進行訓練并可以適應廣泛下游任務的模型統稱為 “基礎模型”。雖然這個概念在學術界引起了不少爭議,有學者對于模型是否具有“基礎性” 提出了質疑,但是應該看到,這些模型所表現出的能夠更好處理現實世界復雜性的能力,使得它們變得愈發重要。
產業界持續推動大模型研發,并不斷將模型的規模和性能推向新高。1 月,OpenAI 發布大規模多模態預訓練模型 DALL·E 和 CLIP,谷歌發布 1.6 萬億規模預訓練語言模型 Switch Transformer,10 月,微軟和英偉達發布 5300 億規模的 Megatron-Turing 自然語言生成模型 MT-NLG。另外,大模型應用也在不斷豐富,目前全球基于 GPT-3 的商業應用已有幾百個,隨著近期 GPT-3 全面開放 API 申請和微調功能,GPT-3 應用生態也將加速形成。
2021 年也是我國超大規模預訓練模型發展的“元年”,目前,已有智源研究院、鵬城實驗室、中科院自動化所、阿里、百度、華為、浪潮等科研院所和企業研相繼發出“悟道”、“盤古”、“紫東 · 太初”、M6、PLUG、ERNIE 3.0 等大模型。
雖然國內外超大規模預訓練模型取得了較大進展,但是同時也應認識到,大模型發展還有很多亟待解決的重要問題。例如,預訓練模型的理論基礎尚未明確(如大模型智能的參數規模極限存在嗎),大模型如何高效、低成本的應用于實際系統;其次構建大模型需要克服數據質量、訓練效率、算力消耗、模型交付等諸多障礙;最后目前大部分大模型普遍缺乏認知能力的問題,這也是部分學者質疑這類模型能否被稱為 “基礎模型” 的原因之一。能否通過大模型實現更通用的智能?怎么實現?這些都需要學術界和產業界不斷探索。
二、大模型打造數據與知識雙輪驅動的認知智能
人工智能經過數十年的發展,歷經符號智能、感知智能兩個時代,目前來到第三代人工智能即認知智能的大門口。認知智能不僅要求基于大數據的深度學習及對應的感知識別,還要求機器具有認知和推理能力,要讓機器具備與人接近的常識和邏輯,這就對數據與知識的融合提出了迫切需求。
回顧人工智能的發展,1968 年圖靈獎獲得者 Edward Feigenbaum 研發出世界首個專家系統 DENDRAL;1999 年互聯網發明人、圖靈獎獲得者 Tim Berners-Lee 爵士提出語義網的概念;圖靈獎獲得者 Yoshua Bengio 在 2019 年 NeurIPS 大會的主題報告中指出,深度學習應該從感知為主向基于認知的邏輯推理和知識表達方向發展,這個思想和清華大學張鈸院士提出的第三代人工智能思路不謀而合。同期,美國國防部高級研究計劃局(DARPA)發布 AI NEXT 計劃,核心思路是推進數據計算與知識推理融合的計算,還委托了伯克利等機構,開展 SYMBOLIC - NEURAL NEWORK(符號加神經網絡計算)研究,其目的就是要加快推進這一進程。
總的來說,研究數據與知識融合的雙輪驅動 AI 時代已經到來,核心是利用知識、數據、算法和算力 4 個要素,不僅是使用數據驅動的方法來建構模型,還需要將用戶行為、常識知識以及認知聯系起來,主動 “學習” 與創造。
智源研究院研發的 “悟道” 大模型是我國具有代表性的超大規模預訓練模型,探索了大模型研發的另外一條路徑,旨在打造數據與知識雙輪驅動的認知智能,建立超越圖靈測試的通用機器認知能力,讓機器像人一樣“思考”。
在大模型研發過程中,我們初步定義了大模型需要具備的 9 種機器認知能力(T9 準則):
1. 適應與學習能力:機器具有一定的模仿能力,能夠通過模仿和反饋學習人的語言和行為;
2. 定義與情境化能力:機器能夠根據感知上下文場景做出反應(語言和行為反饋),并保證反應的一致性;
3. 自我系統的準入能力:機器具有一個穩定的人設(如:穩定的心理大五人格),在生成對待事物的觀點時,不會隨意改變自己的觀點和情感傾向;
4. 優先級與訪問控制能力:機器具有能發現自我觀點的矛盾和糾結,但最終能做出一個選擇,并在后續行為中保持一致;
5. 召集與控制能力:機器能主動搜索與自身人設一致或者符合自身利益的內容(新聞),并對其進行正面評論;反之也能搜索與自身人設相違背的內容,并對其進行反駁;
6. 決策與執行能力:機器能主動搜索內容信息、統計其他機器與人的觀點與傾向,根據自身人設做出對自己有利的決策并執行;
7. 錯誤探測與編輯能力:機器能自動對無法判斷的事物進行假設,并進行追蹤,如果發現假設錯誤或者假設不完備,能自動進行編輯修正;
8. 反思與自我監控能力:機器具有自動校驗能力,如果發現執行的操作不正確,具有自我監控和修正的能力;
9. 條理與靈活性之間的能力:機器能夠自動規劃和保證執行操作之間的條理性;同時如果發現條理不正確的時候,具有一定靈活性,可以修正自己的行為。
要全面實現以上 9 種機器認知能力還有很長的路要走,但我們堅信下一個人工智能浪潮的興起必然伴隨著認知智能的實現,讓機器具有推理、解釋、認知能力,在多項人類感知與認知任務中超越圖靈測試。大模型已經在認知智能發展上進行了一年的探索,并取得階段進展。
三、大模型的未來
《達摩院 2022 十大科技趨勢》提出,大小模型將在云邊端協同進化。大模型向邊、端的小模型輸出模型能力,小模型負責實際的推理與執行,同時小模型再向大模型反饋算法與執行成效,讓大模型的能力持續強化,形成有機循環的智能體系。這一觀點富有啟發性,而且有助于大模型從實驗室走向規?;漠a業應用。
在我看來,未來大規模研究將更加注重原始創新,圍繞認知智能以及高效應用等多個角度展開。
在認知智能方面,模型參數不排除進一步增加的可能,甚至到百萬億、千萬億規模,但參數競賽本身不是目的,而是要探究進一步性能提升的可能性。大模型研究同時注重架構原始創新,通過模型持續學習、增加記憶機制、突破三元組知識表示方法等方法進一步提升萬億級模型的認知智能能力。在模型本身方面,多模態、多語言、面向編程的新型模型也將成為研究的重點。
在高效應用方面,將大大降低大模型使用門檻,讓大模型用起來,促進中小企業形成 “大模型 + 少量數據微調” 的 AI 工業化開發模式。主要實現:
1)降成本:降低模型在預訓練、適配下游任務、推理過程中的算力消耗;
2)提速度:通過模型蒸餾、模型裁剪等手段提升千億或以上規模模型推理速度 2 個數量級;
3)搭平臺:通過搭建一站式開發及應用平臺提供從在線模型構建、在線模型部署、應用發布的全流程預訓練服務,能夠支持成百上千個應用的開發與部署,相信后續大模型的廣泛應用將成為賦智我國經濟高質量發展的關鍵助推劑。
思考的快與慢,與下一代人工智能
阿里巴巴達摩院人工智能科學家 楊紅霞
人工智能學者一直試圖從大腦工作模式中汲取靈感,但大腦究竟如何思考是非常復雜的課題。諾貝爾經濟學獎獲得者丹尼爾 · 卡內曼教授的《思考, 快與慢》指出,人的思考有兩種模式。我們很多時候下意識地作出反應,是快的模式。舉個例子,如果每天從家到公司的路線一模一樣,就不需要做太多思考,沿著原路走就行,這是快思考。什么是慢思考?突然有一天,公司和家之間在修路,需要重新規劃路徑,這時就不得不進行慢思考。
基于大腦思考的模式,解決下一代人工智能的核心認知推理問題,是我們團隊近幾年最重要的目標。GPT-3 激發了大家投入大模型研發的巨大熱情,但由于大模型的能耗和效率問題,學界又對是否一定要用大模型提出疑問。通過大量的實際探索,我們認為,大模型和小模型可以協同發展,分別承擔慢思考和快思考的任務。云上能容納海量知識的大模型,就像超級大腦,有能力進行慢思考,而在端上與大模型協同的小模型可以執行快思考。
近年來,隨著預訓練技術在深度學習領域的飛速發展,預訓練大模型(大模型)逐漸走進人們的視野,成為人工智能領域的焦點。大模型在文本、圖像處理、視頻、語音等多個 AI 領域實現較大突破進展,并逐漸成為 AI 的基礎模型(Foundation Model),同時大模型也在積極與生命科學領域進行結合,包括在蛋白質、基因等方向取得進展,并在細胞分類、基因調控關系發現、細菌耐藥性分析等任務中前景廣闊。可以認為大模型是目前解決推理認知問題最先進的工具,不過預訓練大模型還有亟待突破的幾個課題,比如:
1、目前的主流實踐是先通過訓練大模型(Pretrained Model),得到參數規模大、精度高的模型后,再基于下游任務數據,通過剪枝、微調的方法(Finetune)將模型的體積壓縮,在基本不損失精度的情況下減輕部署的壓力,目前業界還沒找到通用的、直接訓練小型模型就能得到較滿意精度的辦法;
2、訓練千億、萬億模型動輒就上千張 GPU 卡,給大模型的推廣和普惠帶來了很大的挑戰;
3、預訓練模型 Pretrain 階段參數量大,目前主要采用大量非結構化數據進行訓練,如何與知識等結構化數據進行結合,讓模型更加有效地實現認知推理,也是一個非常大的挑戰。
在解決大模型亟待突破的課題方面,我們做了不少嘗試,可供業界參考。今年 11 月,我們發布了全球首個 10 萬億參數的多模態大模型 M6,相比去年發布的 GPT-3,實現同等參數模型能耗僅為其 1%,降低了大模型實現門檻,推動了普惠 AI 的發展。今年 10 月我們對外開放的云服務化平臺是目前業界覆蓋下游任務最廣泛的平臺,涵蓋各項單模態和跨模態的理解及生成任務。目前,M6 已在阿里巴巴超 50 余個不同業務場景中應用。
未來,除了通過低碳化發展綠色 AI、平臺化應用推進普惠 AI 以及突破認知推理等技術外,我們希望大模型還能積極探索與科學應用的結合,潛在科學應用方向可能包括腦神經連接圖譜繪制、腦機接口、透明海洋等領域。
在形成更高效、更廣泛的智能體系上,大小模型在云邊端協同進化帶來了新的可能性。在邊端與大模型協同的小模型執行快思考方面,我們也進行了積極探索和規?;涞亍4竽P涂梢韵蜻叀⒍诵∧P偷妮敵?,讓小模型更容易獲取通用的知識與能力,小模型專注在特定場景做極致優化,提升了性能與效率;同時小模型向大模型反饋執行成效,解決了過去大模型數據集過于單一的問題,最后全社會不需要重復訓練相似的大模型,模型可以被共享,算力與能源的使用效率得以最大化。這一模式有望構建下一代人工智能的基礎設施,在讓人工智能的通用能力進一步提升。
經歷符號主義的衰落與深度學習的繁榮,我們來到了新的路口。科技的進程往往由天才般的靈感與極大量的實踐推進,人工智能的演進也是如此,在收斂與發散之間不斷尋找突破口。大模型是一個令人激動的里程碑,接下來該走向何方,我們或許可以繼續向自身追問,在快思考與慢思考中獲取新的啟示。