2022,人工智能開啟未來新密碼
購買大型電器、汽車,你是否會詢問有沒有智能語音功能?是的,潛移默化中人們已經不再將人工智能當作魔術,而是習以為常的東西。從AlphaGo以四比一戰勝棋王李世石,讓人們第一次意識到人工智能真的可以超越人類,也讓人們對AI的未來前景充滿期待。
近年來,以深度學習為代表的人工智能技術高速蓬勃發展,新算法層出不窮,圖像識別、自然語言、聲音克隆等智能水平逼近甚至超過人類。同時人工智能技術的發展,也促進著人類對數據以及算力的不斷突破。AI技術各類應用落地,滲透到我們生活的方方面面,已然成為我們不可缺少的一部分。
1.2021回顧
回顧跌宕起伏的 2021年,新冠疫情仍然肆虐著世界,看不到疫情結束的信號。疫情帶來國際形勢的突然變化,深刻地影響著全球半導體產業鏈及生態,同樣對人工智能行業帶來沖擊。國際間的算力競爭異常激烈,如果算力不在一個維度上,競爭力自然就不在一個維度上。2021年我國因為芯片不足導致供應鏈斷裂的事件此起彼伏,因此數字化、智能化轉型被列為國家重點發展規劃中,已成為大勢所趨。
疫情雖然還沒有結束,但絲毫不影響2021年人工智能領域洶涌澎湃的發展,振奮人心的消息頻頻傳來。
商湯科技,成為國內「AI四小龍」中第一家IPO成功的上市公司;AphaFold2 成功預測 98% 蛋白質結構;無人駕駛領域,技術和算法層面的不斷突破讓 L4場景落地日益成熟,掌握自動倒車、搶道行駛等眾多接近人類駕駛的行為。
2021年10月,中國科學技術大學潘建偉、陸朝陽、劉乃樂等組成的研究團隊與中國科學院上海微系統與信息技術研究所、國家并行計算機工程技術研究中心合作,構建了113個光子144模式的量子計算原型機“九章二號”,完成對用于演示“量子計算優越性”的高斯玻色取樣任務的快速求解,求解速度比目前全球最快的超級計算機快10的24次方倍(億億億倍)。我們正處在人類技術爆炸時期,人工智能賽道相信也必將獨占鰲頭。
多模態
多模態學習旨在使計算機擁有處理不同來源信息的能力,近年來成為了人工智能領域的研究熱點。將不同模態信息進行融合,學習不同模態信息之間的關聯。2021年是OpenAI實現圖像和文本匹配的CLIP和根據輸入文本生成對應圖像的Dall·E開啟了多模式學習的重要一年。同時DeepMind的Perceiver IO對文本、圖像、視頻和點云實現分類以及斯坦福大學的ConVIRT在醫療X光影像中添加了文本標簽,都預示著多模態學習正在崛起并且滲入到其他領域。
Facebook也表示在其仇恨言論檢測器中也使用了多模態學習,用以刪除了社交網絡中97%的辱罵以及有害內容。該系統能根據文本、圖像和視頻在內的10種數據類型,將模因和其他圖像文本配對歸類為良性或有害。同時谷歌也表示在搜索引擎中添加了多模態(及多語言)功能,實現了多任務統一模型能返回文本、音頻、圖像和視頻鏈接,以響應75種語言中任意一種的查詢等。
巨大模型
讓機器去理解人類語言一直以來都是人工智能的核心夙愿,只有將人腦獨有的自然語言賦予機器,才能真正讓機器“活”過來。隨著OpenAI去年提出GPT-3模型,在各大平臺引起熱議,讓我們似乎觸摸到了上帝的領域。GPT-3模型比全球最大深度學習模型 Turing NLP 大上十倍,而且不僅可以更好地答題、翻譯、寫文章,還帶有一些數學計算的能力。根據論文所述,GPT-3是一種具有1750億個參數的自然語言深度學習模型。
就在大家還沉浸在GPT-3模型龐大參數量的時候,谷歌Switch Transformer開啟了2021年首個超過1萬億參數的模型,參數規模高達1.6萬億。隨后北京智源人工智能研究院推出更大的、擁有1.75萬億參數規模的大模型悟道2.0。資金雄厚的人工智能公司正以狂熱的速度堆積參數,既為提高性能,也為秀肌肉,特別是在語言模型中,互聯網為無監督和半監督的預訓練提供了大量無標簽的數據。然而模型從“大”走向“巨大”的確可以使得效果越來越好,但同時帶來更多的問題與挑戰。
(1) 數據挑戰:巨大的模型需要海量的數據,但網絡和數字圖書館來源缺乏高質量的數據。例如,研究人員常用的BookCorpus是一本由11000本電子書組成的數據集,用于訓練30多種大型語言模型,它可能會傳播對某些宗教的偏見。人工智能社區越來越意識到數據質量至關重要,但在收集大規模高質量數據集的有效方法上尚未達成共識。對于巨大模型而言,海量高質量數據采集成為了避不開的屏障。
(2) 速度與效率:當前人類的硬件水平雖然在不斷突破,但是仍然跟不上巨大模型的需要。Switch Transformer背后的谷歌團隊為了降低延遲開發了一種方法,讓每個token處理模型層的選定子集。他們的最佳模型比參數量只有1/30的模型快了約66%。同時,微軟開發了DeepSpeed庫,這個庫并行處理數據、各層和層組,并通過在CPU和GPU之間劃分任務來減少冗余處理。然而最好的解決方案仍然是提升硬件的效率,人類必須要對算力進行不斷突破。
(3) 巨大耗能:訓練如此巨大的模型會消耗大量電能。2019年的一項研究發現,在8個英偉達P100 GPU上訓練2億參數的Transformer模型所造成的碳排放,幾乎和一輛普通汽車五年駕駛總排放量一樣多。如何降低訓練巨大模型消耗電能的問題已經擺在所有人面前。目前有望加速人工智能的新一代芯片,如Cerebras的WSE-2和谷歌的最新TPU,可能有助于減少排放。同時,算力已然成為國家的基礎建設一部分,算力導致的能耗問題也敦促著需要更多的去使用風能、太陽能等更清潔的能源。
計算機視覺
計算機視覺目前作為人工智能進步最多、發展最快的領域,一直沖在賽道最前面。根據Grand View Research的數據顯示,2020年全球計算機視覺市場規模為113.2億美元,預計2021年至2028年將以7.3%的復合年增長率擴大。目前競爭比較激烈的計算機視覺子領域有:場景重建、目標檢測、事件檢測、視頻跟蹤、目標識別、3d姿態估計、運動估計、視覺伺服、3d場景建模、圖像修復。
作為上市公司的商湯科技提供的OpenMMLab是迄今為止最完備的計算機視覺算法體系和框架——“人工智能算法開放體系”,涉及超過10種研究方向,開放超過100種算法、600種預訓練模型。現如今OpenMMLab逐漸從單點單個方向的開源和單篇論文的開源走向日趨蓬勃的開源體系,成為底層訓練框架、計算平臺與科研、教學和算法生產的重要橋梁和紐帶,極大加速AI科研和產業化的進程。
強化學習
強化學習可以說是最貼近人類學習過程的AI了,換位思考一下,我們從小到大不斷地學習,就是一個不斷試錯的過程。強化學習就像一個真實的孩子,自我生長,不需要大量的歷史數據做引導,只有不需要監督的學習才是人工智能最好的形態。
強化學習理論收到人類行為主義心理學啟發,側重在線學習并試圖在探索-利用(exploration-exploitation)間保持平衡。不同于監督學習和非監督學習,強化學習不要求預先給定任何數據,而是通過接收環境對動作的獎勵(反饋)獲得學習信息并更新模型參數。過去幾年中,無論是Facebook、Google、Deepmind、Amazon還是Microsoft,他們都投入了大量時間、金錢、人力來推動強化學習的不斷創新。
2.國內的各大AI云平臺涌現
隨著人工智能的日益火爆,國內大廠們紛紛在AI領域布局。AI開放平臺已經和當初的云計算平臺一樣,如雨后春筍般涌現。AI開放平臺已經成為了企業重要的基礎建設。列舉目前國內比較有代表性的AI開放平臺:
- 百度飛漿
- 阿里云人工智能平臺
- 騰訊AI開放平臺
- 科大訊飛開放平臺
- 華為云ModelArts
- 曠視Face++
- 360人工智能研究院
- 網易人工智能
AI云平臺的本質仍然延續了大數據時代經典的租賃模式,似乎讓我們回到了幾年前大數據風起云涌的年代。而AI云平臺的優勢在于讓越來越多開發者對AI有更簡單直觀的認識,他提供了許多頂會模型供大家學習的同時,也提供了開發者將自己作品上傳展示的平臺。
讓AI不再離我們遙遠,成為人人都可以使用的東西。只有成熟的社區文化,才能孕育出新的創作者,也讓市場上出現越來越多的人工智能產品,AI云平臺核心意義就在這里。
3.2022趨勢
創立17年的Facebook在美國時間2021年10月28日正式宣布改名為“Meta”,如一個重磅炸彈,在業內引起了驚濤駭浪。扎克伯格用實際行動向大家宣布,元宇宙已經來了。隨之而來的2022年,將迎來人工智能新一輪趨勢風暴。
元宇宙真正意義上的拐點
如果說2021年人們認為元宇宙還只是妄想家的一廂情愿,那么2022年將真正開始顛覆人類對“世界”兩個字的理解。所以筆者認為2022年可以成為元宇宙真正意義上的拐點。在技術角度看,元宇宙主要技術群有:網絡以及算力技術、人工智能、游戲技術、顯示技術(VR、AR、MR甚至是XR,體驗不斷深化)、區塊鏈技術。而筆者認為,人工智能將會是整個元宇宙的核心,甚至是元宇宙的母體或者說是大腦。為了演化真正的社會形態,需要母體不斷自我學習,而不是設定各種各樣的規則不斷修補社會形態。就像《失控玩家》電影一樣,由母體創造的NPC也會隨著社會形態的演變而進化。
根據Bloomberg Intelligence預測,元宇宙的投資與價值只會在未來幾年不斷增長,到2024年價值將高達8000億美元。在如此大的宏利明前,只會讓市場不斷敦促人工智能產能不斷突破。
算力革命
隨著全球自動駕駛需求不斷擴大,圍繞大算力芯片的競爭2022年將異常熱鬧。因為今年,英偉達自動駕駛芯片Orin將量產,高通Snapdragon Ride也將量產,而中國創業企業的大算力芯片也將量產。楊宇欣給出了一組數據:2014—2016年特斯拉ModelS的算力為0.256TOPS,2017年蔚來ES8的算力是2.5TOPS,2019年特斯拉Model3算力為144TOPS,2021年智己L71070TOPS,2022年蔚來ET7是1016 TOPS。這組數據進一步印證了這樣一個事實:智能駕駛每前進一小步,后面都需要算力前進一大步。算力的作用不單單體現在汽車行業,2021年11月8月,阿里巴巴達摩院公布了多模態大模型“M6”的最新進展,其參數已從萬億躍遷至10萬億,成為全球最大的AI預訓練模型。在10月,M6再次突破業界極限,使用512顆GPU,在10天內就訓練出了具有可用水平的10萬億模型,相比2020年發布的大模型GPT-3,M6實現了同等參數規模,能耗卻只有1%。
越來越強大的算力是更智能人工智能模型可用的基礎,隨著人工智能行業不斷發展,不只是技術的革命,更加是算力的革命。兵馬未動糧草先行,算力作為人工智能模型的主要消耗品,決定著人工智能邁進的速度。就在2021 年 11 月,摩爾線程宣布已完成 20 億元人民幣 A 輪融資。該輪融資由上海國盛資本、五源資本、中銀國際旗下渤海中盛基金聯合領投,建銀國際、前海母基金、等九家機構聯合參投。在宣布該輪融資的同時,摩爾線程同時宣布其首顆全功能 GPU 芯片如期研制成功,且已經開始適配國產主流 CPU 和操作系統。所籌資金將重點用于首顆 GPU 芯片的批量生產與制造、GPU SOC 相關聯的 IP 研發、以及國產 GPU 生態系統的拓展等。隨著算力革命的打響,各國都將投入大量的資本和人力,這場沒有硝煙的戰爭會將人工智能推上全新的高度。
AI門檻降低帶來工業生產全面應用
隨著AI的不斷發展,人類算力的不斷提升,AI的使用門檻也越來越低。如智能語音系統、智能客服等商業落地,比比皆是。另一方面如短中長視頻業務,在全球仍保持著較高的增長速度,視頻內容創作者和內容消費者活躍度非常高。其中作為全球最火的手機應用“抖音”,大量的視頻智能處理技術可以幫助創作者更好地創作作品。另外,北京冬奧會中AI虛擬氣象主播、AI手語主播、場館智能向導、智能語言翻譯、鷹眼裁判、AI運動員訓練系統等等都是人工智能全面應用的體現。
預訓練大模型降低了 AI 應用的門檻,解決了 AI 應用的兩個難題:數據和行業知識。它既不需要大量的標注數據,又保障了基礎底座。所以擺在企業家面前的最大問題不再是技術如何突破,而是商業模式如何建立,商業閉環如何落地,以及技術轉化為產品的效率。
科學界AI技術將作為新生產工具
根據阿里巴巴達摩院對2022年十大科技預測,其中趨勢一就是:AI for Science。
引用:實驗科學和理論科學是數百年來科學界的兩大基礎范式,而人工智能正在催生新的科研范式。機器學習能夠處理多維、多模態的海量數據,解決復雜場景下的科學難題,帶領科學探索抵達過去無法觸及的新領域。人工智能不僅將加速科研流程,還將幫助發現新的科學規律。預計未來三年,人工智能將在應用科學中得到普遍應用,在部分基礎科學中開始成為科學家的生產工具。
沒錯,除了DeepMind在2021年初開源了AlphaFold2,并且能夠預測出98.5%的蛋白質結構。2021年12月,DeepMind首次利用人工智能幫助數學家們提出了兩個全新的數學猜想,登上Nature封面。作者猜測低維拓撲中存在未知的非線性關系,產生了很多數據并用神經網絡擬合了近似函數,發現其中三個量在擬合過程中起到了很重要的作用。通過反正做擬合實驗,產生新的數據,得到新的觀察模型,最終數學家利用智慧猜出了一個不等式結構,并進一步給了嚴格的證明。
由此可見人工智能成為了科學家新生產工具之后,不但可以加速科學發展的進度,更加可以讓人工智能創造新的設想,甚至讓某些科學產生新的方向。
4.小結
2022年必然會成為人工智能技術爆發的一年,我們有可能會見證以前從未有過的成果。人工智能深入我們的生活,給我們帶來更多便捷的同時,也帶來更多的挑戰和機遇。