悟道2.O問世,構建以中文為核心的超大規模預訓練模型平臺生態
原創【51CTO.com原創稿件】
???
去年5月,GPT-3問世。OpenAI 發布的這個預訓練模型擁有 1750 億參數量,不僅能寫文章、答題、翻譯,還具備多輪對話、敲代碼、數學計算等能力。其所使用的最大訓練數據集在處理前就達到了 45TB,至此GPT-3一躍成為AI界的“流量”明星,褒揚與批評齊飛,質疑與爭議不斷,但無論外界評價如何,它都展示了一條通往通用人工智能的可行路徑,因此構建超大規模預訓練模型成為潮流所向。
今年3月,中國 AI 學界迎來了第一個超大規模預訓練模型“悟道”。這個以中文為核心的超大規模預訓練模型由智源研究院牽頭,匯聚清華、北大、人大、中科院等高校院所以及諸多企業的 100 余位 AI 領域專家共同研發,從基礎性能、有效使用到預訓練模型擴展,提出了一系列創新解決方法。
在此3個月后,“悟道2.0”現世,不僅在預訓練模型架構、微調算法、高效預訓練框架方面均實現了原始理論創新,在世界公認的多個 AI Benchmark 榜單上也表現不俗,取得了多項任務能力的領先地位。
清華大學教授,智源研究院學術副院長唐杰介紹,“悟道”的定位,從一開始就不止要做“中國第一”,而是瞄向世界頂尖水平,讓機器像人一樣思考,邁向通用人工智能。
何以悟道
唐杰在采訪中總結了“悟道2.0”的幾個特點——最大、準確、實用。
首先,所謂“最大”指的是“悟道2.0”參數達到1.75萬億,打破了此前谷歌 Switch Transformer 預訓練模型創造的 1.6 萬億參數記錄,也超過OpenAI開發的第三代生成式預訓練Transformer(GPT-3)10倍,是全球最大預訓練模型。尤其值得?提是,這個世界最?萬億模型完全基于國產超算平臺打造,其基礎算法是在中國的神威超算上完成模型訓練。
之所以智源與智譜AI團隊能打造目前“最大”的預訓練模型是因為團隊首創的FastMoE技術打破了國外MoE技術存在的限制瓶頸。FastMoE作為首個支持PyTorch框架的MoE系統,具有易用性強、靈活性好、訓練速度快的優勢,可在不同規模的計算機或集群上支持研究者探索不同的MoE模型在不同領域的應用。相比直接使用PyTorch實現的版本,提速47倍。FastMoE可以支持NoisyGate、GShard、Swith Transformer等復雜均衡策略,支持不同專家不同模型,目前已基于阿里 PAI 平臺,亦在國產神威眾核超算平臺成功部署。
其次,在“準確”方面,“悟道2.0”同樣表現亮眼,在 ImageNet、LAMA、LAMBADA、SuperGLUE、MSCOCO 等項目都取得了突破,獲得了9項任務上的 SOTA,比第二名的表現要出色很多。而且目前“悟道2.0”在問答、繪畫、作詩、視頻等任務中都已逼近圖靈測試。
然后,在“實用”方面,“悟道2.0”也采取了多項措施積極推進。眾所周知,大規模預訓練模型的參數規模通常遠超傳統的專用人工智能模型,在算力資源、訓練時間等方面消耗巨大。為了提升大規模預訓練模型的產業普適性和易用性,悟道團隊搭建高效預訓練框架,實現了全鏈路的原創突破或迭代優化,預訓練效率大幅提升。而且“悟道2.0”和GPT-3小批量付費使用的模式不同,將向AI社區和企業公開預測模型,任何個人或企業均可免費申請使用其公開API。(https://wudaoai.cn/home)
生態構建
通常AI科學界認為模型參數越大,意味著通用人工智能潛能越強。不過大模型的出現只是基石,還需要大生態的加持,才能真正加速人工智能應用的落地。唐杰在采訪中提到:“我們在思考一個問題——生態。怎么構建生態讓萬億模型有生命力,而不是簡單的數數字。”
“我們要建立‘悟道’生態,把產業生態、開源生態,應用生態、數據生態全部打造起來,讓所有人參與其中。你可以做研發、應用甚至產業化,如果你只有數據,那也可以貢獻數據、分享數據。在生態助力的情況下,整個模型才能越做越智能。”
為了加速生態構建,“悟道2.0”在效率和易用性上盡力為開發者提供了便利。
悟道 2.0預訓練框架具有“高效編碼、高效模型、高效訓練、高效微調、高效推理”五大特點,切實面向產業界的應用。悟道 2.0預訓練框架還整合了全球最大的中文語料庫WuDaoCorpora,包括最大中文文本數據集、多模態數據集與中文對話數據集。
任何企業、開發者拿到“悟道 2.0”預訓練框架以后,都可以非常快地進行部署,然后應用在實際業務中。目前,“悟道 2.0”已經與美團、小米、快手、360、搜狗、寒武紀、第四范式、推想科技、好未來、小冰科技等達成合作共建模型生態。
“煉大模型”雖然是時之所趨,但也會有人提出質疑:超大規模預訓練模型的進化是否是實現通用人工智能的必要條件呢?對此,唐杰給出了這樣的回答。
“我們只能說這是一條可行的路徑。幾年前,通用人工智能戰略,也就是AGI戰略提出時很多人要么嗤之以鼻,要么覺得不可能。但當下在這條路上,大家至少看到了一點點成績,所以我覺得這是一種非常可能的路徑。未來是否一定是唯一或者必要的,這不一定。”
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】