阿里發布萬億參數AI大模型M6,相比英偉達、谷歌算力消耗降八成
6月25日,阿里巴巴達摩院發布“低碳版”巨模型M6,在全球范圍內首次大幅降低萬億參數超大模型訓練能耗。通過一系列突破性的技術創新,達摩院團隊僅使用480卡GPU,即訓練出了規模達人類神經元10倍的萬億參數多模態大模型M6,與英偉達、谷歌等海外公司實現萬億參數規模相比,能耗降低超八成、效率提升近11倍。
大模型將成下一代人工智能基礎設施,在AI界已成共識。與生物體神經元越多往往越聰明類似,參數規模越大的AI模型,往往擁有更高的智慧上限,訓練大模型或將讓人類在探索通用人工智能上更進一步。然而,大模型算力成本也相當高昂,很大程度阻礙了學界、工業界對大模型潛力的深入研究。
針對這一難題,達摩院及阿里云等團隊改進了MOE(Mixture-of-Experts)框架,創造性地通過專家并行策略,大大擴增了單個模型的承載容量。同時,通過加速線性代數、混合精度訓練、半精度通信等優化技術,達摩院團隊大幅提升了萬億模型訓練速度,且在效果接近無損的前提下有效降低了所需計算資源。
相比此前英偉達使用3072 A100 GPU實現萬億參數、谷歌使用2048 TPU實現1.6萬億參數大模型,此次達摩院僅使用480卡V100 32G GPU就實現了萬億模型M6,節省算力資源超80%,且訓練效率提升近11倍。
同時,達摩院此次發布的M6巨模型,成為國內首個實現商業化落地的多模態大模型。M6擁有超越傳統AI的認知和創造能力,擅長繪畫、寫作、問答,在電商、制造業、文學藝術等諸多領域擁有廣泛應用前景。
據了解,經過一段時間的試用,M6將作為AI助理設計師正式上崗阿里新制造平臺犀牛智造,通過結合潮流趨勢進行快速設計、試穿效果模擬,有望大幅縮短快時尚新款服飾設計周期。M6還已應用于支付寶、淘寶等平臺,參與跨模態搜索、文案撰寫、圖片設計等工作。
達摩院資深算法專家楊紅霞表示,“接下來,M6團隊將繼續把低碳AI做到極致,推進應用進一步落地,并探索對通用大模型的理論研究。”
今年以來,阿里在超大規模預訓練模型領域屢出成果。除發布多模態巨模型M6外,阿里巴巴達摩院近期還發布了中文社區領先的語言大模型PLUG,實現了在AI大模型底層技術及應用上的深入布局。