阿里媽媽開源曲率空間學習框架、聯邦學習解決方案,向社會開放AI技術共同進步
9月15日,阿里媽媽宣布同時開源兩項AI技術:曲率空間學習框架和聯邦學習解決方案。兩項最新技術成果的開源,將助力業界提高數據隱私保護能力,預計可降低80%的存儲消耗量和提升15%的用戶請求匹配精準度,上述技術也可應用于互聯網行業之外的各個科研計算領域。
據了解,曲率空間學習框架(Curvature Learning Framework,簡稱CLF)是中國首個經過工業級場景驗證的曲率空間深度學習框架;聯邦學習解決方案(Elastic Federated Learning Solution,簡稱EFLS),是百億級工業場景跨企業合作的聯邦學習解決方案。
用戶即日起可在全球最大開源網站GitHub搜索“Curvature-Learning-Framework”,9月30日以后搜索“Elastic-Federated-Learning-Solution”,查看兩個項目的開源文件。
“AI技術是新一代生產力。在基于龐大的工業級場景應用成熟后,我們選擇向社會開放這些技術能力,以最大化共享AI技術紅利,共同進步。”阿里媽媽CTO鄭波表示。
曲率空間學習框架開源:AI換軌,坐上曲率飛船
曲率是一個衡量空間彎曲程度的量,曲率越接近零,空間越平坦。在科幻小說《三體》中,人類正是利用空間曲率的變化建造出曲率飛船。
AI所需的海量數據與計算往往基于曲率為零的歐氏空間,這潛在制約了表達能力。阿里媽媽技術團隊發現,曲率空間能更精準的建模圖數據結構,此次開源的曲率空間學習框架,包含流形、算子、模型及黎曼優化器整套深度學習流程,用戶可便捷的將模型遷移到曲率空間中,從而給AI的發展打開一條新通路。
想象一下,使用曲率空間建模就像“吹起一個氣球”。假設一個干癟的氣球表面上有十億個節點,這會是非常致密的狀態。隨著氣球逐漸充氣變大,氣球表面越來越“彎曲”,節點之間就分的越開,構成的形狀也越立體,我們就能越好的觀察這些節點并進行區分。
曲率空間正如一個膨脹的氣球表面,相對于同樣大小的歐氏空間,它能容納的數據更多,而且對樹、環等幾何特性展現的更全面精準。基于圖數據Cora的實驗證明,替換歐氏空間為曲率空間,模型能提升約8%的預測精度。
阿里媽媽技術人士表示,該技術已經在阿里媽媽業務中展現出很高的應用潛力。基于淘寶搜索廣告場景,曲率空間能精準建模十億級商家與用戶的交互行為,利用空間曲率變化實現數據的“定向放大”與“精準分割”。系統全量上線后,存儲消耗量降低80%,用戶側請求匹配精準度相對提升15%。
該技術有望廣泛應用到其他行業,引領新一輪的AI落地浪潮。業內專家表示,曲率空間可以建模地球表面的云層運動軌跡,航空航海路線等,也能表征物流運輸圖、資源流動圖等。從更及時的天氣預報、更精準的地圖導航,到更高效的物流運輸、更公平的社會資源分配,此項新技術能切實改善人們的生活。
聯邦學習解決方案開源:兼收并蓄,開放共建
聯邦學習是2016年由谷歌提出,在保護終端隱私的前提下進行機器學習,幫助廣告主實現跨公司多端投放的解決方案。通俗一點講,聯邦學習就像幾位老師傅共同訓練一個徒弟,老師傅們各有所長,卻互相防備不能共享,而徒弟則兼收并蓄,融會貫通,集合各家所長,終學有所成。
據了解,阿里媽媽此次開源的聯邦學習解決方案,更加關注隱私保護和加密計算,并在此基礎上建立APP孤島的信息鏈接,構建機器學習模型,在高并發、加密性、易用性和產品化等方面提供更好支持,方便多方在超大規模稀疏場景下進行聯邦學習的合作與實踐。
具體而言,聯邦學習解決方案具備以下特點:
1. 大規模高可用:云原生實現方案支持百億規模數據求交;多種驗證方式保證最終結果的完整性和正確性;精簡的訓練交互協議與高效的底層實現,保證分布式訓練的高吞吐;精細的狀態恢復與模型校驗,確保分布式容災的正確性。
2.加密保護隱私:通過數據安全與計算安全兩種手段以保障用戶隱私,支持多種隱私保護方案以提供安全和性能的最佳平衡。
3.更強大更便捷:首次開源了基于水平聚合、層次聚合的兩種模型,并通過可視化web界面方便任務流程的開發、配對、調度和管理,極大地提升迭代效率。
依托于聯邦學習解決方案,阿里媽媽Unidesk產品已助力珀萊雅、卡姿蘭、薇諾娜、花西子、修正等多個企業實現品牌和業務雙豐收。據了解,花西子采用Unidesk產品以后,經營效果提升明顯,短短2個月時間,品牌ROI提升15%,且放量也在逐步提高。
未來,該技術可以擴展到金融、醫療共建等場景,普適性較高。
將開源進行到底
此次開源,延續了阿里媽媽“將開源進行到底”的一貫做法。從2015年開始,阿里媽媽技術團隊將大規模深度學習、圖學習、強化學習等多項AI技術深度應用到業務,引領了AI在互聯網廣告領域的探索和大規模應用,并沉淀出多個業內領先的AI工程系統。
2018年11月,阿里媽媽對外開源了業界首個面向高維稀疏場景的大規模工業級訓練引擎XDL,并同時開源包含深度興趣網絡(DIN)、深度興趣進化網絡(DIEN)、深度樹匹配(TDM)在內的多個工業級創新算法。在GitHub上,XDL項目開源一個月內所獲星贊數超過1000個,到現在已有4000多星贊,近1000次復制使用。
2019年1月,阿里媽媽的大規模圖深度學習框架Euler正式對外開源,在工業界引起巨大反響的同時,也引起學術界關注。2021年4月,Euler2.0發布,通用性和靈活性得到進一步提升。在GitHub網站上,Euler項目現在已經有超過2500個星贊和500次復制使用。