華為重磅亮相 KubeCon China 2025:驅(qū)動云原生向AI原生技術融合躍遷
6月10日-11日,由云原生計算基金會(CNCF)和Linux基金會聯(lián)合主辦的KubeCon+CloudNativeCon China 2025,在中國香港盛大召開。作為全球云原生與開源頂級會議,大會匯聚了來自全球的開源開發(fā)者、技術領袖、企業(yè)代表及終端用戶,深度探討云原生與AI融合的最新進展與未來趨勢,共同見證了這一技術盛宴。
作為全球云原生技術與開源生態(tài)建設的先鋒,華為攜10多位大咖和技術專家深度參與本次大會,帶來了3場Keynote 主題演講及10多個技術分會場的分享,全方位展現(xiàn)了在云原生與 AI 融合領域的突破性成果。
開源生態(tài)引領AI時代技術躍遷
開源作為加速創(chuàng)新協(xié)同的重要范式,匯聚全球智慧、縮短創(chuàng)新周期、催化更多創(chuàng)新應用落地,也為下一輪技術革命創(chuàng)造指數(shù)級價值。
會上,華為首席開源聯(lián)絡官、CNCF基金會董事任旭東帶來《Towards Clouds of AI Clusters》的Keynote主題演講,分享了AI時代的算力集群技術演進趨勢,華為在異構集群管理、超大規(guī)模集群調(diào)度、云邊協(xié)同AI等領域的應用實踐等。
任旭東表示,當前企業(yè)在管理AI工作負載時,仍面臨嚴峻挑戰(zhàn),尤其是在大模型訓練、推理中對算力規(guī)模和集群協(xié)同的極高要求。集群并行計算提升算力規(guī)模將是企業(yè)突破算力瓶頸、實現(xiàn)大模型落地的必由之路。
為響應上述需求,華為從硬件驅(qū)動到集群資源調(diào)度實現(xiàn)算力設備的統(tǒng)一管理,支持HyperNode與多集群拓撲感知調(diào)度,并對PyTorch/TensorFlow/MindSpore等主流框架、大語言模型(LLMs)及智能體開發(fā)場景提供統(tǒng)一支持的全棧開源基礎設施解決方案。
“通過openEuler、Volcano、Karmada、KubeEdge、openFuyao五大項目,華為實現(xiàn)了從操作系統(tǒng)到平臺層的全棧開源打通與落地,幫助企業(yè)實現(xiàn)AI集群內(nèi)優(yōu)化、跨集群協(xié)同和云邊協(xié)同,從而破解人工智能發(fā)展算力基礎設施上面臨的困局。”
Volcano+Karmada驅(qū)動
B站億級月活云原生AI調(diào)度躍遷
華為云云原生開源負責人,CNCF技術監(jiān)督委員會副主席王澤鋒聯(lián)合BiliBili資深開發(fā)工程師許龍,發(fā)表《Bilibili構建高效云原生AI平臺的實踐之路》的Keynote主題演講,深入探討視頻網(wǎng)站人工智能工作負載調(diào)度優(yōu)化路徑。
Bilibili 擁有上億月活用戶,圍繞視頻業(yè)務覆蓋搜索推薦、圖像處理、視頻編解碼等多種應用場景。在 AI 技術深度滲透視頻處理、模型訓練等場景的當下,B站面對負載多樣性、多集群管理等算力挑戰(zhàn),構建了以 Volcano 和 Karmada 為核心的調(diào)度框架:單集群側通過 Volcano 實現(xiàn) Workload 統(tǒng)一調(diào)度,引入等價類調(diào)度與 JobSet 對象優(yōu)化性能;多集群層用 Karmada 支撐在線任務聯(lián)邦調(diào)度,自研輕量系統(tǒng)解決離線高吞吐需求。結合 GPU 共享調(diào)度、編解碼混合等三種模式,在提升資源利用率的同時,為 B站 AI 應用落地提供了高效的云原生算力支撐。
Volcano 助力科大訊飛實現(xiàn)AI基礎設施突破,
贏得 CNCF 最終用戶案例
會上,華為云云原生團隊高級工程師常旭征聯(lián)合科大訊飛平臺架構師董江,發(fā)表《Scaling Model Training with Volcano: iFlytek's Kubernetes Breakthrough》的Keynote主題演講,分享基于Volcano的云原生 AI 訓練資源調(diào)度優(yōu)化方案。
科大訊飛在大規(guī)模模型訓練中借助 Volcano 實現(xiàn)關鍵突破:通過構建基于 Volcano 的統(tǒng)一計算平臺,集成 AirFlow / Spark 等傳統(tǒng)任務框架,以隊列機制解決多租戶資源公平分配問題,同時運用 Gang 調(diào)度、Binpack 算法及拓撲感知策略,將 GPU 利用率提升 40% 以上,故障恢復時間縮短 70%,資源干擾率降低 50%,保障業(yè)務穩(wěn)定性和資源使用靈活性。
Volcano 是華為云發(fā)起開源的業(yè)界首個云原生批量計算引擎,也是 CNCF 首個批量計算項目,主要用于 AI、大數(shù)據(jù)、基因、渲染等諸多高性能計算場景,能力涵蓋隊列與資源管理、統(tǒng)一作業(yè) API、多樣化調(diào)度策略、在離線混部、GPU 虛擬化、異構算力支持及性能優(yōu)化等關鍵領域。針對當前大規(guī)模AI集群的性能問題,Volcano 新增基于 HyperNode 的網(wǎng)絡拓撲感知調(diào)度策略,大幅提升人工智能訓練和推理效率。
Cloud Native for AI:
多領域技術創(chuàng)新使能產(chǎn)業(yè)升級
Karmada:破解AI任務部署多集群編排難題,支撐大規(guī)模數(shù)據(jù)平臺的彈性與可靠性
Karmada 作為云原生多云多集群管理引擎?zhèn)涫苡脩襞c開發(fā)者歡迎。來自華為云的Karmada 社區(qū) Maintainer 任洪彩,圍繞 Karmada 的技術更新、核心特性、實際應用案例及社區(qū)生態(tài),講解了近期版本中備受關注的應用跨集群滾動更新,有狀態(tài)應用故障遷移,優(yōu)先級調(diào)度機制,Dashboard,聯(lián)邦資源配額等特性。
同時,華為云技術團隊也與Bloomberg 進行了社區(qū)合作交流。Bloomberg 分享了其利用 Karmada 構建彈性數(shù)據(jù)分析平臺的實踐經(jīng)驗,展示了 Karmada 在多集群管理場景下的優(yōu)勢性能。通過功能迭代和生態(tài)擴展,Karmada 解決了企業(yè)在跨集群管理中的核心挑戰(zhàn),Bloomberg 等企業(yè)的實踐證明,Karmada 能夠有效支撐大規(guī)模數(shù)據(jù)平臺的彈性與可靠性需求,未來在 AI 訓練、邊緣計算等場景的拓展值得期待。
KubeEdge賦能多領域、多場景邊云協(xié)同AI智算
來自華為云云原生團隊的KubeEdge社區(qū)Maintainer鮑玥,攜手社區(qū)伙伴,帶來4場云原生邊緣計算技術演講,議題涵蓋KubeEdge大規(guī)模實現(xiàn)、落地案例分享以及社區(qū)治理工作等多個方向。在 “KubeEdge社區(qū)新特性解讀及多元場景案例” 、“使用混沌工程構建超大規(guī)模云原生邊緣系統(tǒng)” 、“KubeEdge 深度探索:架構、用例和項目畢業(yè)動態(tài)” 系列議題中,KubeEdge分享了社區(qū)在智慧物流、機器人編排等領域的行業(yè)案例,介紹了項目在邊緣場景中發(fā)揮的統(tǒng)一化管理、邊緣自愈、實時性等優(yōu)勢,同時也帶來了社區(qū)最新的新特性,包括支持批量邊緣節(jié)點管理,全新DashBoard,子項目Sedna支持HPA等,以及在支持大規(guī)模場景的探索實踐。
作為CNCF 首個云原生邊緣計算畢業(yè)級項目,KubeEdge 的畢業(yè)旅程備受關注,在“ KubeEdge畢業(yè)探索:從零開始構建多元化、協(xié)作型開源社區(qū)”圓桌中,KubeEdge TSC 等技術專家, 共同向參會者分享總結了 KubeEdge 在社區(qū)發(fā)展與畢業(yè)歷程中所做的工作,從技術成熟度、采用率、社區(qū)多樣化、中立性等多個角度探討社區(qū)健康發(fā)展的關鍵要素,并對 KubeEdge 畢業(yè)后的工作進行了規(guī)劃與展望。
Kmesh:內(nèi)核級流量治理引擎, 高效應對大規(guī)模流量應用需求
Kmesh是集高性能、低開銷及安全可靠于一身的內(nèi)核級云原生流量治理引擎。本次大會上,來自華為云的 Kmesh 社區(qū)技術專家徐中虎一行,在 4 場議題演講中分享,涵蓋 Service Mesh 高性能、低底噪、安全性,易用性方面的探討。本著輕量、易用、應用無侵入的設計原則,Kmesh 使用 eBPF 將 Service Mesh 徹底革命,推出業(yè)界極具競爭力的 Sidecarless 方案,在性能和可靠性上遙遙領先。
Kmesh 從高性能、低開銷技術愿景出發(fā),借助kfunc,內(nèi)核原生模式將流量治理能力完全下沉到 Kernel Space。同時,為解決 Service Mesh 重啟升級影響用戶業(yè)務穩(wěn)定性的問題,Kmesh 用 eBPF prog 和 BPF Map 與 Kmesh Daemon 運行進程分離的方式,實現(xiàn)重啟升級不影響業(yè)務已有連接,減少了Service Mesh 對業(yè)務穩(wěn)定性的影響。Kmesh 創(chuàng)新性地利用 Linux 內(nèi)核的 XDP 技術,在網(wǎng)絡包進入內(nèi)核協(xié)議棧之前就進行快速處理,極大地降低了時延,提高了吞吐,克服了在處理大規(guī)模流量時,用戶態(tài)鑒權存在的瓶頸,實現(xiàn)了服務間極致的鑒權性能。
openGemini:高性能時序數(shù)據(jù)庫,降低企業(yè)業(yè)務成本
openGemini 是一款高性能時序數(shù)據(jù)庫,主要面向物聯(lián)網(wǎng),車聯(lián)網(wǎng)和運維監(jiān)控等場景,為用戶提供海量時序數(shù)據(jù)的高效存儲和查詢。openGemini 目前已經(jīng)在能源、電力、航空航天、devops、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、礦山、大宗物流等 9 大領域應用落地。本屆 KubeCon China,openGemini 正式以 CNCF Sandbox 項目的身份參與。
會上,來自華為云的openGemini 社區(qū) Maintainer 向宇,向與會者介紹了openGemini 技術特性與未來規(guī)劃,并重點介紹了數(shù)據(jù)多副本及流式計算兩個重要新特性,多副本可滿足多數(shù)業(yè)務對數(shù)據(jù)可靠性的需求,同時社區(qū)將流式計算融入內(nèi)核,簡化業(yè)務架構,降低業(yè)務成本。
openFuyao:為世界提供多樣化算力集群軟件生態(tài)
openFuyao架構師姚曉忠帶來“構建計算親和性云原生生態(tài)系統(tǒng)”主題演講,他表示, 在“云原生+AI”的新范式時代,面臨軟件生態(tài)適配不足、AI負載特性復雜、軟件工程復雜度提升等技術挑戰(zhàn)。為此,openFuyao打造多樣化算力互聯(lián)的集群管理與調(diào)度體系,促進AI和大數(shù)據(jù)場景有效算力的高效釋放,構筑算力親和的高性能應用生態(tài)社區(qū),為開發(fā)者和伙伴提供創(chuàng)新解決方案。會上同步介紹了首批開源的五大集群調(diào)度能力及兩類面向常用場景的參考實現(xiàn),并在現(xiàn)場同與會專家熱烈討論如何通過openFuyao來構建具有高效計算集群管理能力的云原生系統(tǒng)。
AI-Native創(chuàng)新,加速全球智能化
除了以上提到的主題分享之外,華為展區(qū)更是引來眾多參會者駐足交流。華為云講解專家向與會者展示了AI-Native的云原生基礎設施,包括 UCS,CCI,CCE Autopilot,CCE Turbo 等多個行業(yè)級云原生代表產(chǎn)品,并介紹了在 KubeEdge、Volcano、Karmada、Kuasar、openGemini、Kmesh 等業(yè)界首創(chuàng)開源項目中的技術創(chuàng)新成果。
openFuyao攜“云原生+AI”產(chǎn)業(yè)融合硬核方案驚艷亮相,吸引開發(fā)者駐足交流,共探落地實踐場景。
展區(qū)還展示了華為圍繞鯤鵬、昇騰所構建的全棧生態(tài)和最新進展,通過發(fā)起包括服務器操作系統(tǒng)openEuler、企業(yè)級開源數(shù)據(jù)庫openGauss、AI框架昇思MindSpore、昇騰AI算力底座CANN等在內(nèi)的開源社區(qū)和項目為世界提供第二選擇。同時積極參與主流上游開源社區(qū)的鯤鵬、昇騰使能和優(yōu)化,已經(jīng)實現(xiàn)了覆蓋從底層硬件、操作系統(tǒng)、數(shù)據(jù)庫到AI框架的全棧能力,通過軟硬協(xié)同、多元硬件生態(tài)及云原生技術整合,以規(guī)模化落地成果為AI原生時代提供了堅實的“算力+生態(tài)”一體化基礎設施藍圖。
未來,華為將繼續(xù)與全球企業(yè)和開發(fā)者攜手,通過開源匯聚全球智慧,共同應對當前的挑戰(zhàn),推動AI和云原生技術的創(chuàng)新與應用,為千行萬業(yè)智能化轉(zhuǎn)型、為構建全球智能化未來,貢獻力量!