解析UCloud人工智能與英特爾背后的技術故事「上」
“企業要構建自己的AI在線服務系統并非易事,無論是IT基礎設施的建設還是AI 框架的部署,都需要耗費大量人力、物力。如果在IT系統、AI框架上選擇失誤,則會前功盡棄,這給AI項目的發展和普及制造了很高的門檻。我們的目標是幫助用戶像使用云主機、云存儲這些成熟的云產品一樣使用AI在線服務。通過充分利用英特爾?至強?處理器E5產品家族的高可擴展性及英特爾?AVX,我們的UAI-Service正逐漸走近這一目標。”
在人工智能(Artificial Intelligence,AI)如火如荼的今天,很多初創企業和傳統企業都選擇以AI為契機開拓市場,但同時也面臨著缺乏高效部署AI能力的難題。為此,UCloud基于英特爾?至強?服務器平臺,充分發掘和利用英特爾?高級矢量擴展(英特爾?AVX)指令集相關處理單元的潛能,推出了UCloud AI 在線服務(UCloud AI online Service,UAI-Service*),其具備的大規模分布式計算平臺可以滿足企業在圖像識別、自然語言處理等多個AI領域的在線服務應用需求。
面臨挑戰
企業的AI之路并非坦途大道:無論是初創企業踏上AI創新之旅,還是傳統企業希冀借助AI之力調轉航向,實現轉型或升級,AI系統的設計、部署和運維都需要巨大、多維度的投入且困難重重,在決策選型過程中稍有不慎,都會帶來巨大的沉沒成本,令許多企業望而生畏。
AI的高成本正侵蝕企業的總擁有成本(Total Cost of Ownership, TCO ):AI能力提升的背后,可能會給企業帶來巨大的成本開支,如何在性能和成本之間達到平衡?這一問題讓許多企業決策者感到苦惱。
解決方案
UCloud UAI-Service:面向初創企業、傳統企業AI轉型而生的UCloud UAI-Service,旨在提供易部署、易運維、更安全以及多AI框架支持的AI在線服務節點,可助力企業完成AI模型部署這一關鍵環節,并在圖像識別、機器學習等多個AI領域滿足企業用戶的需求。
英特爾®至強®處理器E5產品家族及英特爾®AVX:通過與英特爾的緊密技術合作,UAI-Service一方面巧妙地利用云主機中英特爾®至強®處理器E5產品家族的空閑處理能力,將其英特爾®AVX能力用于支持和加速AI在線服務;另一方面,利用該處理器產品家族強大的可擴展性進行彈性部署,用低成本獲得高性能,降低用戶的TCO。
成果
真正推動AI技術的普及,助其持續發展:UCloud推出的UAI-Service將身處技術“深閨”中的AI技術和應用進一步平民化、實體化。通過PaaS的方式,讓更多有志于在AI領域開拓進取的企業能夠獲取出色的AI部署能力,進而讓整個AI產業實現“小步快跑”的前進節奏。
更有效利用空閑計算資源、節約用戶成本支出:UAI-Service創新地利用英特爾?至強?處理器E5產品家族的空閑處理能力,是對空閑計算資源再利用的有效嘗試,其成功實踐令成千上萬的數據中心處理器的空閑能力得以充分利用。這既降低了企業用戶的TCO,也達到了環保節能的效果。
橫空出世的AlphaGo,讓AI成為近兩年來人們持續關注的熱點。而AI也正在走出象牙塔,走近普通企業和大眾,并開始在經濟和民生層面扮演起越來越重要的角色。從機器學習、模式識別到自動駕駛、機器視覺,不但眾多初創企業將AI研發作為揚帆起航的契機,許多傳統企業也將其作為自身轉型升級所必備的利器。
但AI系統的建設并非易事,企業AI系統的建設可分為“數據收集”、“模型訓練”及“模型部署”三個步驟,每個步驟都會帶來復雜的IT系統建設及運維工作。隨著各類大數據、云計算技術方案的日趨成熟,“數據收集”和“模型訓練”的工作正逐漸轉移到云上,形成了成熟的云化方案,而AI模型部署的云化還存在許多問題:一方面,多種多樣的AI框架需要企業制訂和執行不同的部署策略,難免因此產生高昂的運營成本;另一方面,主要用于模型訓練的GPU平臺在模型部署中不僅部署成本較高,而且在擴展性上的表現也不夠理想。
UCloud推動的UAI-Service,就是針對上述AI模型部署難題而生的創新方案。UCloud的工程師們創造性地利用了虛擬云主機上英特爾?至強?處理器E5產品家族的空閑計算資源,借助英特爾?AVX的能力,來提供專注于AI模型部署的AI在線服務。英特爾?至強?處理器強大的可擴展性也幫助UAI-Service獲得了快速便捷部署的能力,并顯著降低了企業運行AI在線服務的成本支出。
讓使用AI服務像使用云主機一樣便捷
“簡單來講,AI的三部曲可以分為大數據收集,AI模型訓練和AI在線服務。”UCloud創新產品線總監葉理燈這樣描述企業AI系統建設,“此前,針對前兩步,UCloud都已經為用戶提供了成熟的云主機、云存儲、云網絡等解決方案。”
但三部曲的最后樂章,卻還面臨諸多問題。一方面,企業用戶在基于AI進行業務創新時,常常面臨眾多的業務流程,如何將不同的業務流程與AI在線服務一一映射,這對AI在線服務的部署、可管理性及可擴展性提出了巨大的挑戰;另一方面,面對眾多的AI框架,企業運維人員總有無從著手的煩惱,因為他們需要為各個框架開發和配置不同的接口,工作量巨大。為解決AI系統建設這“最后一公里”的問題,UCloud提供了UAI-Service,它能基于大規模分布式計算平臺為用戶提供AI在線服務。
在實際任務部署中,UAI-Service為用戶提供了“兩步走”的部署模式。首先,向用戶提供SDK工具包,內含接口代碼框架、代碼和數據打包模板以及第三方依賴庫描述模板。用戶只需根據SDK工具包內的代碼框架編寫接口代碼,準備好相關代碼和AI模型以及第三方庫列表,就可以通過打包工具一鍵完成任務的在線部署。
任務打包完畢后,用戶可以通過UAI-Service分布式的AI在線服務PaaS平臺進行后續管理和維護。該平臺可以同時管理上千個計算節點,每個計算節點都是同構節點,具有相等的計算能力,并擁有自動請求負載均衡、自動資源管理的功能。用戶只需要將業務部署在平臺上,就無須操心其后續的運維。
“UAI-Service給用戶帶來的最大優勢,就是省去了部署AI在線服務時的大量繁瑣工作,讓用戶可以將寶貴的資源聚焦在自身的業務上。”在UCloud葉理燈看來,如果每一個企業用戶在部署自己的AI服務時,都需要通盤考慮容災、安全性、資源調度或者負載均衡,那么企業在人力資源和成本上的支出將是沉重不堪的。
UAI-Service將這些工作都內化為SDK包和PaaS平臺服務,用戶只需要像使用云主機或者云存儲服務那樣,輕松將所需的功能或服務配置在一起就可以使用,而且UAI-Service還可以自動將分布式部署的四大要素——負載均衡、自動擴容、分布式容災以及海量計算資源進行有效配置。
在下一篇中,我們將繼續介紹UAI-Service平臺的另一優勢,以及UAI-Service如何借力英特爾技術以發揮其更強的AI能力等方面的技術解讀。