開閘蓄水,企業機器學習井噴
從自動駕駛到機器翻譯,從識別欺詐交易到語音識別,從衛星圖像識別到幫助視頻流服務預測我們想看哪部電影······
機器學習(ML)正在推動人工智能(AI)應用爆炸式增長,幫助軟件理解不確定和不可預測的現實世界。
毫無疑問,得益于數據量的增加、算力的豐富、算法的進步,機器學習被認為是目前最成功的人工智能技術,并徹底改變了行業競爭態勢和我們的日常生活。
機器學習使計算機能夠處理迄今為止僅由人執行的任務。Gartner的相關調查顯示,2020年平均每個企業部署ML項目為10個,而到2021年將達到20個。機器學習在全球將產生高達2.6萬億美元的價值。
那么在企業服務領域,當前的機器學習繁榮靠的是什么?未來又將在哪些方面發揮更多的作用?
1 機器學習應用時刻環繞著我們
每個Google搜索都使用了多種機器學習系統,通過您的查詢語言作為模型輸入項,以便給您輸出個性化的結果。因此,搜尋“ bass”的釣魚愛好者,不會被有關吉他的結果所淹沒。
同樣,Gmail的垃圾郵件和網絡釣魚識別系統也使用經過大量數據訓練的機器學習模型,以使您的收件箱中沒有惡意郵件。
虛擬助手是機器學習功能最明顯的體現之一,如Apple的Siri、亞馬遜的Alexa、Google Assistant和Microsoft Cortana,每一個都嚴重依賴機器學習,支持其語音識別和理解自然語言的能力。
除了這些明顯表現之外,機器學習幾乎在每個行業中都找到了一些用途。
如無人駕駛汽車、無人機和送貨機器人的計算機視覺,聊天機器人和服務機器人的語言識別與合成;安全系統或者無人商超的人臉識別;為商務會議提供合理準確的轉錄和語音翻譯,幫助放射科醫生從X射線中找出腫瘤,幫助研究人員發現與疾病有關的基因序列,并確定在藥物中更有效的藥物分子;通過分析物聯網 傳感器數據,對基礎設施進行預測性維護等等。
那么,什么是機器學習?
機器學習是教計算機系統如何在饋入數據時進行準確預測的過程。這些預測可能會回答“照片中的水果是香蕉還是蘋果”,會發現無人駕駛汽車前過馬路的人,判斷是電子郵件是垃圾郵件,抖音上語音合成自動生成字幕,等等。
機器學習是基于已有數據、知識或經驗自動識別有意義的模式。最基本的機器學習使用算法解析和學習數據,然后在相似的環境里做出決定或預測。
機器學習模型已被教導如何通過對大量數據進行訓練,并可靠地區分水果。在這種情況下,可能有大量標記為包含香蕉或蘋果的圖像數據,用來對模型進行訓練。
在機器學習過程中,并沒有人為指示機器學習系統如何對未知環境做出決策或預測,這一過程由機器學習中的算法從數據中學習得到的,做出決策的主體是機器學習算法,并且決策或預測是非確定性的結果,一般以概率的形式輸出,比如80%的可能性是晴天。
機器學習與傳統計算機軟件的主要區別在于,人類的開發人員尚未編寫代碼來指示系統如何分辨香蕉和蘋果之間的區別。
與之不同的是,常規的應用程序需要軟件工程師一句句地編寫代碼(特定的指令集),指示程序或軟件做出確定的行為,比如輸出0和1分別表示注冊成功和失敗。做出決策的主體實際是人,程序只是執行動作的工具。正因如此,機器學習可歸為間接編程,與之對應的是常規編程。
人工智能和機器學習之間有什么區別?
機器學習最近獲得了巨大的成功,但它只是實現人工智能的一種方法。
在20世紀50年代誕生之初,AI被定義為能夠執行通常需要人類智能的任務的任何機器。
人工智能系統通常會表現出這些特征:計劃、學習、推理、問題解決、知識表示、感知、運動和操縱,以及在較小程度上具有社會智能和創造力。
除了機器學習之外,還有多種其他方法可用于構建AI系統,包括進化計算和專家系統。在進化計算中,算法經過隨機變異和代際組合,以試圖“進化”成最佳解決方案;在專家系統中,計算機模仿了特定領域中人類專家的行為,如自動駕駛系統模仿人駕駛飛機飛行。
現在我們可以看見,機器學習系統在我們周圍被廣泛使用,今天已成為現代互聯網的基石。
更令人震驚的是,2020年,OpenAI的GPT-3以其像人一樣的寫作能力而成為頭條新聞,幾乎涵蓋了能想到的任何主題。
GPT-3是一個經過培訓的神經網絡,可對開放式網絡上提供的數十億篇英語文章進行學習,并且可以根據文本提示生成文章。
在企業服務領域,AI實現的熱門領域隨處可見,如:
用于生產設備的故障預測,制定維護周期/計劃,實現7x24全天候運行的目標;
用于銀行和保險業貸款和保單自動化承保和決策的人工智能,以及提供反欺詐的早期發現和預測;
AI協助醫學診斷,特別是圖形、圖像的模式識別;
用于安全漏洞和入侵檢測的預防,以及數據中心硬件、軟件和環境維護;
消費者消費行為、模式預測,市場營銷和銷售策略的決策等。
2 機器學習為什么那么成功?
機器學習已成為應用最廣泛的AI技術。Gartner的調查顯示,約有37%的組織在其業務中使用某種類型的機器學習技術,并且預計到2022年,80%的現代技術將基于機器學習和人工智能技術。
德勤發布的《全球人工智能發展白皮書》指出,在人工智能眾多的分支領域中,機器學習是人工智能的核心研究領域之一。包括89%的人工智能專利申請和40%人工智能范圍內的相關專利均屬于機器學習范疇。
盡管機器學習不是一種新技術,但近年企業服務來對該領域的興趣激增。為什么機器學習如此成功?
使這些成功成為可能的因素主要有兩個:一是擁有了可用于訓練機器學習系統的大量圖像、語音、視頻和文本等數據。
更為重要的是,由于現代圖形處理單元(GPU)的出現,可以聚集在一起以形成機器學習引擎,具備了大量并行處理能力。
如今,具有互聯網連接的任何人都可以通過亞馬遜、谷歌和微軟,以及阿里云、騰訊云等公司提供的云服務,使用計算集群來訓練機器學習模型。
隨著機器學習使用的日漸普及,很多半導體或者云服務公司正在創建針對運行和訓練機器學習模型而量身定制的專用硬件。
Google的Tensor處理單元(TPU)不僅用于訓練Google DeepMind和Google Brain的模型,還用于支持Google翻譯和Google Photo中的圖像識別的模型,以及允許公眾使用Google的TensorFlow Research Cloud構建機器學習模型的服務。
谷歌表示,到2020年,其第四代TPU比MLPerf中的上一代TPU快2.7倍,該基準用于衡量系統使用訓練有素的ML模型進行推理的速度。
2019年,阿里巴巴發布了其首款為人工智能(AI)流程提供動力的芯片,名為漢光800。當年,華為也宣布其人工智能芯片"Ascend 910"面向數據中心,可與高通(Qualcomm)和Nvidia(Nvidia)等美國科技公司對抗。
騰訊與中信、中金資本和Primavera等多家投資者向上海的Enflame科技公司投資了18億元。Enflame技術制造芯片,用于處理大量數據以訓練人工智能系統。
隨著硬件的日益專業化和機器學習軟件框架的不斷完善,機器學習任務越來越多地在智能手機和計算機上執行,而不是在云數據中心中執行。
那么在企業服務中,機器學習應用出現的幾大發展趨向值得關注。
由IT管理ML項目的比例降低。TechRepublic Premium調查結果顯示,由IT和終端業務共同管理AI / ML項目的受訪者為23%,由IT管理項目的受訪者為19%,由數據科學部門管理的AI / ML項目的受訪者為11%。這與2019年33%的AI / ML項目由IT管理相比有所降低。
為確保AL / ML項目成功所采取的策略中,最高的三項是與管理層合作,以更好地確定AI / ML的業務用例(52%),準備/培訓IT員工(48%)以及對數據準備,計算和自動化流程進行投資(46 %)。
對AI / ML項目實施的擔憂也有所改變。2020年,最大的顧慮是沒有收到能夠證明投資合理性的業務結果(48%),員工準備/難以找到AI / ML人才(38%)以及實施時間太長(37%)。
ML更多的應用于業務。根據調查的受訪者,47%的人將AI / ML應用于業務運營,30%的人將其應用于市場營銷/銷售,27%的人將技術應用于工程和IT。
3 機器學習已成為云服務新的增長點
事實上,機器學習的快速崛起很大程度上得益于云計算的普及,云計算所展現出的計算能力,能夠滿足日益普及的機器學習工作負載對計算的需求。
目前已經有超過10萬客戶在使用AWS的機器學習服務,很多客戶已經將機器學習用于其核心業務。
從2016年起,AWS開始在云上提供機器學習服務。經過近幾年的持續創新,AWS在機器學習領域已經構建起一個“全家福”工具集,真正做到了讓客戶可以“開箱即用”。
工具集的底層,AWS提供強大的算力、全面的算力選擇和豐富的機器學習框架選擇。
工具集的中間層,AWS的Amazon SageMaker可以提供首個全托管的機器學習集成開發環境,最大限度地提高用戶開展機器學習的效率,降低開展機器學習的門檻。
工具集的頂層,AWS提供預先訓練好的模型,涵蓋視覺、語音、對話、文字、業務工具、客服中心、搜索、代碼+運維、工業AI等。
騰訊云提供的智能鈦機器學習(TI Machine Learning)是一站式機器學習生態服務平臺,能夠對各種數據源、組件、算法、模型和評估模塊進行組合,使得算法工程師和數據科學家在其之上能夠方便地進行模型訓練、評估和預測。智能鈦系列產品支持公有云訪問、私有化部署以及專屬云部署。
其中智能鈦機器學習平臺TI-ONE是為AI工程師打造的一站式機器學習服務平臺,為用戶提供從數據預處理、模型構建、模型訓練、模型評估到模型服務的全流程開發支持。智能鈦機器學習平臺內置豐富的算法組件,支持多種算法框架,滿足多種AI應用場景的需求。自動化建模(AutoML)的支持與拖拽式任務流設計讓 AI 初學者也能輕松上手。
智能鈦彈性模型服務TI-EMS是具備虛擬化異構算力和彈性擴縮容能力的在線推理平臺,能夠幫助客戶解決模型部署復雜、資源浪費、手工擴展資源效率低下的問題。
智能鈦工業 AI 平臺TI-Insight是基于智能鈦基礎功能打造的一站式工業AI平臺方案,包含 AI訓練系統和AI推理系統兩個功能組件。
IDC發布的《中國 AI 云服務市場(2020 上半年)跟蹤》報告顯示,華為云一站式AI開發平臺ModelArts位居機器學習公有云服務中國市場份額第一位,高達29%。
華為云一站式AI開發平臺ModelArts在行業用戶中的主動提及率非常高。
4 機器學習已成為企業數字化轉型的重要方向
根據IDC的數據,當前40%的企業數字化轉型項目都會運用人工智能技術,目前來看最主要是機器學習技術。
在這個時代,人工智能與各行業融合成為一大發展趨勢,可以說人工智能迎來技術落地的最好時期??梢哉f,善于利用人工智能技術應用的企業將會迎來新一輪發展紅利。
越來越多的行業用戶會基于業務需求,利用組織內部的人才、數據等資源,把人工智能嵌入到業務流程或用戶界面,給客戶帶來超個性化體驗。
一方面,企業的數據量的增長速度比預測得要快。專家報告說,世界上90%的數據是在過去兩年內產生的。由社交媒體和流媒體內容、智能家居和可穿戴設備、數碼照片和視頻、商業信息和網上購物等應用批量生產數據,將產生比過去30年更多的數據。
IDC數據顯示,從2010年至2020年,全球產生的數據量增長率接近5000%,過去所謂的"大數據"正在被重新定義。
另一方面,擁有所有這些數據并不意味著用戶會自動獲得知識。捕獲正確的數據,使用復雜的分析平臺,并利用數據創造價值,這就是機器學習發展的基礎。
IDC表示,超大規模計算、5G通信、工業物聯網(IIoT)、人工智能/機器學習(AI/ML)等顛覆性技術,為更好的激活數據價值提供工具。
云計算掃清了廣大企業應用人工智能和機器學習的障礙,以此推動企業數字化轉型。
目前,最有能力接受數字化轉型的行業是那些以數字為先的行業,如互聯網公司、電信公司等。
那些以數據驅動決策為核心的傳統公司,如制藥公司、金融公司、航空公司、制造企業等正利用機器學習等AI技術實現數字化轉型,打造更具競爭力的新優勢。
看來,在數字化轉型方面,AI技術不會缺席,并可能帶動數字化升級。