如何選擇數(shù)據(jù)分析平臺(tái)
本文是一份對(duì)數(shù)據(jù)分析的生命周期、不斷擴(kuò)展的工具和技術(shù)組合,以及如何根據(jù)你的需要選擇一個(gè)正確的數(shù)據(jù)平臺(tái)的簡(jiǎn)要指南。
無(wú)論你是在軟件開(kāi)發(fā)、devops、系統(tǒng)、云計(jì)算、測(cè)試自動(dòng)化、站點(diǎn)可靠性、領(lǐng)導(dǎo)scrum團(tuán)隊(duì)、信息安全或是其他的信息技術(shù)領(lǐng)域負(fù)有責(zé)任,你都會(huì)有越來(lái)越多的機(jī)會(huì)和需求來(lái)與數(shù)據(jù)、分析和機(jī)器學(xué)習(xí)打交道。
你對(duì)數(shù)據(jù)分析的接觸可能來(lái)自于IT數(shù)據(jù),例如從敏捷、devops或網(wǎng)站指標(biāo)中所開(kāi)發(fā)的度量和見(jiàn)解。要學(xué)習(xí)有關(guān)數(shù)據(jù)、分析和機(jī)器學(xué)習(xí)的基本技能和工具,最好的方法就是將它們應(yīng)用到你所知道的數(shù)據(jù)中,并從中挖掘出見(jiàn)解來(lái)推動(dòng)行動(dòng)。
一旦你脫離了IT數(shù)據(jù)的世界,來(lái)向數(shù)據(jù)科學(xué)家團(tuán)隊(duì)、公民數(shù)據(jù)科學(xué)家和其他執(zhí)行數(shù)據(jù)可視化、分析和機(jī)器學(xué)習(xí)的業(yè)務(wù)分析師提供服務(wù),事情就變得有點(diǎn)復(fù)雜了。
首先,你必須加載和清理數(shù)據(jù)。然后,根據(jù)數(shù)據(jù)的數(shù)量、種類(lèi)和速度,你可能會(huì)遇到多個(gè)后端數(shù)據(jù)庫(kù)和云數(shù)據(jù)技術(shù)。最后,在過(guò)去的幾年中,商業(yè)智能和數(shù)據(jù)可視化工具之間的選擇也已經(jīng)膨脹成了一個(gè)全生命周期分析和機(jī)器學(xué)習(xí)平臺(tái)的復(fù)雜矩陣。
分析和機(jī)器學(xué)習(xí)的重要性增加了IT在多個(gè)領(lǐng)域的責(zé)任。例如:
- IT經(jīng)常會(huì)提供圍繞所有數(shù)據(jù)集成、后端數(shù)據(jù)庫(kù)和分析平臺(tái)的服務(wù)。
- Devops團(tuán)隊(duì)經(jīng)常會(huì)部署和擴(kuò)展數(shù)據(jù)基礎(chǔ)設(shè)施,以便在機(jī)器學(xué)習(xí)模型上進(jìn)行實(shí)驗(yàn),然后支持生產(chǎn)數(shù)據(jù)的處理。
- 網(wǎng)絡(luò)運(yùn)營(yíng)團(tuán)隊(duì)會(huì)在SaaS分析工具、多云和數(shù)據(jù)中心之間建立安全連接。
- IT服務(wù)管理團(tuán)隊(duì)需要響應(yīng)數(shù)據(jù)和分析服務(wù)的請(qǐng)求和事件。
- Infosec監(jiān)督數(shù)據(jù)安全治理和實(shí)施。
- 開(kāi)發(fā)者將分析和機(jī)器學(xué)習(xí)模型集成到應(yīng)用程序中。
考慮到分析、云數(shù)據(jù)平臺(tái)和機(jī)器學(xué)習(xí)能力的爆炸式增長(zhǎng),這里有一個(gè)入門(mén)課程,可以幫助你更好地了解分析的生命周期,從數(shù)據(jù)集成和清理到數(shù)據(jù)運(yùn)營(yíng),再到數(shù)據(jù)庫(kù)、數(shù)據(jù)平臺(tái)和分析產(chǎn)品本身。
從數(shù)據(jù)集成和數(shù)據(jù)清理開(kāi)始的數(shù)據(jù)分析
在分析師、公民數(shù)據(jù)科學(xué)家或數(shù)據(jù)科學(xué)團(tuán)隊(duì)能夠執(zhí)行分析之前,他們必須能夠在其數(shù)據(jù)可視化和分析平臺(tái)中訪問(wèn)所需的數(shù)據(jù)源。
首先,你可能需要集成來(lái)自多個(gè)企業(yè)系統(tǒng)的數(shù)據(jù),從SaaS應(yīng)用程序提取數(shù)據(jù),或者從物聯(lián)網(wǎng)傳感器和其他實(shí)時(shí)數(shù)據(jù)源中提取流數(shù)據(jù)。
這些都是為分析和機(jī)器學(xué)習(xí)收集、加載和集成數(shù)據(jù)的所有步驟。而根據(jù)數(shù)據(jù)和數(shù)據(jù)質(zhì)量問(wèn)題的復(fù)雜性,還將有機(jī)會(huì)參與數(shù)據(jù)操作、數(shù)據(jù)編目、主數(shù)據(jù)管理和其他的數(shù)據(jù)治理計(jì)劃。
我們都知道這樣的一句話:“輸入的是垃圾,輸出的也會(huì)是垃圾”。分析師必須關(guān)注他們的數(shù)據(jù)質(zhì)量,數(shù)據(jù)科學(xué)家也必須關(guān)注他們機(jī)器學(xué)習(xí)模型中的偏差。此外,集成新數(shù)據(jù)的及時(shí)性對(duì)于希望變得更加實(shí)時(shí)的數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)來(lái)說(shuō)也是至關(guān)重要的。基于這些原因,加載和處理數(shù)據(jù)的管道在分析和機(jī)器學(xué)習(xí)中會(huì)變得非常重要。
可應(yīng)對(duì)各種數(shù)據(jù)管理挑戰(zhàn)的數(shù)據(jù)庫(kù)和數(shù)據(jù)平臺(tái)
加載和處理數(shù)據(jù)是必要的第一步,但是在選擇最佳數(shù)據(jù)庫(kù)時(shí),事情會(huì)變得更加復(fù)雜。今天的選擇已經(jīng)包括了企業(yè)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、大數(shù)據(jù)處理平臺(tái)以及專(zhuān)門(mén)的NoSQL、圖、鍵值、文檔和柱狀數(shù)據(jù)庫(kù)。為了支持大規(guī)模的數(shù)據(jù)倉(cāng)庫(kù)和分析,會(huì)有像Snowflake, Redshift, BigQuery, Vertica和Greenplum這樣的平臺(tái)。最后則是大數(shù)據(jù)平臺(tái),包括Spark和Hadoop。
大型企業(yè)很可能擁有多個(gè)數(shù)據(jù)存儲(chǔ)庫(kù),并使用了云數(shù)據(jù)平臺(tái),如Cloudera數(shù)據(jù)平臺(tái)或MapR數(shù)據(jù)平臺(tái),或是InfoWorks DataFoundy等數(shù)據(jù)編排平臺(tái),以便使所有的這些存儲(chǔ)庫(kù)都可用于分析。
包括AWS、GCP和Azure在內(nèi)的主要公共云都有需要篩選的數(shù)據(jù)管理平臺(tái)和服務(wù)。例如,Azure Synapse Analytics是微軟在云端的SQL數(shù)據(jù)倉(cāng)庫(kù),而Azure Cosmos DB則是提供了許多NoSQL數(shù)據(jù)存儲(chǔ)的接口,包括Cassandra(柱狀數(shù)據(jù))、MongoDB(鍵值和文檔數(shù)據(jù))和Gremlin(圖形數(shù)據(jù))。
數(shù)據(jù)湖是用來(lái)集中非結(jié)構(gòu)化數(shù)據(jù)以進(jìn)行快速分析的流行加載平臺(tái),人們可以從Azure數(shù)據(jù)湖、Amazon S3或Google云存儲(chǔ)中挑選數(shù)據(jù)來(lái)實(shí)現(xiàn)這一目的。在處理大數(shù)據(jù)方面,AWS、GCP和Azure clouds中也都有Spark和Hadoop產(chǎn)品。
分析平臺(tái)的目標(biāo)是機(jī)器學(xué)習(xí)和協(xié)作
隨著數(shù)據(jù)的加載、清理和存儲(chǔ),數(shù)據(jù)科學(xué)家和分析師便可以開(kāi)始執(zhí)行分析和機(jī)器學(xué)習(xí)了。根據(jù)分析的類(lèi)型、執(zhí)行工作的分析團(tuán)隊(duì)的技能和底層數(shù)據(jù)的結(jié)構(gòu),組織會(huì)有許多不同的選擇。
分析可以在自助式數(shù)據(jù)可視化工具(如Tableau和Microsoft Power BI)中執(zhí)行。這兩種工具都以公民數(shù)據(jù)科學(xué)家為目標(biāo),并公開(kāi)了可視化、計(jì)算和基本分析。這些工具支持基本的數(shù)據(jù)集成和數(shù)據(jù)重組,但更復(fù)雜的數(shù)據(jù)爭(zhēng)論經(jīng)常會(huì)發(fā)生在分析步驟之前。Tableau Data Prep和Azure Data Factory是幫助集成和轉(zhuǎn)換數(shù)據(jù)的輔助工具。
除了數(shù)據(jù)集成和準(zhǔn)備之外,想要自動(dòng)化的分析團(tuán)隊(duì)則可以考慮像Alteryx Analytics Process Automation這樣的平臺(tái)。這個(gè)端到端的協(xié)作平臺(tái)能夠?qū)㈤_(kāi)發(fā)人員、分析師、公民數(shù)據(jù)科學(xué)家和數(shù)據(jù)科學(xué)家與工作流自動(dòng)化和自助數(shù)據(jù)處理、分析和機(jī)器學(xué)習(xí)處理能力連接起來(lái)。
Alteryx公司的首席分析和數(shù)據(jù)官Alan Jacobson解釋說(shuō):“分析流程自動(dòng)化(APA)作為一個(gè)類(lèi)別的出現(xiàn),突顯了一個(gè)組織中的每一個(gè)員工都是數(shù)據(jù)工作者的新期望。IT開(kāi)發(fā)人員也不例外,Alteryx APA平臺(tái)的可擴(kuò)展性對(duì)這些知識(shí)工作者將尤為有用。”
也有一些針對(duì)數(shù)據(jù)科學(xué)家的工具和平臺(tái),旨在使他們?cè)谑褂肞ython和R等技術(shù)時(shí)能夠更有效率,同時(shí)還可以簡(jiǎn)化許多操作和基礎(chǔ)設(shè)施步驟。例如,Databricks是一個(gè)數(shù)據(jù)科學(xué)操作平臺(tái),它支持將算法部署到Apache Spark和TensorFlow當(dāng)中,同時(shí)在AWS或Azure云上自動(dòng)管理計(jì)算集群。
現(xiàn)在,一些像SAS Viya這樣的平臺(tái)能夠?qū)?shù)據(jù)準(zhǔn)備、分析、預(yù)測(cè)、機(jī)器學(xué)習(xí)、文本分析和機(jī)器學(xué)習(xí)模型管理結(jié)合到一個(gè)單一的modelops平臺(tái)上。SAS也正在實(shí)施數(shù)據(jù)分析,并以實(shí)現(xiàn)一個(gè)端到端的協(xié)作平臺(tái)為目標(biāo),將面向數(shù)據(jù)科學(xué)家、業(yè)務(wù)分析師、開(kāi)發(fā)人員和高管。
SAS的決策管理研究和開(kāi)發(fā)總監(jiān)David Duling說(shuō):“我們認(rèn)為modelops是一種創(chuàng)建可重復(fù)的、可審核的操作管道的實(shí)踐,可用于將所有的分析部署到操作系統(tǒng)當(dāng)中,包括AI和ML模型。作為modelops的一部分,我們已經(jīng)可以使用現(xiàn)代的devops實(shí)踐來(lái)進(jìn)行代碼管理、測(cè)試和監(jiān)控了。這將有助于提高模型部署的頻率和可靠性,從而提高建立在這些模型上的業(yè)務(wù)流程的靈活性。”
Dataiku是另一個(gè)致力于為不斷壯大的數(shù)據(jù)科學(xué)團(tuán)隊(duì)及其合作者提供數(shù)據(jù)準(zhǔn)備、分析和機(jī)器學(xué)習(xí)的平臺(tái)。Dataiku有一個(gè)可視化的編程模型來(lái)支持協(xié)作和為高級(jí)SQL和Python開(kāi)發(fā)人員編寫(xiě)代碼記錄。
來(lái)自領(lǐng)先的企業(yè)軟件供應(yīng)商的其他一些分析和機(jī)器學(xué)習(xí)平臺(tái)也希望為數(shù)據(jù)中心和云數(shù)據(jù)源帶來(lái)分析能力。例如,Oracle Analytics Cloud和SAP Analytics Cloud都旨在集中智能和自動(dòng)化洞察,以實(shí)現(xiàn)端到端的決策。
選擇數(shù)據(jù)分析平臺(tái)
在大數(shù)據(jù)、機(jī)器學(xué)習(xí)和數(shù)據(jù)治理興起之前,選擇一個(gè)數(shù)據(jù)集成、倉(cāng)儲(chǔ)和分析工具通常是更為直接的選擇。而今天,隨著術(shù)語(yǔ)、平臺(tái)功能、操作需求、治理需求以及目標(biāo)用戶(hù)角色的混合,使得選擇平臺(tái)變復(fù)雜了,特別是在許多供應(yīng)商都支持多種使用范式的情況下。
企業(yè)在分析需求和目標(biāo)方面通常會(huì)有所不同,但都應(yīng)該從已有的優(yōu)勢(shì)出發(fā)來(lái)尋找一個(gè)新的平臺(tái)。例如:
- 在公民數(shù)據(jù)科學(xué)項(xiàng)目上取得成功的公司,以及已經(jīng)擁有數(shù)據(jù)可視化工具的公司,可能會(huì)希望通過(guò)分析流程自動(dòng)化或數(shù)據(jù)準(zhǔn)備技術(shù)來(lái)擴(kuò)展該項(xiàng)目。
- 想要一個(gè)工具鏈,來(lái)讓數(shù)據(jù)科學(xué)家能夠在不同的業(yè)務(wù)部門(mén)工作的企業(yè)可以考慮使用具有modelops功能的端到端分析平臺(tái)。
- 擁有多個(gè)不同后端數(shù)據(jù)平臺(tái)的組織可以從云數(shù)據(jù)平臺(tái)中獲益,以便對(duì)其進(jìn)行編目和集中管理。
- 想要在單一公共云供應(yīng)商上標(biāo)準(zhǔn)化所有或大部分?jǐn)?shù)據(jù)能力的公司應(yīng)該研究可以提供數(shù)據(jù)集成、數(shù)據(jù)管理和數(shù)據(jù)分析的平臺(tái)。
隨著分析和機(jī)器學(xué)習(xí)開(kāi)始成為重要的核心能力,技術(shù)人員們都應(yīng)考慮加深對(duì)可用平臺(tái)及其能力的理解。因?yàn)榉治銎脚_(tái)的力量和價(jià)值會(huì)不斷增加,它們?cè)谡麄€(gè)企業(yè)的影響力也會(huì)不斷增加。