成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何選擇數(shù)據(jù)分析平臺(tái)

大數(shù)據(jù) 數(shù)據(jù)分析
本文是一份對(duì)數(shù)據(jù)分析的生命周期、不斷擴(kuò)展的工具和技術(shù)組合,以及如何根據(jù)你的需要選擇一個(gè)正確的數(shù)據(jù)平臺(tái)的簡(jiǎn)要指南。

 本文是一份對(duì)數(shù)據(jù)分析的生命周期、不斷擴(kuò)展的工具和技術(shù)組合,以及如何根據(jù)你的需要選擇一個(gè)正確的數(shù)據(jù)平臺(tái)的簡(jiǎn)要指南。

[[334384]]

無(wú)論你是在軟件開(kāi)發(fā)、devops、系統(tǒng)、云計(jì)算、測(cè)試自動(dòng)化、站點(diǎn)可靠性、領(lǐng)導(dǎo)scrum團(tuán)隊(duì)、信息安全或是其他的信息技術(shù)領(lǐng)域負(fù)有責(zé)任,你都會(huì)有越來(lái)越多的機(jī)會(huì)和需求來(lái)與數(shù)據(jù)、分析和機(jī)器學(xué)習(xí)打交道。

你對(duì)數(shù)據(jù)分析的接觸可能來(lái)自于IT數(shù)據(jù),例如從敏捷、devops或網(wǎng)站指標(biāo)中所開(kāi)發(fā)的度量和見(jiàn)解。要學(xué)習(xí)有關(guān)數(shù)據(jù)、分析和機(jī)器學(xué)習(xí)的基本技能和工具,最好的方法就是將它們應(yīng)用到你所知道的數(shù)據(jù)中,并從中挖掘出見(jiàn)解來(lái)推動(dòng)行動(dòng)。

一旦你脫離了IT數(shù)據(jù)的世界,來(lái)向數(shù)據(jù)科學(xué)家團(tuán)隊(duì)、公民數(shù)據(jù)科學(xué)家和其他執(zhí)行數(shù)據(jù)可視化、分析和機(jī)器學(xué)習(xí)的業(yè)務(wù)分析師提供服務(wù),事情就變得有點(diǎn)復(fù)雜了。

首先,你必須加載和清理數(shù)據(jù)。然后,根據(jù)數(shù)據(jù)的數(shù)量、種類(lèi)和速度,你可能會(huì)遇到多個(gè)后端數(shù)據(jù)庫(kù)和云數(shù)據(jù)技術(shù)。最后,在過(guò)去的幾年中,商業(yè)智能和數(shù)據(jù)可視化工具之間的選擇也已經(jīng)膨脹成了一個(gè)全生命周期分析和機(jī)器學(xué)習(xí)平臺(tái)的復(fù)雜矩陣。

分析和機(jī)器學(xué)習(xí)的重要性增加了IT在多個(gè)領(lǐng)域的責(zé)任。例如:

  • IT經(jīng)常會(huì)提供圍繞所有數(shù)據(jù)集成、后端數(shù)據(jù)庫(kù)和分析平臺(tái)的服務(wù)。
  • Devops團(tuán)隊(duì)經(jīng)常會(huì)部署和擴(kuò)展數(shù)據(jù)基礎(chǔ)設(shè)施,以便在機(jī)器學(xué)習(xí)模型上進(jìn)行實(shí)驗(yàn),然后支持生產(chǎn)數(shù)據(jù)的處理。
  • 網(wǎng)絡(luò)運(yùn)營(yíng)團(tuán)隊(duì)會(huì)在SaaS分析工具、多云和數(shù)據(jù)中心之間建立安全連接。
  • IT服務(wù)管理團(tuán)隊(duì)需要響應(yīng)數(shù)據(jù)和分析服務(wù)的請(qǐng)求和事件。
  • Infosec監(jiān)督數(shù)據(jù)安全治理和實(shí)施。
  • 開(kāi)發(fā)者將分析和機(jī)器學(xué)習(xí)模型集成到應(yīng)用程序中。

考慮到分析、云數(shù)據(jù)平臺(tái)和機(jī)器學(xué)習(xí)能力的爆炸式增長(zhǎng),這里有一個(gè)入門(mén)課程,可以幫助你更好地了解分析的生命周期,從數(shù)據(jù)集成和清理到數(shù)據(jù)運(yùn)營(yíng),再到數(shù)據(jù)庫(kù)、數(shù)據(jù)平臺(tái)和分析產(chǎn)品本身。

從數(shù)據(jù)集成和數(shù)據(jù)清理開(kāi)始的數(shù)據(jù)分析

在分析師、公民數(shù)據(jù)科學(xué)家或數(shù)據(jù)科學(xué)團(tuán)隊(duì)能夠執(zhí)行分析之前,他們必須能夠在其數(shù)據(jù)可視化和分析平臺(tái)中訪問(wèn)所需的數(shù)據(jù)源。

首先,你可能需要集成來(lái)自多個(gè)企業(yè)系統(tǒng)的數(shù)據(jù),從SaaS應(yīng)用程序提取數(shù)據(jù),或者從物聯(lián)網(wǎng)傳感器和其他實(shí)時(shí)數(shù)據(jù)源中提取流數(shù)據(jù)。

這些都是為分析和機(jī)器學(xué)習(xí)收集、加載和集成數(shù)據(jù)的所有步驟。而根據(jù)數(shù)據(jù)和數(shù)據(jù)質(zhì)量問(wèn)題的復(fù)雜性,還將有機(jī)會(huì)參與數(shù)據(jù)操作、數(shù)據(jù)編目、主數(shù)據(jù)管理和其他的數(shù)據(jù)治理計(jì)劃。

我們都知道這樣的一句話:“輸入的是垃圾,輸出的也會(huì)是垃圾”。分析師必須關(guān)注他們的數(shù)據(jù)質(zhì)量,數(shù)據(jù)科學(xué)家也必須關(guān)注他們機(jī)器學(xué)習(xí)模型中的偏差。此外,集成新數(shù)據(jù)的及時(shí)性對(duì)于希望變得更加實(shí)時(shí)的數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)來(lái)說(shuō)也是至關(guān)重要的。基于這些原因,加載和處理數(shù)據(jù)的管道在分析和機(jī)器學(xué)習(xí)中會(huì)變得非常重要。

可應(yīng)對(duì)各種數(shù)據(jù)管理挑戰(zhàn)的數(shù)據(jù)庫(kù)和數(shù)據(jù)平臺(tái)

加載和處理數(shù)據(jù)是必要的第一步,但是在選擇最佳數(shù)據(jù)庫(kù)時(shí),事情會(huì)變得更加復(fù)雜。今天的選擇已經(jīng)包括了企業(yè)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、大數(shù)據(jù)處理平臺(tái)以及專(zhuān)門(mén)的NoSQL、圖、鍵值、文檔和柱狀數(shù)據(jù)庫(kù)。為了支持大規(guī)模的數(shù)據(jù)倉(cāng)庫(kù)和分析,會(huì)有像Snowflake, Redshift, BigQuery, Vertica和Greenplum這樣的平臺(tái)。最后則是大數(shù)據(jù)平臺(tái),包括Spark和Hadoop。

大型企業(yè)很可能擁有多個(gè)數(shù)據(jù)存儲(chǔ)庫(kù),并使用了云數(shù)據(jù)平臺(tái),如Cloudera數(shù)據(jù)平臺(tái)或MapR數(shù)據(jù)平臺(tái),或是InfoWorks DataFoundy等數(shù)據(jù)編排平臺(tái),以便使所有的這些存儲(chǔ)庫(kù)都可用于分析。

包括AWS、GCP和Azure在內(nèi)的主要公共云都有需要篩選的數(shù)據(jù)管理平臺(tái)和服務(wù)。例如,Azure Synapse Analytics是微軟在云端的SQL數(shù)據(jù)倉(cāng)庫(kù),而Azure Cosmos DB則是提供了許多NoSQL數(shù)據(jù)存儲(chǔ)的接口,包括Cassandra(柱狀數(shù)據(jù))、MongoDB(鍵值和文檔數(shù)據(jù))和Gremlin(圖形數(shù)據(jù))。

數(shù)據(jù)湖是用來(lái)集中非結(jié)構(gòu)化數(shù)據(jù)以進(jìn)行快速分析的流行加載平臺(tái),人們可以從Azure數(shù)據(jù)湖、Amazon S3或Google云存儲(chǔ)中挑選數(shù)據(jù)來(lái)實(shí)現(xiàn)這一目的。在處理大數(shù)據(jù)方面,AWS、GCP和Azure clouds中也都有Spark和Hadoop產(chǎn)品。

分析平臺(tái)的目標(biāo)是機(jī)器學(xué)習(xí)和協(xié)作

隨著數(shù)據(jù)的加載、清理和存儲(chǔ),數(shù)據(jù)科學(xué)家和分析師便可以開(kāi)始執(zhí)行分析和機(jī)器學(xué)習(xí)了。根據(jù)分析的類(lèi)型、執(zhí)行工作的分析團(tuán)隊(duì)的技能和底層數(shù)據(jù)的結(jié)構(gòu),組織會(huì)有許多不同的選擇。

分析可以在自助式數(shù)據(jù)可視化工具(如Tableau和Microsoft Power BI)中執(zhí)行。這兩種工具都以公民數(shù)據(jù)科學(xué)家為目標(biāo),并公開(kāi)了可視化、計(jì)算和基本分析。這些工具支持基本的數(shù)據(jù)集成和數(shù)據(jù)重組,但更復(fù)雜的數(shù)據(jù)爭(zhēng)論經(jīng)常會(huì)發(fā)生在分析步驟之前。Tableau Data Prep和Azure Data Factory是幫助集成和轉(zhuǎn)換數(shù)據(jù)的輔助工具。

除了數(shù)據(jù)集成和準(zhǔn)備之外,想要自動(dòng)化的分析團(tuán)隊(duì)則可以考慮像Alteryx Analytics Process Automation這樣的平臺(tái)。這個(gè)端到端的協(xié)作平臺(tái)能夠?qū)㈤_(kāi)發(fā)人員、分析師、公民數(shù)據(jù)科學(xué)家和數(shù)據(jù)科學(xué)家與工作流自動(dòng)化和自助數(shù)據(jù)處理、分析和機(jī)器學(xué)習(xí)處理能力連接起來(lái)。

Alteryx公司的首席分析和數(shù)據(jù)官Alan Jacobson解釋說(shuō):“分析流程自動(dòng)化(APA)作為一個(gè)類(lèi)別的出現(xiàn),突顯了一個(gè)組織中的每一個(gè)員工都是數(shù)據(jù)工作者的新期望。IT開(kāi)發(fā)人員也不例外,Alteryx APA平臺(tái)的可擴(kuò)展性對(duì)這些知識(shí)工作者將尤為有用。”

也有一些針對(duì)數(shù)據(jù)科學(xué)家的工具和平臺(tái),旨在使他們?cè)谑褂肞ython和R等技術(shù)時(shí)能夠更有效率,同時(shí)還可以簡(jiǎn)化許多操作和基礎(chǔ)設(shè)施步驟。例如,Databricks是一個(gè)數(shù)據(jù)科學(xué)操作平臺(tái),它支持將算法部署到Apache Spark和TensorFlow當(dāng)中,同時(shí)在AWS或Azure云上自動(dòng)管理計(jì)算集群。

現(xiàn)在,一些像SAS Viya這樣的平臺(tái)能夠?qū)?shù)據(jù)準(zhǔn)備、分析、預(yù)測(cè)、機(jī)器學(xué)習(xí)、文本分析和機(jī)器學(xué)習(xí)模型管理結(jié)合到一個(gè)單一的modelops平臺(tái)上。SAS也正在實(shí)施數(shù)據(jù)分析,并以實(shí)現(xiàn)一個(gè)端到端的協(xié)作平臺(tái)為目標(biāo),將面向數(shù)據(jù)科學(xué)家、業(yè)務(wù)分析師、開(kāi)發(fā)人員和高管。

SAS的決策管理研究和開(kāi)發(fā)總監(jiān)David Duling說(shuō):“我們認(rèn)為modelops是一種創(chuàng)建可重復(fù)的、可審核的操作管道的實(shí)踐,可用于將所有的分析部署到操作系統(tǒng)當(dāng)中,包括AI和ML模型。作為modelops的一部分,我們已經(jīng)可以使用現(xiàn)代的devops實(shí)踐來(lái)進(jìn)行代碼管理、測(cè)試和監(jiān)控了。這將有助于提高模型部署的頻率和可靠性,從而提高建立在這些模型上的業(yè)務(wù)流程的靈活性。”

Dataiku是另一個(gè)致力于為不斷壯大的數(shù)據(jù)科學(xué)團(tuán)隊(duì)及其合作者提供數(shù)據(jù)準(zhǔn)備、分析和機(jī)器學(xué)習(xí)的平臺(tái)。Dataiku有一個(gè)可視化的編程模型來(lái)支持協(xié)作和為高級(jí)SQL和Python開(kāi)發(fā)人員編寫(xiě)代碼記錄。

來(lái)自領(lǐng)先的企業(yè)軟件供應(yīng)商的其他一些分析和機(jī)器學(xué)習(xí)平臺(tái)也希望為數(shù)據(jù)中心和云數(shù)據(jù)源帶來(lái)分析能力。例如,Oracle Analytics Cloud和SAP Analytics Cloud都旨在集中智能和自動(dòng)化洞察,以實(shí)現(xiàn)端到端的決策。

選擇數(shù)據(jù)分析平臺(tái)

在大數(shù)據(jù)、機(jī)器學(xué)習(xí)和數(shù)據(jù)治理興起之前,選擇一個(gè)數(shù)據(jù)集成、倉(cāng)儲(chǔ)和分析工具通常是更為直接的選擇。而今天,隨著術(shù)語(yǔ)、平臺(tái)功能、操作需求、治理需求以及目標(biāo)用戶(hù)角色的混合,使得選擇平臺(tái)變復(fù)雜了,特別是在許多供應(yīng)商都支持多種使用范式的情況下。

企業(yè)在分析需求和目標(biāo)方面通常會(huì)有所不同,但都應(yīng)該從已有的優(yōu)勢(shì)出發(fā)來(lái)尋找一個(gè)新的平臺(tái)。例如:

  • 在公民數(shù)據(jù)科學(xué)項(xiàng)目上取得成功的公司,以及已經(jīng)擁有數(shù)據(jù)可視化工具的公司,可能會(huì)希望通過(guò)分析流程自動(dòng)化或數(shù)據(jù)準(zhǔn)備技術(shù)來(lái)擴(kuò)展該項(xiàng)目。
  • 想要一個(gè)工具鏈,來(lái)讓數(shù)據(jù)科學(xué)家能夠在不同的業(yè)務(wù)部門(mén)工作的企業(yè)可以考慮使用具有modelops功能的端到端分析平臺(tái)。
  • 擁有多個(gè)不同后端數(shù)據(jù)平臺(tái)的組織可以從云數(shù)據(jù)平臺(tái)中獲益,以便對(duì)其進(jìn)行編目和集中管理。
  • 想要在單一公共云供應(yīng)商上標(biāo)準(zhǔn)化所有或大部分?jǐn)?shù)據(jù)能力的公司應(yīng)該研究可以提供數(shù)據(jù)集成、數(shù)據(jù)管理和數(shù)據(jù)分析的平臺(tái)。

隨著分析和機(jī)器學(xué)習(xí)開(kāi)始成為重要的核心能力,技術(shù)人員們都應(yīng)考慮加深對(duì)可用平臺(tái)及其能力的理解。因?yàn)榉治銎脚_(tái)的力量和價(jià)值會(huì)不斷增加,它們?cè)谡麄€(gè)企業(yè)的影響力也會(huì)不斷增加。

 

責(zé)任編輯:華軒 來(lái)源: 企業(yè)網(wǎng)D1Net
相關(guān)推薦

2014-04-18 10:05:38

數(shù)據(jù)分析手游

2017-09-27 14:29:41

SupersetPython數(shù)據(jù)分析

2022-01-05 15:50:09

數(shù)據(jù)分析工具數(shù)據(jù)分析數(shù)據(jù)

2015-08-24 13:56:10

數(shù)據(jù)分析

2017-07-22 00:41:27

大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)

2015-09-23 13:28:01

大數(shù)據(jù)分析軟件

2018-06-15 20:44:40

Hadoop數(shù)據(jù)分析數(shù)據(jù)

2023-10-11 11:34:54

數(shù)據(jù)分析運(yùn)營(yíng)

2022-02-16 10:37:41

數(shù)據(jù)分析思維數(shù)據(jù)分析

2021-10-12 15:25:08

大數(shù)據(jù)數(shù)據(jù)分析

2022-11-01 11:30:51

數(shù)據(jù)分析模型數(shù)據(jù)

2018-06-23 07:53:31

大數(shù)據(jù)分析框架數(shù)據(jù)

2011-08-12 11:14:42

大數(shù)據(jù)數(shù)據(jù)分析平臺(tái)架構(gòu)

2013-01-18 10:04:33

大數(shù)據(jù)分析

2018-04-27 13:11:02

數(shù)據(jù)平臺(tái)分析數(shù)據(jù)整合

2020-08-04 10:50:44

數(shù)據(jù)分析技術(shù)IT

2021-10-28 19:22:35

數(shù)據(jù)分析

2022-05-11 11:33:53

數(shù)據(jù)分析業(yè)績(jī)業(yè)務(wù)

2022-04-02 11:47:11

數(shù)據(jù)分析業(yè)務(wù)崗位

2016-09-09 12:28:12

大數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久国产视频 | 亚洲情综合五月天 | av资源中文在线天堂 | 久久久久国产一区二区三区不卡 | 久久精品日产第一区二区三区 | 国产成人精品高清久久 | 欧美手机在线 | 免费一区 | 亚洲毛片在线观看 | 久久综合影院 | 精品综合久久 | 精品久久久久一区二区国产 | 久久这里只有精品首页 | 免费观看成人鲁鲁鲁鲁鲁视频 | 亚洲国产一区二区三区在线观看 | 欧美一二区 | 伊人久久成人 | 粉嫩一区二区三区国产精品 | 中文字幕一区二区三区乱码在线 | 91精品久久久久 | 日韩视频在线一区 | 国产日韩欧美在线观看 | 毛片av免费在线观看 | 日本精品裸体写真集在线观看 | 久久人人国产 | 午夜精品久久久久99蜜 | 操人网 | 日韩精品一区二区在线观看 | 久久国产精品一区二区三区 | 国产精品久久久久久久免费观看 | 久久久精品 | 一区二区福利视频 | 97av在线| 一区二区三区在线观看视频 | 免费黄色av | 亚洲电影专区 | 日韩一级欧美一级 | 欧美在线视频一区二区 | 欧美成人a∨高清免费观看 色999日韩 | 91新视频 | 国产成人精品一区二区三区在线 |