成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

7個因素決定大數據的復雜性

大數據
我們談論了很多關于復雜數據及其為你的商業智能帶來的挑戰和機遇,但是導致數據復雜化的是什么呢?

[[153575]]

我們談論了很多關于復雜數據及其為你的商業智能帶來的挑戰和機遇,但是導致數據復雜化的是什么呢?

以及你如何區分你的公司當前的數據是否是“復雜的”,亦或不久的將來會變得復雜?本文將解決這些問題。

為什么這很重要?

當你試圖將數據轉化為商業價值時,它的復雜度很可能會預示你將面對的困難程度——復雜數據的準備和分析通常要比簡單數據更加困難,以及通常需要一組不同的BI 工具來實現。復雜數據在可以“成熟的”分析和可視化之前需要額外的準備工作和數據模型。因此重要的是,通過了解您目前的數據的復雜程度以及它在未來的復雜性趨向,來評估您的大數據/商業智能項目是否能夠勝任這一任務。

簡單測試:大數據或者異構數據

在高級層面上,有兩種基本的跡象表明你的數據可能被視為是復雜的:

你的數據很“大”:我們把大放在引號里是因為它貌似符合“大數據”術語的含義。然而事實是,處理海量數據在計算資源需要處理巨大的數據集方面提出了一個挑戰, 就像把小麥從谷殼分開的困難,或者說在一個巨大的原始信息中辨別信號和雜音。

你的數據來自許多不同的數據源:多重數據源通常意味著臟數據,或者遵循著不同的內部邏輯結構的簡單的多個數據集。為了確保數據源有統一的數據語言,數據必須被轉換或整合到一個中央資源庫。

可以認為這是兩個最初的(可供選擇的)征兆:如果你正處理大數據或異構數據,你應當開始思考數據的復雜性。但是深究一下,對你的公司的數據的復雜性,以下有7個更具體的指標。

(注意,以上兩點之間有相似之處,但不互相排除——反之,例如,離散數據往往意味著各種各樣的數據結構類型)

大數據

 

1、數據結構

不同數據源的數據,或甚至來自同一個源的不同表,通常設計同樣的信息但結構卻完全不同:

舉例來說,想象你們人力資源部有三種不同的表格,一個是員工個人信息表,另一個是員工職位和薪資表第三個是員工職位要求表,諸如此類——而你們財務部門隨同保險、福利和其他花費一起記錄同樣的信息到單個表中。另外,在這些表中的一些表可能提到員工的全名,而另一些則只有名字的首字母,或者二者的結合。為了從所有表中有效使用數據,同時不丟失或重復信息,需要數據建?;驕蕚涔ぷ鳌?/p>

這是最簡單的用例:更進一步復雜化的是處理最初沒有適當地模式的非結構化數據源(例如NoSQL 數據庫)。

2、數據大小

再次回到模糊的“大數據”概念,你收集的數據量會影響你需要用來分析它的軟硬件的類型。這個可以通過原始大小來衡量:字節,TB或PB——數據增長越大,越有可能“窒息”廣泛使用的內存數據庫(IMDB),依賴于轉化壓縮數據到服務器內存。其他因素包括多元異構數據——包含很多數據行的表(Excel,可以說是最常用的數據分析工具,***行數限制為1048576行),或結構化數據——包含很多數據列的表。

你將會發現在分析工具和方法上用于分析100,000行數據和那些用于分析1億行數據的是明顯不同的。

3、數據細節

你想要探索的數據的粒度水平。當創建一個儀表盤或報表,展現總結或聚合數據時常常比讓終端用戶鉆取到每一個細節更容易實現——然而這是以犧牲數據分析的深度和數據挖掘為代價而做的權宜之計。

創建一個BI系統,使其具有顆粒向海量數據鉆取處理分析的能力,(不依賴于預定義查詢,聚合或匯總表)

4、查詢語言

不同的數據源有不同的數據語言:雖然SQL是從常見數據源和RDBMS提取數據的主要手段,但是當使用第三方平臺時你會經常需要通過它自己的API和語法去連接它,以及解析用于訪問數據的數據模型和協議。

你的BI工具需要足夠靈活的根據數據源允許這種本地連接的方式,或者通過內置插件或API訪問,否則你會發現你自己將不得不重復一個繁瑣的導出數據到表格\SQL數據庫\數據倉庫的過程,然后導入到你的商業智能軟件里,從而使你的分析變得麻煩。

5、數據類型

一方面動態數據以表格形式存儲,處理的大多是數值型數據,但是大規模和非結構化的機器數據完全是另外一回事兒,就像是文字數據集存儲在MongoDB中,當然了,更別提像視頻音頻這種超大規模的非結構化數據了。

不同的數據類型具有不同的規則,為使得商業決策建立在對公司數據的全面考慮的基礎上,找到一種建立單一可信來源的方法是至關重要的。

6、離散數據

數據存儲在多個位置:例如,組織里的不同部門,本地或云(付費存儲或通過云應用),來自客戶或供應商的外部數據等。這種數據不僅收集起來很困難(簡單來說是由于及時而有效的接收數據而需要的利益相關者的數量)。而且一旦收集了——在不同的數據集交叉引用和分析之前,通常需要“清理”或標準化,因為每個本地數據集是根據相關組織\應用程序自身的實際和關注收集數據。

7、數據量的增長

最終,你不僅需要考慮當前數據,還有數據的增長或變化的速度。如果經常更新數據源,或經常增加新的數據源,這將會消耗你的軟硬件資源(無論何時當源數據發生重大更改時,不是非常先進的系統都需要重新獲取整個數據集),以及上述提到的關于結構、類型、大小的復合性問題等。

怎樣掌控復雜數據?

如果你認同上述的一個或更多以及你的數據剛剛好是復雜的,不要絕望:理解,是找到一個合適的解決方案的***步,以及復雜數據的分析本身不需要過于復雜。我們將在未來的文章中涉及解決復雜數據的方法,但是你將想問自己的***件事可能是——控制復雜數據你實際需要多少BI系統。

 

責任編輯:李英杰 來源: 36大數據
相關推薦

2016-11-22 09:24:29

大數據部署Hadoop

2020-06-15 09:58:23

云計算云安全數據

2019-11-23 23:30:55

Python數據結構時間復雜性

2017-06-23 08:45:02

存儲技術復雜性

2017-11-30 11:43:00

大數據存儲因素

2020-03-24 09:52:34

大數據IT技術

2012-12-26 10:53:26

2019-05-13 15:47:29

Kubernetes云計算云復雜性

2009-01-20 15:23:33

存儲安全密鑰數據保護

2019-08-21 13:24:25

KubernetesHadoop容器

2019-07-29 12:35:15

云計算復雜性云計算平臺

2020-10-09 10:35:17

云計算服務云計算云原生

2017-05-22 10:34:28

數據中心策略虛擬機

2020-10-28 09:54:25

數據中心工具技術

2013-11-01 13:38:41

程序員編程語言

2022-03-09 10:51:19

云安全網絡安全

2022-05-07 11:26:04

AIOpsIT人工智能

2015-04-16 15:06:34

2024-04-03 09:03:05

2018-07-31 14:47:51

Kubernetes開發應用程序
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产欧美精品一区 | 99综合| 精品视频一区二区在线观看 | 精品国产精品三级精品av网址 | 中文字幕av第一页 | 国产高清无av久久 | 亚洲国产欧美日韩 | 欧美一区二区黄 | 国产激情免费视频 | 国产在线网址 | 久久久久一区二区三区四区 | 成人自拍视频网站 | 一区二视频| 国产综合精品 | 欧洲亚洲精品久久久久 | 国产精彩视频在线观看 | 91精品国产99 | 成人欧美日韩一区二区三区 | 欧美成人专区 | 一区二区不卡视频 | 国产精品99999999 | 久久在线视频 | 亚洲精品在线免费观看视频 | 在线一区视频 | 91国自视频 | 日韩视频在线播放 | 国产一极毛片 | 久久久久久综合 | 亚洲成人精品 | 一区二区久久 | 中文字幕在线一区二区三区 | 99精品电影 | av片网站 | 日本高清中文字幕 | 久久久99国产精品免费 | 久久婷婷麻豆国产91天堂 | 久久午夜国产精品www忘忧草 | 尤物在线精品视频 | 中国一级特黄真人毛片 | 一二三四av| 久久精品一级 |