成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據的3V、4V、7V,到底是什么意思?

大數據
在大數據領域,我們經常看到一些關于3V、4V、7V的說法。這些V,到底是什么意思呢?今天這篇文章,小棗君就簡單給大家介紹一下。

大數據,顧名思義,就是大量的數據。

更專業來說,大數據,是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據軟件工具能力范圍的數據集合。

我們通常說:“量變引起質變”。大數據,就屬于這種情況。

當數據體量增加到一定程度時,相關技術、理念、思維等,都隨之發生質變,從而形成了一個新的領域,這就是大數據領域。

大數據,通過對海量數據的采集、分析和處理,尋找其中的特征和趨勢,提煉更多的高價值信息,用于改善業務流程,或者輔助決策行為。

在大數據領域,我們經常看到一些關于3V、4V、7V的說法。這些V,到底是什么意思呢?

今天這篇文章,小棗君就簡單給大家介紹一下。

3V、4V、7V的來源

2001年,美國麥塔集團分析師道格·蘭尼(Doug Laney)在對大數據進行理論研究的時候,發現大數據具備三個特征。而這三個特征的英文單詞,恰好又以字母“V”開頭,即:

Volume(體量大)、Variety(多樣化)、Velocity(速度快)。

后來,“3V”這個特征理論,逐漸被業界所接受,成為描述大數據特征的標準。

再后來,在“3V”的基礎上,業界的一些專家們又陸續提出了“4V”、“5V”,甚至“7V”,包括:

Veracity(真實性)、Value(價值密度)、Variability(變異性)、Visualization(可視性)等。

所有這些V,就變成了對大數據特征的新定義。

接下來,我們就分別看看,這些“V”具體是什么意思。

No.1 :Volume(體量大)

大數據,到底有多大?

我們傳統PC和手機處理的數據,是GB/TB級別。例如,我們的硬盤,現在通常是1TB/2TB/4TB的容量。

TB、GB、MB、KB的關系,大家應該都很熟悉了:

1 KB = 1024 B  (KB - kilobyte) 

1 MB = 1024 KB (MB - megabyte) 

1 GB = 1024 MB (GB - gigabyte) 

1 TB = 1024 GB (TB - terabyte) 

而大數據是什么級別呢?PB/EB級別。

1 PB = 1024 TB (PB - petabyte) 

1 EB = 1024 PB (EB - exabyte) 

只是看這幾個字母的話,貌似不是很直觀。我來舉個例子吧。

1TB,只需要一塊硬盤可以存儲。容量大約是20萬張照片或20萬首MP3音樂,或者是20萬部電子書。

1PB,需要大約2個機柜的存儲設備。容量大約是2億張照片或2億首MP3音樂。如果一個人不停地聽這些音樂,可以聽差不多兩千年。

1EB,需要大約2000個機柜的存儲設備。如果并排放這些機柜,可以連綿1.2公里那么長。如果擺放在機房里,需要21個標準籃球場那么大的機房,才能放得下。

阿里、百度、騰訊這樣的互聯網巨頭,數據量據說已經接近EB級。

EB還不是最大的。目前全人類的數據量,是ZB級。

1 ZB = 1024 EB (ZB - zettabyte) 

根據IDC的數據,在2020年,全球創建、捕獲、復制和消耗的數據總量約為64ZB。而到了2025年,全球數據總量可能會達到驚人的163ZB。如果建一個機房來存儲這些數據,那么,這個機房的面積將比196個鳥巢體育場還大。

人類社會的數據體量不僅大,增長速度也很快——每年增長50%。也就是說,每兩年就會增長一倍多。

數據的增長,為什么會如此之快?

說到這里,就要回顧一下人類社會數據產生的三個重要階段。

第一個階段,是1940-1990年。

計算機和數據庫被發明之后,數據管理的復雜度大大降低。各行各業開始產生了計算機數據,并記錄在數據庫中。這時的數據,以結構化數據為主(待會解釋什么是結構化數據)。數據的產生方式,是被動的。

第二個階段,是1990-2010年。

伴隨著互聯網的爆發,網絡內容開始迅速增長,增加了很多的專業輸出內容(PGC)。Web2.0出現后,人們開始使用博客、facebook、youtube這樣的社交網絡,輸出大量的用戶原創內容(UGC),從而主動產生了大量的數據。移動智能終端時代的到來,也加速了該階段數據的產生。

第三個階段,是2010年至今。

隨著物聯網的發展,各種各樣的感知層節點(例如遍布各個角落的傳感器、攝像頭)開始自動產生大量的數據。企業的數字化轉型,構建了大量的系統,沉淀和管理這些數據。人類的數據總量,再次躍升。

經過了“被動-主動-自動”這三個階段的發展,最終導致了人類數據總量的爆炸式膨脹。

值得一提的是,如今,隨著我們逐漸進入AI智能時代,很可能會迎來第四次數據暴增階段。以AIGC為代表的智能機器生產內容,正在急劇增加。

No.2 :Variety(多樣化)

多樣性主要體現在三個方面——數據來源多、數據類型多和數據之間關聯性強。

數據來源多:

如前面所說,數據來源于不同的應用系統和設備。

例如,企業所產生的營銷數據、業務系統數據、生產數據等,互聯網行業所產生的社交內容數據、訂單數據、用戶數據等,政府部門所產生的社會治理數據、地理數據、經濟數據等。

數據類型多:

數據又分為結構化數據、非結構化數據和半結構化數據。

結構化數據,是指可以用預先定義的數據模型表述,或者,可以存入關系型數據庫的數據。例如,一個班級所有人的年齡、一個超市所有商品的價格,這些都是結構化數據。

   

結構化數據

而網頁文章、郵件內容、圖像、音頻、視頻等,都屬于非結構化數據。

半結構化數據,介于結構化和非結構化數據之間。如XML、JSON等格式的數據,它們有一定的組織形式,但不如結構化數據那樣嚴格。

目前,非結構化數據的占比是最高的。例如,在互聯網領域里,非結構化數據的占比已經超過了80%。

數據之間關聯性強:

數據與數據之間,有一定的關聯性,而且頻繁交互。

例如,游客在旅游途中上傳的照片和日志,就與游客的位置、行程等信息有很強的關聯性。

No.3 :Velocity(速度快)

這個特性,指的是大數據的產生速度快、處理速度快、傳播速度快。從數據的生成到消耗,時間窗口非常小。

數據產生速度快,體現在生產生活中的方方面面。

我們還是用數字來說話:

就在剛剛過去的這一分鐘,數據世界里發生了什么?

Email:2000萬封被發出

Google:380萬次搜索請求被提交

Youtube:2100分鐘的視頻被上傳

Facebook:69.5萬條狀態被更新

12306:9000張車票被賣出

……

怎么樣?是不是瞬息萬變?

數據處理速度快,體現在大數據可以在實時分析和決策需求的推動下,通過實時處理、并行處理等方式,快速對所產生的數據進行處理。

這就要求大數據系統具備高并發、低延遲的能力。舉例來說,大數據所采用的流式處理技術,能夠在數據不斷產生的同時進行實時處理,確保系統能夠及時獲取并利用最新的信息。

數據傳播速度快,體現在大數據與以往的檔案、廣播、報紙等傳統數據載體不同。大數據的交換和傳播,是通過互聯網等方式實現的,遠比傳統媒介信息交換的傳播速度快。

No.4 :Veracity(真實性)

數據很多,但也要真實才行。

大數據的真實性,指的是數據的質量和可信度。

在大數據環境中,由于數據來源廣泛且多樣,就會導致容易出現錯誤、冗余和不一致的數據,進而影響到最終分析的準確性和可靠性。

確保大數據的真實性,需要采用數據清洗、元數據管理、數據治理等手段。

此外,隨著技術的發展,越來越多的技術工具和服務被開發出來,用于對大數據真實性的管理和優化。例如數據驗證工具、自動化的數據清理流程、先進的統計方法用于檢測異常值等。

No.5 :Value(價值密度)

大數據的數據量很大,但隨之帶來的,就是價值密度很低。數據中真正有價值的,只是其中的很少一部分。

例如通過監控視頻尋找犯罪分子的相貌,也許數十TB的視頻文件,真正有價值的,只有幾秒鐘。

例如,2014年美國波士頓爆炸案,現場調取了10TB的監控數據(包括移動基站的通訊記錄,附近商店、加油站、報攤的監控錄像以及志愿者提供的影像資料),最終找到了嫌疑犯的一張照片。這張照片的價值,毋庸置疑。

大數據中包含很多低價值的信息,而且,信息碎片化的情況嚴重。因此,需要通過深度分析和挖掘,才能發現有用的內容。

數據挖掘、機器學習和人工智能等技術,正在逐漸提升數據分析和挖掘的效率,幫助人們從低價值密度的數據中提取高價值的信息。

No.6 :Variability(變異性)

不要怕!這里的變異,并不是生化危機。

大數據的變異性,指的是數據在處理過程中可能發生變化的能力,也可以理解為數據的動態性、不確定性。

變異性包括幾個方面:

數據分布的不均勻性。

大數據集合可能包含來自不同來源、不同時間、不同地點的數據,這使得數據的分布呈現出不均勻性。不同的子集,可能具有不同的統計性質。在數據分析和建模時,需要考慮這個因素。

數據的動態性。

大數據往往是動態變化的,尤其是實時場景(例如股價)。變化速度,也從以前的秒級,變成了現在的毫秒級,甚至更短。這就要求大數據系統和技術必須能夠適應這個動態變化的特性。

數據質量的波動。

前面說了,大數據中可能包含大量的噪音、異常值和錯誤。這些負面因素,也可能隨時間變化,導致數據質量出現明顯波動。

環境因素的影響。

大數據的變異性,還可能受到環境因素的影響,如天氣、地理位置、社會事件等。對于一些特殊場景的大數據應用,需要考慮這些外部因素可能導致的變化。

No.7 :可視性(Visualization)

這個大家應該比較熟悉。我們現在在很多的政府部門和企業,都會看到數據大屏,其實也就是可視性的一種體現。

大數據的可視性,是指利用圖形化、圖像化的方式,對大數據進行呈現。這種方式,可以更直觀地展示數據的模式、趨勢和關系,快速把握數據的關鍵特征。

可視化,能夠幫助人們更好地理解和解釋復雜的數據集,提高對信息的洞察力,促使更明智的決策。

除了觀看之外,可視化也可以借助輔助工具,提供一些交互性功能。

例如,用戶能夠自由選擇感興趣的數據子集、調整視圖參數,從而更靈活地進行數據探索。這有助于用戶深入挖掘數據,找到其中的規律和異常。

最后的話

好啦,以上就是大數據的7V特性。

當然了,這些特性定義,除了前幾個以外,并沒有一個官方的認可。如果你愿意,也可以再想一個V,變成8V。

作為一種全新的思維方式和商業模式,大數據正在改變我們的工作和生活。下一期,小棗君再和大家詳細聊聊,大數據到底有哪些應用場景,能發揮什么樣的作用和價值。

責任編輯:姜華 來源: 鮮棗課堂
相關推薦

2016-01-14 09:41:20

云應用大數據4V

2011-08-08 10:36:24

大數據

2021-01-21 21:24:34

DevOps開發工具

2021-05-30 16:01:46

邊緣計算物聯網IOT

2014-05-21 16:24:47

大數據存儲大數據分析

2015-10-28 09:29:26

谷歌工程師大數據

2024-01-10 16:11:41

2019-07-11 09:30:29

芯片半導體技術

2010-06-30 09:22:57

瀏覽器

2020-10-19 06:45:50

5G高低頻TDD

2020-08-04 14:20:20

數據湖Hadoop數據倉庫

2025-03-28 01:33:00

2011-04-27 09:30:48

企業架構

2022-10-08 00:00:00

Spring數據庫項目

2020-03-05 10:28:19

MySQLMRR磁盤讀

2010-08-04 09:13:36

Hyper-V快照

2023-08-04 16:22:09

大數據

2022-05-20 14:08:13

Web3元宇宙區塊鏈

2020-09-27 06:53:57

MavenCDNwrapper

2020-10-14 06:22:14

UWB技術感知
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 青青草在线视频免费观看 | 亚洲激精日韩激精欧美精品 | 日本午夜视频 | 日日碰狠狠躁久久躁96avv | 三区四区在线观看 | 久久成人18免费网站 | 国产精品美女久久久久久久网站 | 国产精品毛片av一区 | 艹逼网| 特级做a爰片毛片免费看108 | 午夜a√| 亚洲精品久久久久中文字幕欢迎你 | 天天操夜夜操 | 成人亚洲一区 | 国产一区二区在线视频 | 亚洲精品久久久9婷婷中文字幕 | 国产成人在线播放 | 91国产在线视频在线 | 国产一区二区中文字幕 | 在线观看欧美日韩视频 | 欧美一区二区三区视频 | 99久久久国产精品 | 欧美一区二区三区四区视频 | 欧美日韩不卡在线 | 在线午夜 | 91在线中文字幕 | 日韩欧美精品在线播放 | 中文字幕日韩一区二区 | 亚洲视频一区二区三区 | 99久久精品免费看国产高清 | 亚洲精品久久久久avwww潮水 | 久久国产综合 | 成人av免费播放 | 成人a免费 | 精品视频一区在线 | 夜久久 | 在线免费黄色 | 日韩视频一区 | 性色视频在线观看 | 欧美网站一区二区 | 欧美亚洲国产一区二区三区 |