成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

【小白掃盲】到底什么是數據(data)?

大數據 數據分析
最近幾年愈演愈烈的AI浪潮,進一步推動了數據的價值提升。人工智能的三要素,其中一項,就是數據(另外兩個是算力和算法)。數據作為AI的“燃料”,其質量和數量直接決定了AI系統的性能和準確性。

什么是數據?

簡單來說,數據是信息的一種載體。更嚴謹一點,我們也可以說,數據是客觀世界中被記錄、存儲的原始符號或信息。

在目前我們所處的時代,通常所說的數據,都是指計算機系統里的那些文本、圖片、音頻、視頻文件,那些二進制的0和1。

整個計算機系統,甚至整個數字世界,都是圍繞數據進行工作。CPU,計算數據。內存和硬盤,存儲數據。通信網絡,傳遞數據。

因此,在計算機科學中,數據被定義為:“所有能輸入計算機并被程序處理的符號的總稱”。

需要注意的是,數據本身是沒有意義的,是未經加工的“原材料”。經過處理和分析之后,數據才能轉化為有意義的信息。

也有人指出,信息是數據經過處理后的結果,是對數據的解釋和賦予意義的產物。這句話雖然有點抽象(燒腦),但準確地表達了數據和信息之間的關系。

數據的特性

數據有很多特性。小棗君初步統計了一下,就有14個,分別是——

符號性:數據以符號形式存在,例如數字,以及剛才提到的文字、圖像、音頻、視頻等。

客觀性:數據反映了現實世界事物的屬性、狀態、關系等情況。它是客觀存在的,不隨主觀意志而改變。

量化性:數據通常以量化的形式存在,便于計數、測量和統計分析。

可比性:數據之間可以進行對比分析,通過比較可以揭示數據之間的關系和差異。

可傳遞性:數據可以通過各種方式進行傳輸,如電子文檔、紙質報告等,使得信息能夠在不同個體或組織間傳遞。

可存儲性:數據可以被存儲在數據庫、文件系統或其他存儲介質中,以便于未來的訪問和使用。

可處理性:數據可以通過計算、分析、加工等手段進行處理,以提取有用信息或轉化為知識。

多維度:數據可以從多個角度進行觀察和分析,如時間、空間、類別等多個維度。

多樣性:數據有多種多樣的類別和形式,能夠滿足不同領域和需求。

時效性:數據可能隨時間的推移而發生變化,某些數據在特定時間點之后可能失去價值或準確性。

可靠性:數據應該是可靠的,即數據的來源、收集方法和處理過程應該是可信的,以保證數據的準確性。

相關性:數據之間存在相關性,某些數據的變化可能會影響其他數據的表現。

可解釋性:數據應該能夠被解釋和理解,其背后的意義和代表的現實世界情況應該清晰。

限制性:數據可能受到隱私、法律、倫理等因素的限制,使用數據時需要遵守相關規范。

以上這么多的特性,在現實情況中,并不能都滿足。

例如,在追求數據時效性的同時,可能需要犧牲部分可存儲性。因為實時數據的收集和處理,需要更高的空間和成本。

同樣,為了提高數據的可靠性,可能需要投入更多的資源進行數據驗證和清洗,這可能會增加數據處理的復雜性和時間成本。

總之,能夠盡可能地滿足更多特性的數據,就會被認為是高質量的數據。數據的價值,也就更大。在實際應用中,我們需要根據具體場景和需求,權衡數據的各個特性,加以利用。

數據的分類方式

剛才在說數據特性的時候,提到數據有多樣性的特點,也就是有多種形式和類別。

對數據有很多種分類方式。例如,現在最常用的,就是按結構進行分類,包括結構化數據、半結構化數據和非結構化數據。

結構化數據,是指可以用預先定義的數據模型表述,或者,可以存入關系型數據庫的數據。例如,一個班級所有人的年齡、一個超市所有商品的價格,這些都是結構化數據。

結構化數據結構化數據

非結構化數據,指網頁文章、郵件內容、圖像、音頻、視頻等。

半結構化數據,介于結構化和非結構化數據之間。如XML、JSON等格式的數據,它們有一定的組織形式,但不如結構化數據那樣嚴格。

目前,非結構化數據的占比是最高的。例如,在互聯網領域里,非結構化數據的占比已經超過了80%。

根據數據的來源,也可以分類。

例如,企業所產生的營銷數據、業務系統數據、生產數據等,互聯網行業所產生的社交內容數據、訂單數據、用戶數據等,政府部門所產生的社會治理數據、地理數據、經濟數據,等等。

根據數據的性質,還可以分為定位數據(描述空間位置,如坐標)、定性數據(描述事物屬性,如“陰雨天氣”)、定量數據(反映數量特征,如長度、重量)、定時數據(記錄時間特征,如日期、時刻)等。

總之,每種分類方式都有其特定的應用場景和價值。

了解數據的分類,有助于我們更好地理解數據的本質,以及如何在不同場景下有效地管理和利用數據。

數據的度量方式

前面我們也提到,數據具有量化性的特點。也就是說,數據是可以度量的。

我們通常度量數據的單位,大家應該比較熟悉,就是KB、MB、GB、TB等。

我們傳統PC和手機處理的數據,是GB/TB級別。例如,我們的硬盤,現在通常是1TB/2TB/4TB的容量。

在TB之上,還有PB、EB、ZB等。

TB、GB、MB、KB的關系,如下:

1 KB = 1024 B  (KB - kilobyte) 

1 MB = 1024 KB (MB - megabyte) 

1 GB = 1024 MB (GB - gigabyte) 

1 TB = 1024 GB (TB - terabyte) 

1 PB = 1024 TB (PB - petabyte) 

1 EB = 1024 PB (EB - exabyte) 

1 ZB = 1024 EB (ZB - zettabyte) 

只是看這幾個字母的話,貌似不是很直觀。我來舉個例子吧。

1TB,只需要一塊硬盤可以存儲。容量大約是20萬張照片或20萬首MP3音樂,或者是20萬部電子書。

1PB,需要大約2個機柜的存儲設備。容量大約是2億張照片或2億首MP3音樂。如果一個人不停地聽這些音樂,可以聽差不多兩千年。

1EB,需要大約2000個機柜的存儲設備。如果并排放這些機柜,可以連綿1.2公里那么長。如果擺放在機房里,需要21個標準籃球場那么大的機房,才能放得下。

阿里、百度、騰訊這樣的互聯網巨頭,數據量據說已經接近EB級。目前全人類的數據量,是ZB級。

根據IDC的數據,在2020年,全球創建、捕獲、復制和消耗的數據總量約為64ZB。而到了2025年,全球數據總量可能會達到驚人的163ZB。如果建一個機房來存儲這些數據,那么,這個機房的面積將比196個鳥巢體育場還大。

數據的產生階段

人類社會的數據體量不僅大,增長速度也很快——每年增長50%。也就是說,每兩年就會增長一倍多。

為什么會如此之快?

說到這里,就要回顧一下人類社會數據產生的三個重要階段。

第一個階段,是1940-1990年。

計算機和數據庫被發明之后,數據管理的復雜度大大降低。各行各業開始產生了計算機數據,并記錄在數據庫中。這時的數據,以結構化數據為主(待會解釋什么是結構化數據)。數據的產生方式,是被動的。

第二個階段,是1990-2010年。

伴隨著互聯網的爆發,網絡內容開始迅速增長,增加了很多的專業輸出內容(PGC)。Web2.0出現后,人們開始使用博客、facebook、youtube這樣的社交網絡,輸出大量的用戶原創內容(UGC),從而主動產生了大量的數據。移動智能終端時代的到來,也加速了該階段數據的產生。

第三個階段,是2010年至今。

隨著物聯網的發展,各種各樣的感知層節點(例如遍布各個角落的傳感器、攝像頭)開始自動產生大量的數據。企業的數字化轉型,構建了大量的系統,沉淀和管理這些數據。人類的數據總量,再次躍升。

經過了“被動-主動-自動”這三個階段的發展,最終導致了人類數據總量的爆炸式膨脹。

值得一提的是,如今,隨著我們逐漸進入AI智能時代,很可能會迎來第四次數據暴增階段。以AIGC為代表的智能機器生產內容,正在急劇增加。

數據的作用和意義

數據是信息的載體。它的最基礎作用,就是記錄和表征。

例如,考勤數據,記錄了員工每天的上下班時間、請假、遲到、早退等信息。這些數據不僅幫助我們了解員工的出勤情況,還能進一步分析員工的工作效率、團隊協作以及可能存在的管理問題。

再例如,體檢數據,記錄了我們的身高、體重、血壓、血糖等各項生理指標。這些數據不僅有助于我們了解自身的健康狀況,還能及時發現潛在的健康問題,為預防和治療疾病提供重要依據。

除了個人工作和生活領域之外,在科學、商業和公共管理領域,都有對應的系統和數據。這個數據的體量更大,甚至達到了大數據的級別。

通過深入挖掘和分析海量的數據,企業和政府部門可以找到隱藏在數據背后的規律和趨勢,為未來的發展和決策提供有力的支持。

在科學領域,實驗數據、觀測數據、模擬數據等構成了科學研究的基礎。這些數據不僅幫助科學家驗證理論、發現新現象,還能推動科學技術的進步和創新。

例如,天文學中的天文觀測數據,記錄了星系的運動、恒星的誕生和消亡等宇宙現象,這些數據為理解宇宙的起源和演化提供了重要線索。

在商業領域,銷售數據、客戶數據、市場數據等是企業運營和決策的重要依據。通過分析這些數據,企業可以了解市場需求、優化產品設計、提升客戶滿意度,從而制定更為精準的市場策略和商業計劃。

例如,電商平臺通過分析用戶的購買歷史和瀏覽行為,可以為用戶推薦更為符合其需求的商品,提升用戶的購物體驗和平臺的銷售額。

在公共管理領域,政府數據、公共服務數據、社會調查數據等是政策制定和實施的基礎。這些數據不僅幫助政府了解社會現狀、預測發展趨勢,還能為政策評估和優化提供依據。

例如,通過分析交通流量數據,政府可以合理規劃交通路線、優化公共交通服務,從而緩解城市交通擁堵問題。

最后的話

總而言之,數據在目前這個時代,已經變成了重要的無形資產,也被稱為“新石油”。

從個人生活到全球治理,數據都扮演著不可或缺的角色,已成為驅動效率提升、科學發現和社會進步的核心資源。

最近幾年愈演愈烈的AI浪潮,進一步推動了數據的價值提升。人工智能的三要素,其中一項,就是數據(另外兩個是算力和算法)。數據作為AI的“燃料”,其質量和數量直接決定了AI系統的性能和準確性。

未來,隨著數據規模的指數級增長和技術的持續突破,數據的價值將進一步釋放。

責任編輯:武曉燕 來源: 鮮棗課堂
相關推薦

2022-04-11 20:07:21

相干光通信光纖通信

2025-03-24 12:18:25

數據庫數據倉庫存儲

2013-05-29 10:17:56

Hadoop分布式文件系統

2022-12-08 15:51:19

2023-06-08 16:20:27

2021-10-28 21:54:00

RedCap網絡

2023-09-26 00:01:48

DSP光模塊技術

2024-08-27 08:16:01

2019-08-21 08:25:23

IaaS云計算數據中心

2022-06-16 07:04:12

RedCap5G技術

2022-11-06 19:01:24

CURD數據庫開發

2018-04-10 08:33:18

NVMe閃存存儲

2025-03-28 01:33:00

2022-02-07 22:55:13

云原生數據庫技術

2020-12-22 06:00:12

CDN互聯網邊緣計算

2023-11-15 18:55:27

2023-08-18 06:51:13

2024-07-25 15:00:38

2009-11-30 10:51:27

安全殺毒軟件

2020-11-10 07:05:41

DockerK8S云計算
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费黄色av网站 | 久久精品综合 | 国产精品国产馆在线真实露脸 | 日韩和的一区二区 | 亚洲第一天堂无码专区 | 久久国产精品免费一区二区三区 | 国产一区二区 | 亚洲va在线va天堂va狼色在线 | 国产精品178页 | 天天操网 | 91精品国产日韩91久久久久久 | 91久久伊人| 午夜电影一区二区 | 国产中文字幕av | 99综合 | 日韩电影免费在线观看中文字幕 | 免费看国产片在线观看 | 亚洲成人999 | 精品一区二区三区在线观看国产 | 黄色一级网 | 91社区在线观看高清 | 欧美精品1区 | 欧洲视频一区二区 | 九九热最新地址 | 欧美精品一区久久 | 激情六月丁香 | 91免费看片神器 | 黄色大片观看 | 免费在线观看一区二区三区 | 精品一二三 | 欧美精品一区二区三区在线播放 | 国产美女永久免费无遮挡 | h片在线看| 最新黄色在线观看 | 成人一区二区三区在线观看 | 午夜丁香视频在线观看 | 国产乱码精品一区二区三区中文 | 很黄很污的网站 | 日韩精品免费播放 | 91中文字幕| 久久精品一区二区 |