成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

終于有人把數(shù)據(jù)挖掘講明白了

大數(shù)據(jù) 數(shù)據(jù)分析
隨著大型數(shù)據(jù)庫(kù)的建立和海量數(shù)據(jù)的不斷涌現(xiàn),人們迫切需要強(qiáng)有力的數(shù)據(jù)分析工具。但現(xiàn)實(shí)情況往往是“數(shù)據(jù)十分豐富,而信息相當(dāng)貧乏”。

隨著大型數(shù)據(jù)庫(kù)的建立和海量數(shù)據(jù)的不斷涌現(xiàn),人們迫切需要強(qiáng)有力的數(shù)據(jù)分析工具。但現(xiàn)實(shí)情況往往是“數(shù)據(jù)十分豐富,而信息相當(dāng)貧乏”。

快速增長(zhǎng)的海量數(shù)據(jù)被收集、存放在大型數(shù)據(jù)庫(kù)中,沒有強(qiáng)有力的工具,以人類現(xiàn)有的能力很難理解它們。因此,有人說大數(shù)據(jù)是數(shù)據(jù)“墳?zāi)?rdquo;。當(dāng)采用數(shù)據(jù)挖掘工具進(jìn)行數(shù)據(jù)分析時(shí),可以發(fā)現(xiàn)隱藏在大數(shù)據(jù)之中重要的數(shù)據(jù)內(nèi)容、模式,能對(duì)商務(wù)決策、知識(shí)庫(kù)、科學(xué)和醫(yī)學(xué)研究等做出巨大貢獻(xiàn)。為解決數(shù)據(jù)和信息之間的鴻溝,我們應(yīng)系統(tǒng)地學(xué)習(xí)數(shù)據(jù)挖掘知識(shí),開發(fā)數(shù)據(jù)挖掘工具,將數(shù)據(jù)“墳?zāi)?rdquo;變成知識(shí)“金礦”。

1數(shù)據(jù)挖掘過程

數(shù)據(jù)挖掘(data mining)又譯為資料探勘、數(shù)據(jù)采礦,是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的但又潛在有用的信息和知識(shí)的過程。

數(shù)據(jù)挖掘的具體過程描述如下:

1)數(shù)據(jù):進(jìn)行數(shù)據(jù)挖掘首先要有數(shù)據(jù),可以根據(jù)任務(wù)的目的選擇數(shù)據(jù)集,并篩選自己需要的數(shù)據(jù),或者根據(jù)實(shí)際情況構(gòu)造自己需要的數(shù)據(jù)。

2)預(yù)處理:確定數(shù)據(jù)集后,就要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,使數(shù)據(jù)能夠?yàn)槲覀兯谩?shù)據(jù)預(yù)處理可以提高數(shù)據(jù)質(zhì)量,包括準(zhǔn)確性、完整性和一致性。進(jìn)行數(shù)據(jù)預(yù)處理的方法有數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約和數(shù)據(jù)變換等。

3)變換:進(jìn)行數(shù)據(jù)預(yù)處理后,對(duì)數(shù)據(jù)進(jìn)行變換,將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型,這個(gè)分析模型是針對(duì)數(shù)據(jù)挖掘算法建立的。建立一個(gè)真正適合數(shù)據(jù)挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。

4)數(shù)據(jù)挖掘:對(duì)經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘,除了選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成。

5)解釋/評(píng)估:解釋并評(píng)估結(jié)果,最終得到知識(shí)。其使用的分析方法一般視數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù)。

數(shù)據(jù)挖掘的具體過程如圖1所示。

圖1 數(shù)據(jù)挖掘過程

2數(shù)據(jù)挖掘的內(nèi)容

2.1 關(guān)聯(lián)規(guī)則挖掘

從大規(guī)模數(shù)據(jù)中挖掘?qū)ο笾g的隱含關(guān)系稱為關(guān)聯(lián)分析(Associate Analysis)或者關(guān)聯(lián)規(guī)則挖掘(Associate Rule Mining),它可以揭示數(shù)據(jù)中隱藏的關(guān)聯(lián)模式,幫助人們進(jìn)行市場(chǎng)運(yùn)作、決策支持等。

考察一些涉及許多物品的事務(wù)。事務(wù)1中出現(xiàn)了物品甲,事務(wù)2中出現(xiàn)了物品乙,事務(wù)3中同時(shí)出現(xiàn)了物品甲和乙。那么,物品甲和乙在事務(wù)中的出現(xiàn)是否有規(guī)律可循呢?在數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)中,關(guān)聯(lián)規(guī)則就是描述這種在一個(gè)事務(wù)中物品同時(shí)出現(xiàn)的規(guī)律的知識(shí)模式。更確切地說,關(guān)聯(lián)規(guī)則通過量化的數(shù)字描述物品甲的出現(xiàn)對(duì)物品乙的出現(xiàn)有多大的影響。

一般采用可信度、支持度、期望可信度、作用度四個(gè)參數(shù)來描述一個(gè)關(guān)聯(lián)規(guī)則的屬性。

在關(guān)聯(lián)規(guī)則的四個(gè)屬性中,支持度和可信度能夠比較直接地形容關(guān)聯(lián)規(guī)則的性質(zhì)。如果不考慮關(guān)聯(lián)規(guī)則的支持度和可信度,那么在事務(wù)數(shù)據(jù)庫(kù)中可以發(fā)現(xiàn)無窮多的關(guān)聯(lián)規(guī)則。事實(shí)上,人們一般只對(duì)滿足一定的支持度和可信度的關(guān)聯(lián)規(guī)則感興趣。因此,為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則,需要給定兩個(gè)閾值:最小支持度和最小可信度,前者規(guī)定了關(guān)聯(lián)規(guī)則必須滿足的最小支持度;后者規(guī)定了關(guān)聯(lián)規(guī)則必須滿足的最小可信度。

經(jīng)典故事案例:關(guān)聯(lián)規(guī)則挖掘經(jīng)典的案例即為購(gòu)物籃中的啤酒和尿布的故事。“啤酒與尿布”的故事產(chǎn)生于20世紀(jì)90年代的美國(guó)沃爾瑪超市中,在美國(guó)有嬰兒的家庭中,一般由母親在家中照看嬰兒,年輕的父親前去超市購(gòu)買尿布。父親在購(gòu)買尿布的同時(shí),往往會(huì)順便為自己購(gòu)買啤酒,這樣就會(huì)出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會(huì)出現(xiàn)在同一個(gè)購(gòu)物籃的現(xiàn)象。

比如對(duì)于如下購(gòu)物籃數(shù)據(jù):

顧客1:{牛奶、果醬、面包}

顧客2:{牛奶、雞蛋、面包、糖}

顧客3:{面包、黃油、牛奶}

我們可以推測(cè)牛奶→面包為一組關(guān)聯(lián)規(guī)則,即顧客購(gòu)買了牛奶,可以推測(cè)該顧客下一步很有可能會(huì)購(gòu)買面包。

2.2 分類

分類算法是數(shù)據(jù)挖掘中的關(guān)鍵技術(shù),它通過對(duì)數(shù)據(jù)訓(xùn)練集的分析研究,發(fā)現(xiàn)分類規(guī)則,從而具備預(yù)測(cè)新數(shù)據(jù)類型的能力。分類也是監(jiān)督式機(jī)器學(xué)習(xí)方法,根據(jù)訓(xùn)練集學(xué)習(xí)模型,進(jìn)一步利用模型對(duì)新數(shù)據(jù)的類別標(biāo)簽進(jìn)行預(yù)測(cè)。分類算法主要包括兩個(gè)階段:①構(gòu)建模型階段,通過分析學(xué)習(xí)已知的訓(xùn)練數(shù)據(jù)集,訓(xùn)練并構(gòu)建一個(gè)準(zhǔn)確率可以接受的模型,該模型用于描述特定的數(shù)據(jù)類集;②使用階段,使用訓(xùn)練后的模型對(duì)未知數(shù)據(jù)對(duì)象進(jìn)行分類。具體過程如下所示。

  • 第一步:類別標(biāo)簽學(xué)習(xí)建模(參見圖2)。
  • 第二步:類別標(biāo)簽分類測(cè)試(參見圖3)。

分類標(biāo)簽預(yù)測(cè)與數(shù)值預(yù)測(cè)的區(qū)別如下:數(shù)值預(yù)測(cè)根據(jù)訓(xùn)練集學(xué)習(xí)模型,進(jìn)一步利用模型對(duì)新數(shù)據(jù)的數(shù)值進(jìn)行預(yù)測(cè),區(qū)別于分類標(biāo)簽預(yù)測(cè),數(shù)值預(yù)測(cè)的輸出為連續(xù)的數(shù)值。

圖2 分類學(xué)習(xí)建模

圖3 分類測(cè)試

數(shù)值預(yù)測(cè)學(xué)習(xí)的流程如下。

第一步:數(shù)值預(yù)測(cè)學(xué)習(xí)建模(參見圖4)。

圖4 數(shù)值預(yù)測(cè)學(xué)習(xí)建模

第二步:數(shù)值預(yù)測(cè)測(cè)試(參見圖5)。

圖5 數(shù)值預(yù)測(cè)測(cè)試

下面來看一個(gè)分類標(biāo)簽預(yù)測(cè)案例和一個(gè)數(shù)值預(yù)測(cè)案例。

(1)分類標(biāo)簽預(yù)測(cè)案例:?jiǎn)T工離職預(yù)測(cè)

根據(jù)給定的影響員工離職的因素和員工是否離職的記錄,建立一個(gè)模型預(yù)測(cè)有可能離職的員工,具體數(shù)據(jù)如表1所示。其中,Attrition表示類別標(biāo)簽,也就是需要預(yù)測(cè)的離散數(shù)據(jù)。

表1 員工離職數(shù)據(jù)

(2)數(shù)值預(yù)測(cè)案例:房?jī)r(jià)預(yù)測(cè)

作為一個(gè)典型的數(shù)值預(yù)測(cè)案例,房?jī)r(jià)預(yù)測(cè)一直備受關(guān)注。簡(jiǎn)言之,房?jī)r(jià)預(yù)測(cè)就是綜合房屋銷售價(jià)格以及房屋的基本信息建立模型,從而預(yù)測(cè)其他房屋的銷售價(jià)格。

我們以Kaggle平臺(tái)房?jī)r(jià)預(yù)測(cè)的部分?jǐn)?shù)據(jù)集(見表2)為例進(jìn)行說明。如表2所示,房屋的基本信息主要包括建筑等級(jí)、區(qū)域分類、建筑面積、主路、小巷、房屋外形、平整度、配套設(shè)施、房屋位置、地面坡度和銷售價(jià)格,等等。其中,“銷售價(jià)格”便是需要預(yù)測(cè)的連續(xù)數(shù)值。

表2 Kaggle房?jī)r(jià)預(yù)測(cè)數(shù)據(jù)集示例

2.3 聚類

聚類為非監(jiān)督式機(jī)器學(xué)習(xí)方法,不需要提供具有標(biāo)簽的訓(xùn)練集,而是直接以某種聚類準(zhǔn)則將數(shù)據(jù)劃分到不同類別中。聚類分析的結(jié)果通常受聚類準(zhǔn)則的影響,圖6所示的聚類準(zhǔn)則如果設(shè)為“花色相同”和“符號(hào)相同”,則得到兩種不同的聚類結(jié)果。

圖6 聚類準(zhǔn)則影響結(jié)果示意

2.4 回歸

回歸分析(regression analysis)是一個(gè)統(tǒng)計(jì)預(yù)測(cè)模型,用于描述和評(píng)估應(yīng)變量與一個(gè)或多個(gè)自變量之間的關(guān)系,包括一元線性回歸、多元線性回歸、非線性回歸、邏輯回歸等。具體來說,可以利用回歸模型來實(shí)現(xiàn)數(shù)值預(yù)測(cè)的任務(wù),比如前面提到的房?jī)r(jià)預(yù)測(cè)任務(wù)。

當(dāng)自變量為非隨機(jī)變量、因變量為隨機(jī)變量時(shí),分析它們的關(guān)系稱為回歸分析;根據(jù)回歸分析可以建立變量間的數(shù)學(xué)表達(dá)式,稱為回歸方程。回歸方程反映自變量在固定條件下因變量的平均狀態(tài)變化情況。相關(guān)分析是以某一指標(biāo)來度量回歸方程所描述的各個(gè)變量間關(guān)系的密切程度。

回歸分析方法常用于解釋市場(chǎng)占有率、銷售額、品牌偏好及市場(chǎng)營(yíng)銷效果。把兩個(gè)或兩個(gè)以上定距或定比例的數(shù)量關(guān)系用函數(shù)形式表示出來,就是回歸分析要解決的問題。

 

本文摘編于《數(shù)據(jù)挖掘:原理與應(yīng)用》,經(jīng)出版方授權(quán)發(fā)布。(書號(hào):9787111696308)轉(zhuǎn)載請(qǐng)保留文章來源。

 

責(zé)任編輯:武曉燕 來源: 數(shù)倉(cāng)寶貝庫(kù)
相關(guān)推薦

2021-12-03 18:25:56

數(shù)據(jù)指標(biāo)本質(zhì)

2022-04-27 18:25:02

數(shù)據(jù)采集維度

2020-11-30 08:34:44

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2022-04-22 11:26:55

數(shù)據(jù)管理架構(gòu)

2022-04-12 18:29:41

元數(shù)據(jù)系統(tǒng)架構(gòu)

2021-06-29 11:21:41

數(shù)據(jù)安全網(wǎng)絡(luò)安全黑客

2021-06-13 12:03:46

SaaS軟件即服務(wù)

2021-10-09 00:02:04

DevOps敏捷開發(fā)

2022-03-27 20:32:28

Knative容器事件模型

2021-12-07 18:24:26

數(shù)據(jù)安全

2022-05-01 22:09:27

數(shù)據(jù)模型大數(shù)據(jù)

2025-05-29 01:00:00

數(shù)據(jù)架構(gòu)大數(shù)據(jù)數(shù)據(jù)湖

2022-05-09 20:23:51

數(shù)據(jù)采集

2022-04-18 07:37:30

數(shù)據(jù)信息知識(shí)

2020-10-29 06:09:37

數(shù)據(jù)中臺(tái)數(shù)據(jù)大數(shù)據(jù)

2020-11-03 07:04:39

云計(jì)算公有云私有云

2021-10-12 18:31:40

流量運(yùn)營(yíng)前端

2021-03-25 11:24:25

爬蟲技術(shù)開發(fā)

2021-10-17 20:38:30

微服務(wù)內(nèi)存組件

2021-02-14 00:21:37

區(qū)塊鏈數(shù)字貨幣金融
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 一区二区免费在线观看 | 在线观看视频一区二区三区 | 久久久久久免费毛片精品 | 亚洲人成人一区二区在线观看 | 有码在线| 网黄在线| 午夜视频大全 | 在线国产精品一区 | 亚洲精品乱码久久久久久久久 | 日韩精品在线看 | 久久精品91久久久久久再现 | 免费国产视频 | 福利社午夜影院 | 国产一区二区三区在线 | 9久9久9久女女女九九九一九 | 中文字幕一区二区三区日韩精品 | 国产精品1区 | 99精品一区二区 | 精品国产乱码久久久久久闺蜜 | 国产乱码精品一区二区三区av | 亚洲欧美第一视频 | 亚洲精品乱码 | 黄色免费在线观看 | 日批日韩在线观看 | 免费观看一级特黄欧美大片 | 视频一区二区在线观看 | 古装人性做爰av网站 | 99视频| 亚洲成人精品视频 | 91av在线看| 亚洲一区二区三区视频 | 国产精品成人一区二区三区 | 免费不卡av | 成年人在线观看 | 秋霞av国产精品一区 | 九色 在线 | 人人看人人射 | 丁香婷婷久久久综合精品国产 | 2018国产大陆天天弄 | 国产精品入口 | 麻豆成人在线视频 |