終于有人把數(shù)據(jù)挖掘講明白了

作者：丁兆云等 2022-01-05 18:27:44

隨著大型數(shù)據(jù)庫(kù)的建立和海量數(shù)據(jù)的不斷涌現(xiàn)，人們迫切需要強(qiáng)有力的數(shù)據(jù)分析工具。但現(xiàn)實(shí)情況往往是“數(shù)據(jù)十分豐富，而信息相當(dāng)貧乏”。

快速增長(zhǎng)的海量數(shù)據(jù)被收集、存放在大型數(shù)據(jù)庫(kù)中，沒有強(qiáng)有力的工具，以人類現(xiàn)有的能力很難理解它們。因此，有人說大數(shù)據(jù)是數(shù)據(jù)“墳?zāi)?rdquo;。當(dāng)采用數(shù)據(jù)挖掘工具進(jìn)行數(shù)據(jù)分析時(shí)，可以發(fā)現(xiàn)隱藏在大數(shù)據(jù)之中重要的數(shù)據(jù)內(nèi)容、模式，能對(duì)商務(wù)決策、知識(shí)庫(kù)、科學(xué)和醫(yī)學(xué)研究等做出巨大貢獻(xiàn)。為解決數(shù)據(jù)和信息之間的鴻溝，我們應(yīng)系統(tǒng)地學(xué)習(xí)數(shù)據(jù)挖掘知識(shí)，開發(fā)數(shù)據(jù)挖掘工具，將數(shù)據(jù)“墳?zāi)?rdquo;變成知識(shí)“金礦”。

1數(shù)據(jù)挖掘過程

數(shù)據(jù)挖掘(data mining)又譯為資料探勘、數(shù)據(jù)采礦，是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的但又潛在有用的信息和知識(shí)的過程。

數(shù)據(jù)挖掘的具體過程描述如下：

1)數(shù)據(jù)：進(jìn)行數(shù)據(jù)挖掘首先要有數(shù)據(jù)，可以根據(jù)任務(wù)的目的選擇數(shù)據(jù)集，并篩選自己需要的數(shù)據(jù)，或者根據(jù)實(shí)際情況構(gòu)造自己需要的數(shù)據(jù)。

2)預(yù)處理：確定數(shù)據(jù)集后，就要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，使數(shù)據(jù)能夠?yàn)槲覀兯谩?shù)據(jù)預(yù)處理可以提高數(shù)據(jù)質(zhì)量，包括準(zhǔn)確性、完整性和一致性。進(jìn)行數(shù)據(jù)預(yù)處理的方法有數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約和數(shù)據(jù)變換等。

3)變換：進(jìn)行數(shù)據(jù)預(yù)處理后，對(duì)數(shù)據(jù)進(jìn)行變換，將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型，這個(gè)分析模型是針對(duì)數(shù)據(jù)挖掘算法建立的。建立一個(gè)真正適合數(shù)據(jù)挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。

4)數(shù)據(jù)挖掘：對(duì)經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘，除了選擇合適的挖掘算法外，其余一切工作都能自動(dòng)地完成。

5)解釋/評(píng)估：解釋并評(píng)估結(jié)果，最終得到知識(shí)。其使用的分析方法一般視數(shù)據(jù)挖掘操作而定，通常會(huì)用到可視化技術(shù)。

數(shù)據(jù)挖掘的具體過程如圖1所示。

圖1　數(shù)據(jù)挖掘過程

2數(shù)據(jù)挖掘的內(nèi)容

2.1　關(guān)聯(lián)規(guī)則挖掘

從大規(guī)模數(shù)據(jù)中挖掘?qū)ο笾g的隱含關(guān)系稱為關(guān)聯(lián)分析(Associate Analysis)或者關(guān)聯(lián)規(guī)則挖掘(Associate Rule Mining)，它可以揭示數(shù)據(jù)中隱藏的關(guān)聯(lián)模式，幫助人們進(jìn)行市場(chǎng)運(yùn)作、決策支持等。

考察一些涉及許多物品的事務(wù)。事務(wù)1中出現(xiàn)了物品甲，事務(wù)2中出現(xiàn)了物品乙，事務(wù)3中同時(shí)出現(xiàn)了物品甲和乙。那么，物品甲和乙在事務(wù)中的出現(xiàn)是否有規(guī)律可循呢?在數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)中，關(guān)聯(lián)規(guī)則就是描述這種在一個(gè)事務(wù)中物品同時(shí)出現(xiàn)的規(guī)律的知識(shí)模式。更確切地說，關(guān)聯(lián)規(guī)則通過量化的數(shù)字描述物品甲的出現(xiàn)對(duì)物品乙的出現(xiàn)有多大的影響。

一般采用可信度、支持度、期望可信度、作用度四個(gè)參數(shù)來描述一個(gè)關(guān)聯(lián)規(guī)則的屬性。

在關(guān)聯(lián)規(guī)則的四個(gè)屬性中，支持度和可信度能夠比較直接地形容關(guān)聯(lián)規(guī)則的性質(zhì)。如果不考慮關(guān)聯(lián)規(guī)則的支持度和可信度，那么在事務(wù)數(shù)據(jù)庫(kù)中可以發(fā)現(xiàn)無窮多的關(guān)聯(lián)規(guī)則。事實(shí)上，人們一般只對(duì)滿足一定的支持度和可信度的關(guān)聯(lián)規(guī)則感興趣。因此，為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則，需要給定兩個(gè)閾值：最小支持度和最小可信度，前者規(guī)定了關(guān)聯(lián)規(guī)則必須滿足的最小支持度;后者規(guī)定了關(guān)聯(lián)規(guī)則必須滿足的最小可信度。

經(jīng)典故事案例：關(guān)聯(lián)規(guī)則挖掘經(jīng)典的案例即為購(gòu)物籃中的啤酒和尿布的故事。“啤酒與尿布”的故事產(chǎn)生于20世紀(jì)90年代的美國(guó)沃爾瑪超市中，在美國(guó)有嬰兒的家庭中，一般由母親在家中照看嬰兒，年輕的父親前去超市購(gòu)買尿布。父親在購(gòu)買尿布的同時(shí)，往往會(huì)順便為自己購(gòu)買啤酒，這樣就會(huì)出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會(huì)出現(xiàn)在同一個(gè)購(gòu)物籃的現(xiàn)象。

比如對(duì)于如下購(gòu)物籃數(shù)據(jù)：

顧客1：{牛奶、果醬、面包}

顧客2：{牛奶、雞蛋、面包、糖}

顧客3：{面包、黃油、牛奶}

我們可以推測(cè)牛奶→面包為一組關(guān)聯(lián)規(guī)則，即顧客購(gòu)買了牛奶，可以推測(cè)該顧客下一步很有可能會(huì)購(gòu)買面包。

2.2　分類

分類算法是數(shù)據(jù)挖掘中的關(guān)鍵技術(shù)，它通過對(duì)數(shù)據(jù)訓(xùn)練集的分析研究，發(fā)現(xiàn)分類規(guī)則，從而具備預(yù)測(cè)新數(shù)據(jù)類型的能力。分類也是監(jiān)督式機(jī)器學(xué)習(xí)方法，根據(jù)訓(xùn)練集學(xué)習(xí)模型，進(jìn)一步利用模型對(duì)新數(shù)據(jù)的類別標(biāo)簽進(jìn)行預(yù)測(cè)。分類算法主要包括兩個(gè)階段：①構(gòu)建模型階段，通過分析學(xué)習(xí)已知的訓(xùn)練數(shù)據(jù)集，訓(xùn)練并構(gòu)建一個(gè)準(zhǔn)確率可以接受的模型，該模型用于描述特定的數(shù)據(jù)類集;②使用階段，使用訓(xùn)練后的模型對(duì)未知數(shù)據(jù)對(duì)象進(jìn)行分類。具體過程如下所示。

第一步：類別標(biāo)簽學(xué)習(xí)建模(參見圖2)。
第二步：類別標(biāo)簽分類測(cè)試(參見圖3)。

分類標(biāo)簽預(yù)測(cè)與數(shù)值預(yù)測(cè)的區(qū)別如下：數(shù)值預(yù)測(cè)根據(jù)訓(xùn)練集學(xué)習(xí)模型，進(jìn)一步利用模型對(duì)新數(shù)據(jù)的數(shù)值進(jìn)行預(yù)測(cè)，區(qū)別于分類標(biāo)簽預(yù)測(cè)，數(shù)值預(yù)測(cè)的輸出為連續(xù)的數(shù)值。

圖2　分類學(xué)習(xí)建模

圖3　分類測(cè)試

數(shù)值預(yù)測(cè)學(xué)習(xí)的流程如下。

第一步：數(shù)值預(yù)測(cè)學(xué)習(xí)建模(參見圖4)。

圖4　數(shù)值預(yù)測(cè)學(xué)習(xí)建模

第二步：數(shù)值預(yù)測(cè)測(cè)試(參見圖5)。

圖5　數(shù)值預(yù)測(cè)測(cè)試

下面來看一個(gè)分類標(biāo)簽預(yù)測(cè)案例和一個(gè)數(shù)值預(yù)測(cè)案例。

(1)分類標(biāo)簽預(yù)測(cè)案例：?jiǎn)T工離職預(yù)測(cè)

根據(jù)給定的影響員工離職的因素和員工是否離職的記錄，建立一個(gè)模型預(yù)測(cè)有可能離職的員工，具體數(shù)據(jù)如表1所示。其中，Attrition表示類別標(biāo)簽，也就是需要預(yù)測(cè)的離散數(shù)據(jù)。

表1　員工離職數(shù)據(jù)

(2)數(shù)值預(yù)測(cè)案例：房?jī)r(jià)預(yù)測(cè)

作為一個(gè)典型的數(shù)值預(yù)測(cè)案例，房?jī)r(jià)預(yù)測(cè)一直備受關(guān)注。簡(jiǎn)言之，房?jī)r(jià)預(yù)測(cè)就是綜合房屋銷售價(jià)格以及房屋的基本信息建立模型，從而預(yù)測(cè)其他房屋的銷售價(jià)格。

我們以Kaggle平臺(tái)房?jī)r(jià)預(yù)測(cè)的部分?jǐn)?shù)據(jù)集(見表2)為例進(jìn)行說明。如表2所示，房屋的基本信息主要包括建筑等級(jí)、區(qū)域分類、建筑面積、主路、小巷、房屋外形、平整度、配套設(shè)施、房屋位置、地面坡度和銷售價(jià)格，等等。其中，“銷售價(jià)格”便是需要預(yù)測(cè)的連續(xù)數(shù)值。

表2　Kaggle房?jī)r(jià)預(yù)測(cè)數(shù)據(jù)集示例

2.3　聚類

聚類為非監(jiān)督式機(jī)器學(xué)習(xí)方法，不需要提供具有標(biāo)簽的訓(xùn)練集，而是直接以某種聚類準(zhǔn)則將數(shù)據(jù)劃分到不同類別中。聚類分析的結(jié)果通常受聚類準(zhǔn)則的影響，圖6所示的聚類準(zhǔn)則如果設(shè)為“花色相同”和“符號(hào)相同”，則得到兩種不同的聚類結(jié)果。

圖6　聚類準(zhǔn)則影響結(jié)果示意

2.4　回歸

回歸分析(regression analysis)是一個(gè)統(tǒng)計(jì)預(yù)測(cè)模型，用于描述和評(píng)估應(yīng)變量與一個(gè)或多個(gè)自變量之間的關(guān)系，包括一元線性回歸、多元線性回歸、非線性回歸、邏輯回歸等。具體來說，可以利用回歸模型來實(shí)現(xiàn)數(shù)值預(yù)測(cè)的任務(wù)，比如前面提到的房?jī)r(jià)預(yù)測(cè)任務(wù)。

當(dāng)自變量為非隨機(jī)變量、因變量為隨機(jī)變量時(shí)，分析它們的關(guān)系稱為回歸分析;根據(jù)回歸分析可以建立變量間的數(shù)學(xué)表達(dá)式，稱為回歸方程。回歸方程反映自變量在固定條件下因變量的平均狀態(tài)變化情況。相關(guān)分析是以某一指標(biāo)來度量回歸方程所描述的各個(gè)變量間關(guān)系的密切程度。

回歸分析方法常用于解釋市場(chǎng)占有率、銷售額、品牌偏好及市場(chǎng)營(yíng)銷效果。把兩個(gè)或兩個(gè)以上定距或定比例的數(shù)量關(guān)系用函數(shù)形式表示出來，就是回歸分析要解決的問題。

本文摘編于《數(shù)據(jù)挖掘：原理與應(yīng)用》，經(jīng)出版方授權(quán)發(fā)布。(書號(hào)：9787111696308)轉(zhuǎn)載請(qǐng)保留文章來源。

責(zé)任編輯：武曉燕來源：數(shù)倉(cāng)寶貝庫(kù)