成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

一分鐘了解互聯網數據挖掘流程

作者：佚名 2015-10-10 14:11:00

真實的數據挖掘項目，一定是從獲取數據開始的，除了通過一些渠道購買或者下載專業數據外，常常需要大家自己動手爬互聯網數據，這個時候，爬蟲就顯得格外重要了。

1、爬蟲抓取網絡數據

真實的數據挖掘項目，一定是從獲取數據開始的，除了通過一些渠道購買或者下載專業數據外，常常需要大家自己動手爬互聯網數據，這個時候，爬蟲就顯得格外重要了。

Nutch爬蟲的主要作用是從網絡上抓取網頁數據并建立索引。我們只需指定網站的***網址，如taobao.com，爬蟲可以自動探測出頁面內容里新的網址，從而進一步抓取鏈接網頁數據。nutch支持把抓取的數據轉化成文本，如（PDF、WORD、EXCEL、HTML、XML等形式）轉換成純文字字符。

Nutch與Hadoop集成，可以將下載的數據保存到hdfs，用于后續離線分析。使用步驟為：

向hdfs中存入待抓取的網站url

$ hadoop fs -put urldir urldir

注：

***個urldir為本地文件夾，存放了url數據文件，每行一個url地址

第二個urldir為hdfs的存儲路徑。

啟動nutch，在NUTCH_HONE目錄下執行以下命令

$ bin/nutch crawlurldir –dir crawl -depth 3 –topN 10

命令成功執行后，會在hdfs中生成crawl目錄。

2、MapReduce預處理數據

對于下載的原始文本文檔，無法直接進行處理，需要對文本內容進行預處理，包括文檔切分、文本分詞、去停用詞（包括標點、數字、單字和其它一些無意義的詞）、文本特征提取、詞頻統計、文本向量化等操作。

常用的文本預處理算法是TF-IDF，其主要思想是，如果某個詞或短語在一篇文章中出現的頻率高，并且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來做分類。

輸入原始文本內容：

Againit seems that cocoa delivered……

執行TF-IDF預處理：

hadoop jar $JAR SparseVectorsFromSequenceFiles……

輸出文本向量:

9219:0.246 453:0.098 10322:0.21 11947:0.272 ……

每一列是詞及其權重，使用冒號分隔，例如“9219:0.246”表示編號為9219的詞，對應原始單詞為“Again”，其權重值為0.246。

3、Mahout數據挖掘

預處理后的數據就可以用來做數據挖掘。Mahout是一個很強大的數據挖掘工具，是分布式機器學習算法的集合，包括：協同過濾、分類、聚類等。

以LDA算法為例，它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。它是一種無監督學習算法，在訓練時不需要手工標注主題，需要的僅僅是指定主題的數量K。此外LDA的另一個優點則是，對于每一個主題均可找出一些詞語來描述它。

輸入預處理后的數據:

9219:0.246 453:0.098 ……

執行LDA挖掘算法：

mahout cvb –k 20……

輸出挖掘結果：

topic1 {computer,technology,system,internet,machine}

topic2 {play,film,movie,star,director,production,stage}

我們可以獲知用戶的偏好是哪些主題，這些主題是由一些關鍵詞組成。

4、Sqoop導出到關系數據庫

在某些場景下，需要把數據挖掘的結果導出到關系數據庫，用于及時響應外部應用查詢。

sqoop是一個用來把hadoop和關系型數據庫中的數據相互轉移的工具，可以將一個關系型數據庫（例如：MySQL ,Oracle 等）中的數據導入到hadoop的hdfs中，也可以將hdfs的數據導出到關系型數據庫中：

sqoop export –connect jdbc:mysql://localhost:3306/zxtest –username root–password root –table result_test –export-dir /user/mr/lda/out

export操作實現把hdfs目錄/user/mr/lda/out下數據導出到mysql的result_test表。

責任編輯：李英杰來源：數據網

互聯網數據挖掘爬蟲

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：欧美日韩精品区 | 日韩免费毛片视频 | 日日做夜夜爽毛片麻豆 | 欧美日韩中文字幕 | 亚洲精品久久久久avwww潮水 | 色在线视频网站 | 黄色一级免费 | 国产成人综合网 | 视频一区二区在线观看 | 极品国产视频 | 久久亚洲春色中文字幕久久久 | 一区二区三区国产 | 中文字幕一区二区三区四区五区 | 国产精品久久久久久久7777 | 一级毛片在线播放 | 亚洲免费在线观看视频 | 人人爽人人爽 | 久久久91精品国产一区二区精品 | 最新av中文字幕 | 一区二区三区小视频 | 中文字幕在线电影观看 | 狠狠狠 | 日本色婷婷 | 精品国产1区2区3区在线国产视频 | 国产成人影院 | 欧美精品成人一区二区三区四区 | 日本欧美国产 | 91小视频| 亚洲三区在线观看 | www.99re5.com | 91视频久久 | 日本人做爰大片免费观看一老师 | 久久99精品久久久水蜜桃 | 色播久久 | 伊人久久成人 | 欧美一区二区三区在线免费观看 | 91久久精品 | 男女一区二区三区 | 久久久久一区 | 国精品一区 | 色综合国产 |

<center id="mswgs"><tr id="mswgs"></tr></center>

<code id="mswgs"><strike id="mswgs"></strike></code>

<acronym id="mswgs"><s id="mswgs"></s></acronym>

<center id="mswgs"><button id="mswgs"></button></center>