成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一分鐘了解互聯網數據挖掘流程

大數據
真實的數據挖掘項目,一定是從獲取數據開始的,除了通過一些渠道購買或者下載專業數據外,常常需要大家自己動手爬互聯網數據,這個時候,爬蟲就顯得格外重要了。
[[151530]]
 

1、爬蟲抓取網絡數據

真實的數據挖掘項目,一定是從獲取數據開始的,除了通過一些渠道購買或者下載專業數據外,常常需要大家自己動手爬互聯網數據,這個時候,爬蟲就顯得格外重要了。

Nutch爬蟲的主要作用是從網絡上抓取網頁數據并建立索引。我們只需指定網站的***網址,如taobao.com,爬蟲可以自動探測出頁面內容里新的網址,從而進一步抓取鏈接網頁數據。nutch支持把抓取的數據轉化成文本,如(PDF、WORD、EXCEL、HTML、XML等形式)轉換成純文字字符。

Nutch與Hadoop集成,可以將下載的數據保存到hdfs,用于后續離線分析。使用步驟為:

  • 向hdfs中存入待抓取的網站url

$ hadoop fs -put urldir urldir

注:

***個urldir為本地文件夾,存放了url數據文件,每行一個url地址

第二個urldir為hdfs的存儲路徑。

  • 啟動nutch,在NUTCH_HONE目錄下執行以下命令

$ bin/nutch crawlurldir –dir crawl -depth 3 –topN 10

命令成功執行后,會在hdfs中生成crawl目錄。
 

2、MapReduce預處理數據

對于下載的原始文本文檔,無法直接進行處理,需要對文本內容進行預處理,包括文檔切分、文本分詞、去停用詞(包括標點、數字、單字和其它一些無意義的詞)、文本特征提取、詞頻統計、文本向量化等操作。

常用的文本預處理算法是TF-IDF,其主要思想是,如果某個詞或短語在一篇文章中出現的頻率高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來做分類。

  • 輸入原始文本內容:

Againit seems that cocoa delivered……

  • 執行TF-IDF預處理:

hadoop jar $JAR SparseVectorsFromSequenceFiles……

  • 輸出文本向量:

9219:0.246 453:0.098 10322:0.21 11947:0.272 ……

每一列是詞及其權重,使用冒號分隔,例如“9219:0.246”表示編號為9219的詞,對應原始單詞為“Again”,其權重值為0.246。
 

3、Mahout數據挖掘

預處理后的數據就可以用來做數據挖掘。Mahout是一個很強大的數據挖掘工具,是分布式機器學習算法的集合,包括:協同過濾、分類、聚類等。

以LDA算法為例,它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。它是一種無監督學習算法,在訓練時不需要手工標注主題,需要的僅僅是指定主題的數量K。此外LDA的另一個優點則是,對于每一個主題均可找出一些詞語來描述它。

  • 輸入預處理后的數據:

9219:0.246 453:0.098 ……

  • 執行LDA挖掘算法:

mahout cvb –k 20……

  • 輸出挖掘結果:

topic1 {computer,technology,system,internet,machine}

topic2 {play,film,movie,star,director,production,stage}

我們可以獲知用戶的偏好是哪些主題,這些主題是由一些關鍵詞組成。
 

4、Sqoop導出到關系數據庫

在某些場景下,需要把數據挖掘的結果導出到關系數據庫,用于及時響應外部應用查詢。

sqoop是一個用來把hadoop和關系型數據庫中的數據相互轉移的工具,可以將一個關系型數據庫(例如:MySQL ,Oracle 等)中的數據導入到hadoop的hdfs中,也可以將hdfs的數據導出到關系型數據庫中:

sqoop export –connect jdbc:mysql://localhost:3306/zxtest –username root–password root –table result_test –export-dir /user/mr/lda/out

export操作實現把hdfs目錄/user/mr/lda/out下數據導出到mysql的result_test表。

 
責任編輯:李英杰 來源: 數據網
相關推薦

2018-01-14 23:19:25

靜態動態互聯網

2013-08-02 11:38:16

大數據互聯網亞馬遜

2017-07-06 08:12:02

索引查詢SQL

2022-07-18 06:16:07

單點登錄系統

2013-08-01 10:18:13

互聯網一分鐘互聯網互聯網變化

2020-07-17 07:44:25

云計算邊緣計算IT

2020-07-09 07:37:06

數據庫Redis工具

2017-03-30 19:28:26

HBase分布式數據

2022-06-02 08:46:04

網卡網絡服務器

2016-09-14 15:57:53

架構分布式系統負載均衡

2020-05-21 19:46:19

區塊鏈數字貨幣比特幣

2018-06-26 05:23:19

線程安全函數代碼

2017-02-21 13:00:27

LoadAverage負載Load

2018-07-31 16:10:51

Redo Undo數據庫數據

2020-01-30 11:26:17

QinQVLAN協議

2017-12-26 16:24:36

接口代碼數據

2011-02-21 17:48:35

vsFTPd

2018-12-12 22:51:24

Java包裝語言

2016-09-12 17:28:45

云存儲應用軟件存儲設備

2019-12-24 09:10:43

Ipv6IP址協議
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩精品区 | 日韩免费毛片视频 | 日日做夜夜爽毛片麻豆 | 欧美日韩中文字幕 | 亚洲精品久久久久avwww潮水 | 色在线视频网站 | 黄色一级免费 | 国产成人综合网 | 视频一区二区在线观看 | 极品国产视频 | 久久亚洲春色中文字幕久久久 | 一区二区三区国产 | 中文字幕一区二区三区四区五区 | 国产精品久久久久久久7777 | 一级毛片在线播放 | 亚洲免费在线观看视频 | 人人爽人人爽 | 久久久91精品国产一区二区精品 | 最新av中文字幕 | 一区二区三区小视频 | 中文字幕在线电影观看 | 狠狠狠 | 日本色婷婷 | 精品国产1区2区3区 在线国产视频 | 国产成人影院 | 欧美精品成人一区二区三区四区 | 日本 欧美 国产 | 91小视频| 亚洲三区在线观看 | www.99re5.com | 91视频久久 | 日本人做爰大片免费观看一老师 | 久久99精品久久久水蜜桃 | 色播久久 | 伊人久久成人 | 欧美一区二区三区在线免费观看 | 91久久精品 | 男女一区二区三区 | 久久久久一区 | 国精品一区 | 色综合国产 |