成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于java的分布式爬蟲

開發(fā) 后端 開發(fā)工具 分布式
分布式網(wǎng)絡(luò)爬蟲包含多個爬蟲,每個爬蟲需要完成的任務(wù)和單個的爬行器類似,它們從互聯(lián)網(wǎng)上下載網(wǎng)頁,并把網(wǎng)頁保存在本地的磁盤,從中抽取URL并沿 著這些URL的指向繼續(xù)爬行。由于并行爬行器需要分割下載任務(wù),可能爬蟲會將自己抽取的URL發(fā)送給其他爬蟲。這些爬蟲可能分布在同一個局域網(wǎng)之中,或者 分散在不同的地理位置。

分類

分布式網(wǎng)絡(luò)爬蟲包含多個爬蟲,每個爬蟲需要完成的任務(wù)和單個的爬行器類似,它們從互聯(lián)網(wǎng)上下載網(wǎng)頁,并把網(wǎng)頁保存在本地的磁盤,從中抽取URL并沿 著這些URL的指向繼續(xù)爬行。由于并行爬行器需要分割下載任務(wù),可能爬蟲會將自己抽取的URL發(fā)送給其他爬蟲。這些爬蟲可能分布在同一個局域網(wǎng)之中,或者 分散在不同的地理位置。

根據(jù)爬蟲的分散程度不同,可以把分布式爬行器分成以下兩大類:

1、基于局域網(wǎng)分布式網(wǎng)絡(luò)爬蟲:這種分布式爬行器的所有爬蟲在同一個局域網(wǎng)里運行,通過高速的網(wǎng)絡(luò)連接相互通信。這些爬蟲通過同一個網(wǎng)絡(luò)去訪問外部 互聯(lián)網(wǎng),下載網(wǎng)頁,所有的網(wǎng)絡(luò)負(fù)載都集中在他們所在的那個局域網(wǎng)的出口上。由于局域網(wǎng)的帶寬較高,爬蟲之間的通信的效率能夠得到保證;但是網(wǎng)絡(luò)出口的總帶 寬上限是固定的,爬蟲的數(shù)量會受到局域網(wǎng)出口帶寬的限制。

2、基于廣域網(wǎng)分布式網(wǎng)絡(luò)爬蟲:當(dāng)并行爬行器的爬蟲分別運行在不同地理位置(或網(wǎng)絡(luò)位置),我們稱這種并行爬行器為分布式爬行器。例如,分布式爬行 器的爬蟲可能位于中國,日本,和美國,分別負(fù)責(zé)下載這三地的網(wǎng)頁;或者位于CHINANET,CERNET,CEINET,分別負(fù)責(zé)下載這三個網(wǎng)絡(luò)的中的 網(wǎng)頁。分布式爬行器的優(yōu)勢在于可以子在一定程度上分散網(wǎng)絡(luò)流量,減小網(wǎng)絡(luò)出口的負(fù)載。如果爬蟲分布在不同的地理位置(或網(wǎng)絡(luò)位置),需要間隔多長時間進(jìn)行 一次相互通信就成為了一個值得考慮的問題。爬蟲之間的通訊帶寬可能是有限的,通常需要通過互聯(lián)網(wǎng)進(jìn)行通信。

大型分布式網(wǎng)絡(luò)爬蟲體系結(jié)構(gòu)圖

 

基于java的分布式爬蟲

分布式網(wǎng)絡(luò)爬蟲是一項十分復(fù)雜系統(tǒng)。需要考慮很多方面因素。性能可以說是它這重要的指標(biāo)。當(dāng)然硬件層面的資源也是必須的。

架構(gòu)

下面是項目的總體架構(gòu),***個版本基于此方案來做。

上面的web層包括:控制臺、基本權(quán)限、監(jiān)控展示等,還可以根據(jù)需要再一步進(jìn)行擴展。

核心層由控制者統(tǒng)一調(diào)度,將任務(wù)發(fā)給工人隊列中的工人進(jìn)行爬取操作。各個結(jié)點動態(tài)的向監(jiān)控模塊發(fā)送模塊狀態(tài)等信息,統(tǒng)一由展示層展示。

 

基于java的分布式爬蟲

項目目標(biāo)

眾推,開源版的今日頭條!

基于hadoop思維的分布式網(wǎng)絡(luò)爬蟲。

目前已經(jīng)將fourinone、jeesite、webmagic整合進(jìn)來,并且進(jìn)一步進(jìn)行改進(jìn)。想最終做成一個基于設(shè)計器的動態(tài)可配置的分布式爬蟲系統(tǒng),這個是***階段的目標(biāo)。

項目目前情況

目前項目進(jìn)展情況:

1、sourceer,可以接入多種數(shù)據(jù)源,接口已經(jīng)定義(加入builder封裝,可以使用簡單爬蟲)。

2、web架構(gòu)工程(web工程上傳并測試成功,權(quán)限、基礎(chǔ)框架改造,導(dǎo)入等已經(jīng)錄成視頻,刪除activiti,刪除cms部分)。

3、分布式框架研究(分布式項目分包,添加部分注釋,測試單機單工人爬取)。

4、插件化整合。

5、文章等各種去重方式及算法(目前已實現(xiàn)bloomfilter,指紋算法去重,已經(jīng)實現(xiàn)simhash,分詞算法(ansj))。

6、分類器測試(bayes,文本分類單機測試成功)。

項目地址:

(分布式爬蟲)http://git.oschina.net/zongtui/zongtui-webcrawler

(去重過濾器)https://git.oschina.net/zongtui/zongtui-filter

(文本分類器)https://git.oschina.net/zongtui/zongtui-classifier

(文檔目錄)https://git.oschina.net/zongtui/zongtui-doc

項目界面:

啟動jetty,目前皮膚暫時還未換。

 

基于java的分布式爬蟲

總結(jié)

目前項目正在進(jìn)一步完善當(dāng)中,希望能得到你更多的意見!

 

責(zé)任編輯:王雪燕 來源: 博客園
相關(guān)推薦

2019-10-16 17:07:36

Java服務(wù)器架構(gòu)

2017-10-24 11:28:23

Zookeeper分布式鎖架構(gòu)

2009-06-19 14:23:41

RMIJava分布式計算

2018-05-09 09:44:51

Java分布式系統(tǒng)

2022-03-08 15:24:23

BitMapRedis數(shù)據(jù)

2017-04-13 10:51:09

Consul分布式

2019-06-19 15:40:06

分布式鎖RedisJava

2021-04-15 22:02:53

區(qū)塊鏈金融比特幣

2018-05-19 00:26:13

UAI Train分布式訓(xùn)練

2025-05-16 08:58:47

Mongodb分布式存儲

2022-10-27 10:44:14

分布式Zookeeper

2018-05-22 15:30:30

Python網(wǎng)絡(luò)爬蟲分布式爬蟲

2020-07-15 09:20:48

MyCatMySQL分布式

2019-10-10 09:16:34

Zookeeper架構(gòu)分布式

2009-01-18 09:11:16

JavaIDLJava分布式程序設(shè)計

2010-01-15 10:15:34

分布式交換技術(shù)

2021-06-03 00:02:43

RedisRedlock算法

2021-07-30 00:09:21

Redlock算法Redis

2022-03-08 07:22:48

Redis腳本分布式鎖

2023-01-06 09:19:12

Seata分布式事務(wù)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产1区2区3区 | www.久久久久久久久 | www网站在线观看 | 成年人免费网站 | 国产一级在线 | 中文字幕在线视频免费视频 | 国产精品久久久久久久久 | 在线视频一区二区 | 在线视频一区二区 | 色网站视频| 亚洲精品一区在线 | 中日韩av | 黄色网址在线播放 | 亚洲人的av | 99re热精品视频 | 欧美精品一区二区三区四区五区 | 亚洲精品电影网在线观看 | 国产精品视频一区二区三区 | 青青久草 | 亚洲成人中文字幕 | 久久久久久毛片免费观看 | 国产视频久久久 | 精品国产乱码久久久久久丨区2区 | 丁香久久 | 一区二区三区 在线 | 亚洲综合在线网 | 欧美一区二区黄 | 日韩精品免费视频 | 国产欧美在线 | 九九在线视频 | 精品久久久久久久久久久 | 久久国产传媒 | 精精国产xxxx视频在线播放 | 国产精品美女一区二区 | 成人不卡 | 欧美国产视频一区二区 | 神马福利 | 欧美一区二区三区久久精品视 | 亚洲有码转帖 | 真人一级毛片 | 91动漫在线观看 |