成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

手把手教你寫網絡爬蟲(7):URL去重

開發 后端
本期我們來聊聊URL去重那些事兒。以前我們曾使用Python的字典來保存抓取過的URL,目的是將重復抓取的URL去除,避免多次抓取同一網頁。

本系列:

[[230068]]

[[230069]]

IPv6編碼地址數:2^128(約3.4×10^38)

IPv6是IETF設計的用于替代現行版本IP協議(IPv4)的下一代IP協議,號稱可以為全世界的每一粒沙子編上一個網址。

[[230070]]

 

  1. public <T> boolean put(T object, Funnel<? super T> funnel, int numHashFunctions, BitArray bits) {  
  2.     long bitSize = bits.bitSize();  
  3.     long hash64 = Hashing.murmur3_128().hashObject(object, funnel).asLong();  
  4.     int hash1 = (int) hash64;  
  5.     int hash2 = (int) (hash64 >>> 32);   
  6.  
  7.     boolean bitsChanged = false 
  8.     for (int i = 1; i <= numHashFunctions; i++) {  
  9.         int combinedHash = hash1 + (i * hash2);  
  10.         // Flip all the bits if it's negative (guaranteed positive number)  
  11.         if (combinedHash < 0) {  
  12.             combinedHash = ~combinedHash;  
  13.         }  
  14.         bitsChanged |= bits.set(combinedHash % bitSize);  
  15.     }  
  16.     return bitsChanged;  
  17.  

 

  1. boolean set(long index) {   
  2.     if (!get(index)) {   
  3.         data[(int) (index >>> 6)] |= (1L << index);   
  4.         bitCount++;   
  5.         return true;   
  6.     }   
  7.     return false;   
  8. }     
  9.   
  10. boolean get(long index) {   
  11.     return (data[(int) (index >>> 6)] & (1L << index)) != 0;   
  12. }   

02 先get()一下,看看是不是已經置為1。 

03 index右移6位就是除以64,說明data是long型的數組,除以64就定位到了bit所在的數組下標。1L左移index位,定位到了bit在long中的位置。 

責任編輯:龐桂玉 來源: Python開發者
相關推薦

2018-05-16 15:46:06

Python網絡爬蟲PhantomJS

2018-05-16 13:50:30

Python網絡爬蟲Scrapy

2018-05-22 15:30:30

Python網絡爬蟲分布式爬蟲

2018-05-14 16:34:08

Python網絡爬蟲Scrapy

2018-05-14 15:27:06

Python網絡爬蟲爬蟲架構

2018-05-14 14:02:41

Python爬蟲網易云音樂

2020-07-10 08:24:18

Python開發工具

2023-03-27 08:28:57

spring代碼,starter

2021-01-30 10:37:18

ScrapyGerapy網絡爬蟲

2011-01-10 14:41:26

2025-05-07 00:31:30

2011-05-03 15:59:00

黑盒打印機

2021-07-14 09:00:00

JavaFX開發應用

2011-02-22 13:46:27

微軟SQL.NET

2021-02-26 11:54:38

MyBatis 插件接口

2021-12-28 08:38:26

Linux 中斷喚醒系統Linux 系統

2022-03-14 14:47:21

HarmonyOS操作系統鴻蒙

2022-07-27 08:16:22

搜索引擎Lucene

2022-01-08 20:04:20

攔截系統調用

2023-04-26 12:46:43

DockerSpringKubernetes
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久五月婷 | 亚洲午夜精品 | 永久精品 | 美女视频一区二区三区 | 桃花av在线| 一级欧美日韩 | 亚洲va国产日韩欧美精品色婷婷 | 精品国产18久久久久久二百 | 亚洲三区视频 | 九色.com | 日韩综合在线 | 亚洲精品乱码 | 999热在线视频 | 国产精品特级毛片一区二区三区 | 欧洲一区二区视频 | 精品久久国产 | 欧美激情视频一区二区三区在线播放 | 国产精品美女久久久久久久久久久 | 久久久久久免费毛片精品 | 男女羞羞视频网站 | av日韩高清 | 国产欧美三区 | 欧美 日韩 中文 | 91激情电影 | 久久新| 韩日av在线 | 免费一区| 久久精品视频网站 | 妹子干综合 | 亚洲欧美一区二区三区在线 | 亚洲成人免费观看 | 国产亚洲精品一区二区三区 | 日韩在线免费电影 | 日韩在线免费视频 | 欧美精品一区二区三区在线 | 日皮视频免费 | 九九精品在线 | 一区二区三区成人 | 美女国内精品自产拍在线播放 | 日韩欧美1区2区 | 人人干人人舔 |