成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

搜索引擎對重復(fù)頁面算法分析

開發(fā) 前端 算法
本文介紹了搜索引擎對重復(fù)頁面的算法分析,希望對你有幫助,一起來看。

搜索引擎判斷復(fù)制網(wǎng)頁一般都基于這么一個思想:為每個網(wǎng)頁計算出一組信息指紋(Fingerprint),若兩個網(wǎng)頁有一定數(shù)量相同的信息指紋,則認(rèn)為這兩個網(wǎng)頁的內(nèi)容重疊性很高,也就是說兩個網(wǎng)頁是內(nèi)容復(fù)制的。

很多搜索引擎判斷內(nèi)容復(fù)制的方法都不太一樣,主要是以下兩點(diǎn)的不同:

1、計算信息指紋(Fingerprint)的算法;

2、判斷信息指紋的相似程度的參數(shù)。

在描述具體的算法前,先說清楚兩點(diǎn): 

1、什么是信息指紋?信息指紋就是把網(wǎng)頁里面正文信息,提取一定的信息,可以是關(guān)鍵字、詞、句子或者段落及其在網(wǎng)頁里面的權(quán)重等,對它進(jìn)行加密,如MD5加密,從而形成的一個字符串。信息指紋如同人的指紋,只要內(nèi)容不相同,信息指紋就不一樣。

2、算法提取的信息不是針對整張網(wǎng)頁,而是把網(wǎng)站里面共同的部分如導(dǎo)航條、logo、版權(quán)等信息(這些稱之為網(wǎng)頁的“噪音”)過濾掉后剩下的文本。

分段簽名算法

這種算法是按照一定的規(guī)則把網(wǎng)頁切成N段,對每一段進(jìn)行簽名,形成每一段的信息指紋。如果這N個信息指紋里面有M個相同時(m是系統(tǒng)定義的闕值),則認(rèn)為兩者是復(fù)制網(wǎng)頁。

這種算法對于小規(guī)模的判斷復(fù)制網(wǎng)頁是很好的一種算法,但是對于像google這樣海量的搜索引擎來說,算法的復(fù)雜度相當(dāng)高。

基于關(guān)鍵詞的復(fù)制網(wǎng)頁算法

像google這類搜索引擎,他在抓取網(wǎng)頁的時候都會記下以下網(wǎng)頁信息:

1、網(wǎng)頁中出現(xiàn)的關(guān)鍵詞(中文分詞技術(shù))以及每個關(guān)鍵詞的權(quán)重(關(guān)鍵詞密度); 

2、提取meta descrīption或者每個網(wǎng)頁的512個字節(jié)的有效文字。 

關(guān)于第2點(diǎn),baidu和google有所不同,google是提取你的meta descrīption,如果沒有查詢關(guān)鍵字相關(guān)的512個字節(jié),而百度是直接提取后者。這一點(diǎn)大家使用過的都有所體會。

在以下算法描述中,我們約定幾個信息指紋變量:

Pi表示第i個網(wǎng)頁; 

該網(wǎng)頁權(quán)重最高的N個關(guān)鍵詞構(gòu)成集合Ti={t1,t2,...tn},其對應(yīng)的權(quán)重為Wi={w1,w2,...wi}
摘要信息用Des(Pi)表示,前n個關(guān)鍵詞拼成的字符串用Con(Ti)表示,對這n個關(guān)鍵詞排序后形成的字符串用Sort(Ti)表示。

以上信息指紋都用MD5函數(shù)進(jìn)行加密。

基于關(guān)鍵詞的復(fù)制網(wǎng)頁算法有以下5種: 

1、MD5(Des(Pi))=MD5(Des(Pj)),就是說摘要信息完全一樣,i和j兩個網(wǎng)頁就認(rèn)為是復(fù)制網(wǎng)頁; 

2、MD5(Con(Ti))=MD5(Con(Tj)),兩個網(wǎng)頁前n個關(guān)鍵詞及其權(quán)重的排序一樣,就認(rèn)為是復(fù)制網(wǎng)頁; 

3、MD5(Sort(Ti))=MD5(Sort(Tj)),兩個網(wǎng)頁前n個關(guān)鍵詞一樣,權(quán)重可以不一樣,也認(rèn)為是復(fù)制網(wǎng)頁。 

4、MD5(Con(Ti))=MD5(Con(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某個闕值a,則認(rèn)為兩者是復(fù)制網(wǎng)頁。 

5、MD5(Sort(Ti))=MD5(Sort(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某個闕值a,則認(rèn)為兩者是復(fù)制網(wǎng)頁。

關(guān)于第4和第5的那個闕值a,主要是因?yàn)榍耙粋€判斷條件下,還是會有很多網(wǎng)頁被誤傷,搜索引擎開發(fā)根據(jù)權(quán)重的分布比例進(jìn)行調(diào)節(jié),防止誤傷。

這個是北大天網(wǎng)搜索引擎的去重算法(可以參考:《搜索引擎--原理、技術(shù)與系統(tǒng)》一書),以上5種算法運(yùn)行的時候,算法的效果取決于N,就是關(guān)鍵詞數(shù)目的選取。當(dāng)然啦,選的數(shù)量越多,判斷就會越精確,但是誰知而來的計算速度也會減慢下來。所以必須考慮一個計算速度和去重準(zhǔn)確率的平衡。據(jù)天網(wǎng)試驗(yàn)結(jié)果,10個左右關(guān)鍵詞最恰當(dāng)。

后記

以上肯定無法覆蓋一個大型搜索引擎復(fù)制網(wǎng)頁的所有方面,他們必定還有一些輔助的信息指紋判斷,本文作為一個思路,給做搜索引擎優(yōu)化的一個思路。

【編輯推薦】

  1. 解析外鏈導(dǎo)致網(wǎng)站降權(quán)原因
  2. 做好seo 需具備的好習(xí)慣
  3. 做seo要理論加實(shí)踐才能做得最好
  4. 分享20個專業(yè)的SEO網(wǎng)站分析工具
  5. 分享提高網(wǎng)站流量的十大方法
責(zé)任編輯:于鐵 來源: SEO學(xué)習(xí)網(wǎng)
相關(guān)推薦

2011-06-20 18:23:06

SEO

2014-08-13 11:04:02

搜索引擎排序算法

2020-03-20 10:14:49

搜索引擎倒排索引

2017-08-07 08:15:31

搜索引擎倒排

2009-02-19 09:41:36

搜索引擎搜狐百度

2010-04-20 11:43:46

2022-10-08 09:13:18

搜索引擎?站

2012-09-07 13:22:21

搜索搜狗

2009-09-22 16:23:52

搜索引擎

2014-08-08 10:48:55

Google搜索引擎

2009-12-10 15:09:46

PHP搜索引擎類

2023-09-21 15:05:12

ChatGPT搜索引擎

2016-12-26 13:41:19

大數(shù)據(jù)搜索引擎工作原理

2011-06-03 10:19:53

2024-05-10 08:44:25

ChatGPT模型GPT

2011-11-15 08:40:17

百度

2023-02-08 10:45:23

2023-01-03 15:42:29

機(jī)器學(xué)習(xí)視頻搜索

2009-07-30 10:40:56

搜索引擎優(yōu)化網(wǎng)站

2010-06-13 16:27:28

搜索引擎
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 成人免费视频网站 | 国产9 9在线 | 中文 | 欧美大片一区 | 亚洲福利视频网 | 午夜免费av | 二区av | 九九热精品在线 | 久久99成人 | 久久久久久久网 | www久久国产 | 久久国产亚洲 | 99久久久无码国产精品 | 天天天操 | 国产日韩欧美一区二区 | 免费观看黄网站 | 国产女人精品视频 | 色橹橹欧美在线观看视频高清 | 国产精品久久久久久久久免费软件 | 国产高清视频 | 自拍偷拍小视频 | 日日爽| 久久久高清 | 这里只有精品999 | 在线黄 | av网址在线播放 | 欧美视频中文字幕 | 日韩精品视频在线 | 日本一区二区三区免费观看 | 狠狠躁躁夜夜躁波多野结依 | 欧美成人精品激情在线观看 | 久久蜜桃精品 | 一级特黄色毛片 | 国产一区二区影院 | 久久久久久成人网 | 精品免费| 在线欧美小视频 | 欧美久久久久 | 精品国产乱码久久久久久中文 | 免费亚洲视频 | 爱高潮www亚洲精品 中文字幕免费视频 | 91欧美 |