成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

通用爬蟲技術要點: Dom樹的重建

開發 前端
HTML 源碼改寫這一個組件,會根據一定的策略對網頁源代碼進行修改,剔除無關的節點,合并復雜但沒有必要的嵌套節點……改寫以后,輸出相對標準和統一的 HTML,傳給下游的信息抽取組件進行內容抽取。

[[356193]]

這個問題來自于讀者交流群。原問題如下圖所示:

這個問題在通用爬蟲的開發過程中確實會涉及到。因為網頁的HTML 結構千變萬化,但是,通用爬蟲需要在不預先知道目標網頁結構的情況下對其中的內容進行提取。

這種情況下,通用爬蟲一般會分成幾個不同的部分,如下圖所示:

其中,HTML 源碼改寫這一個組件,會根據一定的策略對網頁源代碼進行修改,剔除無關的節點,合并復雜但沒有必要的嵌套節點……改寫以后,輸出相對標準和統一的 HTML,傳給下游的信息抽取組件進行內容抽取。

這位同學的問題,就涉及到對源代碼進行改寫。實際上,使用 lxml 在 DOM 樹中插入一個節點,這本來根本不是什么問題。任何一個會使用 Google 的同學,只要搜索lxml html insert element,自然就能找到大量的解決方法,如下圖所示:

但是,這個問題怪就怪在,它需要在文本節點的前面增加子節點。干講可能不好描述,我用一個例子來說明這個問題。

大家先來看這段代碼:

  1. from lxml.html import fromstring, Element, etree 
  2. from html import unescape 
  3. html = ''
  4. <div> 
  5.     <p>你好</p> 
  6. </div> 
  7. ''
  8.  
  9. node = fromstring(html) 
  10. p_node = node.find('.//p'
  11. element = Element('span'
  12. element.text = '青南' 
  13. p_node.insert(0, element) 
  14. new_html = unescape(etree.tostring(node).decode()) 
  15. print(new_html) 

根據我們使用 Python 列表的經驗,如果一個列表a現在是['你好'],當我們執行a.insert(0, '青南')以后,得到的結果應該是['青南', '你好']。但是我們來看看上面這段代碼的運行效果:

可以看到,青南是在你好后面的。大家再看本文最開頭的圖,提問者舉出的例子中,他希望把子節點插入到文本之前。具體到這個例子中,應該是青南你好。

大家可以試一試,你在 Google 上面無論怎么搜索,都找不到如何把節點插入到文本前面的方法。

但實際上,只要回歸官方文檔,你就會發現整個問題的解決方法并不困難。我們需要使用的,是lxml.html.builder[1]。

還是上面的例子,如何把 span 標簽弄到文本前面呢?我們用 builder來實現:

  1. from lxml.html import builder 
  2. from html import unescape 
  3.  
  4.  
  5. html = ''
  6. <div></div> 
  7. ''
  8.  
  9. node = fromstring(html) 
  10. new_node = builder.P(builder.SPAN('青南'), '你好'
  11. node.append(new_node) 
  12. new_html = unescape(etree.tostring(node).decode()) 
  13. print(new_html) 

運行效果如下圖所示:

看到這里,可能有同學會覺得我在耍無賴。這就像是讓我寫一個程序,計算斐波那契數列前5項的值,于是我5秒鐘寫出了答案print(1, 1, 2, 3, 5)。上面的代碼中,我直接使用builder.P(builder.SPAN('青南'), '你好'),這跟直接寫<p><span>青南</span>你好</p>有什么區別?這不是在作弊嗎?

我知道你很不服氣,但是,這就是真實的情況。通用爬蟲在做 HTML源碼改寫的時候,就是這樣做的。因為直接對網頁的 Dom 樹進行改寫是非常麻煩的事情。如果直接修改 Dom 樹,經常會出現需要找一個節點的父節點,然后再找父節點的兄弟節點的子節點進行修改。或者要判斷某個節點是否有子節點,有和沒有,需要兩種邏輯來處理,才能防止破壞 Dom 樹。

所以,我們一般不會直接修改 Dom 樹,而是一邊掃描原始的 Dom 樹,一邊使用 builder 重建一個新的 Dom 樹。重建 Dom 樹的過程比修改 Dom 樹的過程要簡單很多,畢竟寫過代碼的人都知道,寫新代碼比改別人的代碼容易很多。

參考資料

[1]lxml.html.builder: https://lxml.de/api/lxml.html.builder-module.html

本文轉載自微信公眾號「未聞Code」,可以通過以下二維碼關注。轉載本文請聯系未聞Code公眾號。

 

責任編輯:武曉燕 來源: 未聞Code
相關推薦

2010-09-28 11:22:18

Html DOM樹

2018-07-13 15:45:16

GDPR數據泄露通用數據保護條例

2021-04-16 20:50:16

URL爬蟲參數

2010-09-28 16:22:17

DOM樹

2009-12-24 14:02:57

Linux集群技術

2012-07-06 15:23:28

Linux集群

2022-11-24 10:24:32

2010-09-28 15:27:09

JavaScript

2013-06-13 10:08:41

BGP協議路由器協議

2010-06-30 09:51:55

UML建模技術

2013-01-09 15:27:45

DOM XSS檢測QtWebKitXSS

2010-09-10 14:12:07

JavaScript

2022-09-14 23:06:45

2018-05-14 15:27:06

Python網絡爬蟲爬蟲架構

2013-12-02 13:55:23

任意跳轉漏洞漏洞檢測DOM跳轉漏洞

2013-09-04 14:25:30

webkitwebApp開發

2009-07-03 10:46:48

JSP ServletJavaBean

2011-04-21 09:46:41

設計模式

2019-06-18 10:49:41

Python技術web

2021-03-22 08:23:29

LeetCode二叉樹節點
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人精品视频 | 久久久精 | 国产一区二区成人 | 亚州精品成人 | 91视频国产精品 | 日韩欧美高清 | 国产伦一区二区三区 | 欧美在线国产精品 | 另类视频区| 九色91视频 | 免费观看av | 国产在线色 | 国产精品海角社区在线观看 | 欧美 日韩 国产 成人 | 日韩1区2区 | 一区二区三区在线电影 | 亚洲三区视频 | 污片在线观看 | 亚洲国产一区在线 | 亚洲精品成人av久久 | 国产精品久久九九 | 久热久热 | 欧美综合在线视频 | 成人黄色电影免费 | 毛片a级毛片免费播放100 | 国产一区二区三区久久 | 亚洲专区在线 | 中文字幕av一区二区三区 | 日韩字幕一区 | 中文字幕国产精品 | 国产精品99久久久久久久vr | 久久新视频 | 国产精品成人国产乱一区 | 亚洲成人一区 | 日韩免费高清视频 | 黄色片网站在线观看 | 成人免费黄色片 | 精品成人av | 国产成人av在线 | 久久精品小短片 | 欧美一区二区三区的 |