成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Python爬蟲解析網(wǎng)頁的4種方式 值得收藏

開發(fā) 后端
用Python寫爬蟲工具在現(xiàn)在是一種司空見慣的事情,每個(gè)人都希望能夠?qū)懸欢纬绦蛉セヂ?lián)網(wǎng)上扒一點(diǎn)資料下來,用于數(shù)據(jù)分析或者干點(diǎn)別的事情。

 用Python寫爬蟲工具在現(xiàn)在是一種司空見慣的事情,每個(gè)人都希望能夠?qū)懸欢纬绦蛉セヂ?lián)網(wǎng)上扒一點(diǎn)資料下來,用于數(shù)據(jù)分析或者干點(diǎn)別的事情。

[[287132]]

我們知道,爬蟲的原理無非是把目標(biāo)網(wǎng)址的內(nèi)容下載下來存儲到內(nèi)存中,這個(gè)時(shí)候它的內(nèi)容其實(shí)是一堆HTML,然后再對這些HTML內(nèi)容進(jìn)行解析,按照自己的想法提取出想要的數(shù)據(jù),所以今天我們主要來講四種在Python中解析網(wǎng)頁HTML內(nèi)容的方法,各有千秋,適合在不同的場合下使用。

首先我們隨意找到一個(gè)網(wǎng)址,這時(shí)我腦子里閃過了豆瓣這個(gè)網(wǎng)站。嗯,畢竟是用Python構(gòu)建的網(wǎng)站,那就拿它來做示范吧。

我們找到了豆瓣的Python爬蟲小組主頁,看起來長成下面這樣。 

Python爬蟲解析網(wǎng)頁的4種方式 值得收藏

讓我們用瀏覽器開發(fā)者工具看看HTML代碼,定位到想要的內(nèi)容上,我們想要把討論組里的帖子標(biāo)題和鏈接都給扒出來。 

Python爬蟲解析網(wǎng)頁的4種方式 值得收藏

通過分析,我們發(fā)現(xiàn)實(shí)際上我們想要的內(nèi)容在整個(gè)HTML代碼的 這個(gè)區(qū)域里,那我們只需要想辦法把這個(gè)區(qū)域內(nèi)的內(nèi)容拿出來就差不多了。

現(xiàn)在開始寫代碼。

1: 正則表達(dá)式大法

正則表達(dá)式通常被用來檢索、替換那些符合某個(gè)模式的文本,所以我們可以利用這個(gè)原理來提取我們想要的信息。

參考以下代碼。 

Python爬蟲解析網(wǎng)頁的4種方式 值得收藏

在代碼第6行和第7行,需要手動(dòng)指定一下header的內(nèi)容,裝作自己這個(gè)請求是瀏覽器請求,否則豆瓣會視為我們不是正常請求會返回HTTP 418錯(cuò)誤。

在第7行我們直接用requests這個(gè)庫的get方法進(jìn)行請求,獲取到內(nèi)容后需要進(jìn)行一下編碼格式轉(zhuǎn)換,同樣是因?yàn)槎拱甑捻撁驿秩緳C(jī)制的問題,正常情況下,直接獲取requests content的內(nèi)容即可。

Python模擬瀏覽器發(fā)起請求并解析內(nèi)容代碼: 

  1. url = 'https://www.douban.com/group/491607/'headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:71.0) Gecko/20100101 Firefox/71.0"}response = requests.get(url=url,headers=headers).content.decode('utf-8'

正則的好處是編寫麻煩,理解不容易,但是匹配效率很高,不過時(shí)至今日有太多現(xiàn)成的HTMl內(nèi)容解析庫之后,我個(gè)人不太建議再手動(dòng)用正則來對內(nèi)容進(jìn)行匹配了,費(fèi)時(shí)費(fèi)力。

主要解析代碼: 

  1. re_div = r'<table\s+class=\"olt\">[\W|\w]+</table>'pattern = re.compile(re_div)content = re.findall(pattern, str(response))re_link = r'<a .*?>(.*?)</a>'mm = re.findall(re_link, str(content), re.S|re.M)urls=re.findall(r"<a.*?href=.*?<\/a>",  str(content), re.I|re.S|re.M) 

2: requests-html

這個(gè)庫其實(shí)是我個(gè)人最喜歡的庫,作則是編寫requests庫的網(wǎng)紅程序員 Kenneth Reitz,他在requests的基礎(chǔ)上加上了對html內(nèi)容的解析,就變成了requests-html這個(gè)庫了。

下面我們來看看范例: 

Python爬蟲解析網(wǎng)頁的4種方式 值得收藏

我喜歡用requests-html來解析內(nèi)容的原因是因?yàn)樽髡咭罁?jù)幫我高度封裝過了,連請求返回內(nèi)容的編碼格式轉(zhuǎn)換也自動(dòng)做了,完全可以讓我的代碼邏輯簡單直接,更專注于解析工作本身。

主要解析代碼: 

  1. links = response.html.find('table.olt'first=True).find('a'

安裝途徑: pip install requests-html

3: BeautifulSoup

大名鼎鼎的 BeautifulSoup庫,出來有些年頭了,在Pyhton的HTML解析庫里屬于重量級的庫,其實(shí)我評價(jià)它的重量是指比較臃腫,大而全。

還是來先看看代碼。 

Python爬蟲解析網(wǎng)頁的4種方式 值得收藏

 

  1. soup = BeautifulSoup(response, 'html.parser')links = soup.findAll("table", {"class""olt"})[0].findAll('a'

BeautifulSoup解析內(nèi)容同樣需要將請求和解析分開,從代碼清晰程度來講還將就,不過在做復(fù)雜的解析時(shí)代碼略顯繁瑣,總體來講可以用,看個(gè)人喜好吧。

安裝途徑: pip install beautifulsoup4

4: lxml的XPath

lxml這個(gè)庫同時(shí) 支持HTML和XML的解析,支持XPath解析方式,解析效率挺高,不過我們需要熟悉它的一些規(guī)則語法才能使用,例如下圖這些規(guī)則。 

Python爬蟲解析網(wǎng)頁的4種方式 值得收藏

來看看如何用XPath解析內(nèi)容。

主要解析代碼: 

  1. content = doc.xpath("//table[@class='olt']/tr/td/a"

 Python爬蟲解析網(wǎng)頁的4種方式 值得收藏  

如上圖,XPath的解析語法稍顯復(fù)雜,不過熟悉了語法的話也不失為一種優(yōu)秀的解析手段,因?yàn)椤?/p>

安裝途徑: pip install lxml

四種方式總結(jié)

正則表達(dá)式匹配不推薦,因?yàn)橐呀?jīng)有很多現(xiàn)成的庫可以直接用,不需要我們?nèi)ゴ罅慷x正則表達(dá)式,還沒法復(fù)用,在此僅作參考了解。

BeautifulSoup是基于DOM的方式,簡單的說就是會在解析時(shí)把整個(gè)網(wǎng)頁內(nèi)容加載到DOM樹里,內(nèi)存開銷和耗時(shí)都比較高,處理海量內(nèi)容時(shí)不建議使用。不過BeautifulSoup不需要結(jié)構(gòu)清晰的網(wǎng)頁內(nèi)容,因?yàn)樗梢灾苯觙ind到我們想要的標(biāo)簽,如果對于一些HTML結(jié)構(gòu)不清晰的網(wǎng)頁,它比較適合。

XPath是基于SAX的機(jī)制來解析,不會像BeautifulSoup去加載整個(gè)內(nèi)容到DOM里,而是基于事件驅(qū)動(dòng)的方式來解析內(nèi)容,更加輕巧。不過XPath要求網(wǎng)頁結(jié)構(gòu)需要清晰,而且開發(fā)難度比DOM解析的方式高一點(diǎn),推薦在需要解析效率時(shí)使用。

requests-html 是比較新的一個(gè)庫,高度封裝且源碼清晰,它直接整合了大量解析時(shí)繁瑣復(fù)雜的操作,同時(shí)支持DOM解析和XPath解析兩種方式,靈活方便,這是我目前用得較多的一個(gè)庫。

除了以上介紹到幾種網(wǎng)頁內(nèi)容解析方式之外還有很多解析手段,在此不一一進(jìn)行介紹了。

寫一個(gè)爬蟲,最重要的兩點(diǎn)就是如何抓取數(shù)據(jù),如何解析數(shù)據(jù),我們要活學(xué)活用,在不同的時(shí)候利用最有效的工具去完成我們的目的。

 

責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2019-08-14 10:00:08

vue組件通信前端

2014-12-31 14:09:23

xml解析

2022-03-25 11:44:14

Scrapy爬蟲命令

2017-08-09 15:27:33

python爬蟲開發(fā)工具

2021-03-18 14:35:36

爬蟲技術(shù)開發(fā)

2019-10-12 00:03:07

MyCat數(shù)據(jù)庫分庫分表

2018-08-10 11:20:35

編程語言Python網(wǎng)絡(luò)爬蟲

2010-08-16 14:02:22

CSS

2025-07-02 08:05:00

網(wǎng)頁端收消息架構(gòu)輪詢

2018-08-03 16:40:06

前端前端框架微服務(wù)

2024-07-31 08:33:17

2018-04-28 15:51:33

Mybatis方式傳遞

2020-02-06 10:10:24

python程序代碼

2019-04-22 15:00:05

CSS前端開發(fā)

2023-11-28 08:34:39

Python工具

2017-01-03 17:51:21

AndroidViewHolder工具類

2013-07-22 10:01:03

JavascriptWeb

2022-07-22 09:55:02

Python練手題

2017-10-27 11:47:05

SQL數(shù)據(jù)庫優(yōu)化

2021-03-10 10:13:39

爬蟲Python代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 97精品视频在线观看 | 精品欧美一区二区三区精品久久 | 综合天天久久 | 国产精品自拍视频 | 伊人久操| 三级黄色片在线播放 | 一级大片网站 | 三级在线视频 | 亚洲欧美久久 | 亚洲一区二区久久久 | 浮生影院免费观看中文版 | 精品国产一级 | 国产精品久久久久久久三级 | 国产精品美女久久久久aⅴ国产馆 | 91亚洲国产亚洲国产 | www日韩| 蜜臀91视频 | 毛片一区二区三区 | 国产精品亚洲视频 | 国产精品欧美一区二区三区不卡 | 亚洲欧美在线视频 | 91麻豆精品国产91久久久久久 | 久久亚洲欧美日韩精品专区 | 精品国产一级 | 亚洲精品美女在线观看 | 青青久草 | 在线国产小视频 | 99热这里有精品 | 亚洲三区在线观看 | 国产精品毛片一区二区三区 | 亚洲国产成人精品一区二区 | 老司机免费视频 | 成人在线a| 在线精品一区 | 九九伦理电影 | 五月婷婷丁香婷婷 | 91看片官网 | 一区二区亚洲 | 亚洲高清在线 | 尤物在线精品视频 | 在线永久看片免费的视频 |