成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

在Scrapy中如何利用CSS選擇器從網頁中采集目標數據——詳細教程(上篇)

開發 前端
今天小編給大家介紹Scrapy中另外一種選擇器,即大家經常聽說的CSS選擇器。

[[349166]]

/前言/

今天小編給大家介紹Scrapy中另外一種選擇器,即大家經常聽說的CSS選擇器。

 

/CSS基礎/

CSS選擇器和Xpath選擇器的功能是一致的,都是幫助我們去定位網頁結構中的某一個具體的元素,但是在語法表達上有區別。Xpath選擇器明明已經可以幫助我們提取信息了,為什么還要學習CSS選擇器呢?

蘿卜青菜各有所愛,對于不同知識背景的小伙伴,都可以來提取網頁信息。只要是能抓到老鼠的貓,都是好貓,同樣的,只要能提取信息,不論是正則表達式、BeateafulSoup、Xpath選擇器亦或是CSS選擇器,都是好的選擇器,只不過在效率和難易程度上不一樣。此外,對應前端的小伙伴來說,CSS選擇器對他們來說就簡單很多。

CSS選擇器功能強大,從實用性出發,下面是部分比較常用的一些CSS選擇器語法,相對來說比較簡單,但是也是非常實用的語法,希望大家都可以牢牢掌握,后期在提取網頁信息的時候將會事半功倍。

有了以上的CSS基礎之后,接下來我們進行實際應用。

 

/實際應用/

仍然以之前的網站為例進行說明,我們的目標數據是標題、發布日期、主題、正文內容、點贊數、收藏數、評論數等。

1、關于標題部分,之前我們利用Xpath的表達式的時候就分析過,得到了唯一性的定位標簽,在此不再贅述,如下圖所示。

2、仍然利用scrapyshell的調試模式進行助攻,結合上邊的CSS基礎語法,標題的具體CSS表達式如下圖所示。

需要注意的是在CSS中獲取標簽文本內容的方式是在CSS表達式后邊緊跟“::text”,記住是有兩個冒號噢,與Xpath表達式不一樣。這個表達式看上去比Xpath表達式要簡潔一些,所以當某些情況下,大家如果覺得CSS選擇器的表達式比Xpath表達式要簡短或者理解起來相對容易的話,可以首選CSS選擇器,沒有具體的要求,大家根據自己的喜愛來進行選擇即可,反之亦成立,當然也可以同時在一個爬蟲文件將兩個或者多個選擇器進行交叉使用。

 

3、接下來是發布日期的提取,仍然是以交互式的方式實現網頁與源碼之間的交互,其中標簽“entry-meta-hide-on-mobile”具有全局唯一性,可以很方便的定位到元素,如下圖所示。

4、根據網頁結構,我們可輕易的寫出發布日期的CSS表達式,可以在scrapy shell中先進行測試,再將選擇器表達式寫入爬蟲文件中,詳情如下圖所示。

5、關于文章主題標簽的CSS表達式,可以看到其在網頁結構上處于日期的下方,如下圖所示。

6、通過更改一下發布日期的CSS表達式,即可獲取到文章主題標簽。文章主題標簽處于a標簽下,如下圖所示。

獲取到整個列表之后,利用join函數將數組中的元素以逗號連接生成一個新的字符串叫tags,然后寫入Scrapy爬蟲文件中去。

 

7、對于點贊數,其分析方法同之前一致,找到唯一的一個標簽“vote-post-up”即可定位到數據。

8、點贊數在h10標簽下,根據網頁結構寫出CSS表達式,調試的過程如下圖所示。

取出的點贊數是個字符串,需要利用int()將其強制轉換為數字。

 

/小結/

本文基于CSS理論基礎,主要介紹了CSS選擇器的簡單語法和利用CSS選擇器做相關數據采集,下一篇文章將繼續分享CSS表達式數據采集方法,敬請期待,希望對大家的學習有幫助。

想學習更多關于Python的知識,可以參考學習網址:http://pdcfighting.com/,點擊閱讀原文,可以直達噢~

 

責任編輯:姜華 來源: Python爬蟲與數據挖掘
相關推薦

2020-10-25 08:06:08

Scrapy

2020-10-25 08:15:47

Scrapy

2020-10-21 08:49:17

Scrapy

2020-11-11 10:58:59

Scrapy

2010-09-03 09:30:29

CSS選擇器

2010-09-07 12:56:49

id選擇器CSS

2013-03-11 10:30:56

CSSWeb

2010-09-07 11:14:32

CSS屬性選擇器CSS

2023-03-16 10:20:55

CSS選擇器

2010-09-14 14:10:36

CSS樣式表

2010-09-06 08:52:00

CSS選擇器

2023-01-30 08:42:33

CSS選擇器性能

2010-08-26 12:47:15

CSSclass

2015-11-17 09:37:52

網頁設計黃金比例

2020-10-25 08:57:56

CSS前端瀏覽器

2011-10-24 10:30:20

CSS

2023-07-28 08:23:05

選擇器Java NIO

2012-01-04 11:09:10

Java采集器

2011-06-17 13:18:17

Qt 文件

2022-04-14 09:01:19

CSS父選擇器CSS類
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费黄色a级毛片 | 日本久久网| 日韩中文字幕在线观看 | 亚洲一区二区 | 久久噜| 久久久婷婷 | 91精品一区二区三区久久久久 | 看av在线| 96国产精品久久久久aⅴ四区 | 国产目拍亚洲精品99久久精品 | 久久国产免费 | 毛片黄片免费看 | 日本网站免费观看 | 国产午夜精品理论片a大结局 | 玖玖在线精品 | 91麻豆精品国产91久久久久久久久 | 91精品综合久久久久久五月天 | 欧美一区二区三区在线观看 | 国产日屁| 国产精品久久久久久婷婷天堂 | 91在线免费视频 | 日本午夜一区 | 狠狠干天天干 | 国产精品日本一区二区在线播放 | 最新中文字幕第一页视频 | av一区在线观看 | 精品一区二区三区中文字幕 | 波多野结衣先锋影音 | 国产精品毛片一区二区三区 | 日日骚网| 国产毛片在线看 | 国产a区| 亚洲a级 | 成人h视频在线观看 | 亚洲精品国产a久久久久久 中文字幕一区二区三区四区五区 | 国产一区二区久久久 | 一区二区三区免费 | 欧美片网站免费 | 美女视频久久 | 国产aⅴ爽av久久久久久久 | 欧美一区二区三区在线观看视频 |