成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人人都會數據采集- Scrapy 爬蟲框架入門

安全 應用安全
在這個言必稱“大數據”“人工智能”的時代,數據分析與挖掘逐漸成為互聯網從業者必備的技能。本文介紹了利用輕量級爬蟲框架 scrapy 來進行數據采集的基本方法。

在這個言必稱“大數據”“人工智能”的時代,數據分析與挖掘逐漸成為互聯網從業者必備的技能。本文介紹了利用輕量級爬蟲框架 scrapy 來進行數據采集的基本方法。

一、scrapy簡介

scrapy 是一套用 Python 編寫的異步爬蟲框架,基于 Twisted 實現,運行于 Linux/Windows/MacOS 等多種環境,具有速度快、擴展性強、使用簡便等特點。即便是新手也能迅速掌握并編寫出所需要的爬蟲程序。scrapy 可以在本地運行,也能部署到云端(scrapyd)實現真正的生產級數據采集系統。

我們通過一個實例來學習如何利用 scrapy 從網絡上采集數據。“博客園”是一個技術類的綜合資訊網站,本次我們的任務是采集該網站 MySQL 類別

https://www.cnblogs.com/cate/mysql/ 下所有文章的標題、摘要、發布日期、閱讀數量,共4個字段。最終的成果是一個包含了所有4個字段的文本文件。如圖所示:

scrapy 從網絡上采集數據

最終拿到的數據如下所示,每條記錄有四行,分別是標題、閱讀數量、發布時間、文章摘要:

scrapy 從網絡上采集數據

二、安裝scrapy

下面來看看怎么安裝 scrapy。首先你的系統里必須得有 Python 和 pip,本文以最常見的 Python2.7.5 版本為例。pip 是 Python 的包管理工具,一般來說 Linux 系統中都會默認安裝。在命令行下輸入如下命令并執行:

  1. sudo pip install scrapy -i http://pypi.douban.com/simple –trusted-host=pypi.douban.com 

pip 會從豆瓣網的軟件源下載并安裝 scrapy,所有依賴的包都會被自動下載安裝。”sudo”的意思是以超級用戶的權限執行這條命令。所有的進度條都走完之后,如果提示類似”Successfully installed Twisted, scrapy … “,則說明安裝成功。

三、scrapy交互環境

scrapy 同時也提供了一個可交互運行的 Shell,能夠供我們方便地測試解析規則。scrapy 安裝成功之后,在命令行輸入 scrapy shell 即可啟動 scrapy 的交互環境。scrapy shell 的提示符是三個大于號>>>,表示可以接收命令了。我們先用 fetch() 方法來獲取首頁內容:

  1. >>> fetch( “https://www.cnblogs.com/cate/mysql/” ) 

如果屏幕上有如下輸出,則說明網頁內容已經獲取到了。

  1. 2017-09-04 07:46:55 [scrapy.core.engine] INFO: Spider opened 
  2. 2017-09-04 07:46:55 [scrapy.core.engine] DEBUG: Crawled (200)  
  3. <GET https://www.cnblogs.com/cate/mysql/> (referer: None) 

獲取到的響應會保存在 response 對象中。該對象的 status 屬性表示 HTTP 響應狀態,正常情況為 200。

  1. >>> print response.status 
  2. 200 

text 屬性表示返回的內容數據,從這些數據中可以解析出需要的內容。

  1. >>> print response.text 
  2.  
  3. u'<!DOCTYPE html>\r\n<html lang=”zh-cn”>\r\n<head>\r\n     
  4. <meta charset=”utf-8″ />\r\n     
  5. <meta name=”viewport” content=”width=device-width, initial-scale=1″ />\r\n     
  6. <meta name=”referrer” content=”always” />\r\n     
  7. <title>MySQL – \u7f51\u7ad9\u5206\u7c7b – \u535a\u5ba2\u56ed</title>\r\n         
  8. <link rel=”shortcut icon” href=”//common.cnblogs.com/favicon.ico” type=”image/x-icon” />’ 

可以看到是一堆很亂的 HTML 代碼,沒法直觀地找到我們需要的數據。這個時候我們可以通過瀏覽器的“開發者工具”來獲取指定數據的 DOM 路徑。用瀏覽器打開網頁 https://www.cnblogs.com/cate/mysql/ 之后,按下 F12 鍵即可啟動開發者工具,并迅速定位指定的內容。

可以看到我們需要的4個字段都在 / body / div(id=”wrapper”) / div(id=”main”) / div(id=”post_list”) / div(class=”post_item”) / div(class=”post_item_body”) / 下,每一個”post_item_body”都包含一篇文章的標題、摘要、發布日期、閱讀數量。我們先獲取所有的”post_item_body”,然后再從里面分別解析出每篇文章的4個字段。

  1. >>> post_item_body = response.xpath( “//div[@id=’wrapper’]/div[@id=’main’]/div[@id=’post_list’]/div[@class=’post_item’]/div[@class=’post_item_body’]” ) 
  2. >>> len( post_item_body ) 
  3. 20 

response 的 xpath 方法能夠利用 xpath 解析器獲取 DOM 數據,xpath 的語法請參考官網文檔。可以看到我們拿到了首頁所有 20 篇文章的 post_item_body。那么如何將每篇文章的這4個字段提取出來呢?

我們以***篇文章為例。先取***個 post_item_body:

  1. >>> first_article = post_item_body[ 0 ] 

標題在 post_item_body 節點下的 h3 / a 中,xpath 方法中text()的作用是取當前節點的文字,extract_first() 和 strip() 則是將 xpath 表達式中的節點提取出來并過濾掉前后的空格和回車符:

  1. >>> article_title = first_article.xpath( “h3/a/text()” ).extract_first().strip() 
  2. >>> print article_title 
  3. Mysql之表的操作與索引操作 

然后用類似的方式提取出文章摘要:

  1. >>> article_summary = first_article.xpath( “p[@class=’post_item_summary’]/text()” ).extract_first().strip() 
  2. >>> print article_summary 
  3. 表的操作: 1.表的創建: create table if not exists table_name(字段定義); 例子: create table if not exists user(id int auto_increment, uname varchar(20), address varch … 

在提取 post_item_foot 的時候,發現提取出了兩組內容,***組是空內容,第二組才是“發布于 XXX”的文字。我們將第二組內容提取出來,并過濾掉“發布于”三個字:

  1. >>> post_date = first_article.xpath( “div[@class=’post_item_foot’]/text()” ).extract()[ 1 ].split( “發布于” )[ 1 ].strip() 
  2. >>> print post_date 
  3. 2017-09-03 18:13 

***將閱讀數量提取出來:

  1. >>> article_view = first_article.xpath( “div[@class=’post_item_foot’]/span[@class=’article_view’]/a/text()” ).extract_first() 
  2. >>> print article_view 
  3. 閱讀(6) 

很多人覺得 xpath 方法里的規則太過復雜。其實只要了解一點 HTML 文件的 DOM 結構,掌握 xpath 的提取規則還是比較輕松容易的。好在 scrapy shell 允許我們反復對 DOM 文件進行嘗試解析。實驗成功的 xpath 表達式就可以直接用在項目里了。

四、創建scrapy項目

scrapy shell 僅僅適用于測試目標網站是否可以正常采集以及采集之后如何解析,真正做項目的時候還需要從頭建立一個 scrapy 項目。 輸入以下命令退出 scrapy shell 并返回 Linux 命令行:

  1. >>> exit() 

假設我們的項目名稱叫 cnblogs_scrapy ,則可通過下面的命令來創建一個 scrapy 項目:

  1. scrapy startproject cnblogs_scrapy 

會自動生成如下結構的目錄與文件:

  1. |– cnblogs_scrapy 
  2. |        |– __init__.py 
  3. |        |– items.py 
  4. |        |– middlewares.py 
  5. |        |– pipelines.py 
  6. |        |– settings.py 
  7. |        `– spiders 
  8. |                `– __init__.py 
  9. `– scrapy.cfg 

五、解析與存儲

我們需要改三個地方:

1. 在spiders目錄下建一個文件cnblogs_mysql.py

內容如下:

  1. # -*- coding: utf-8 -*- 
  2.  
  3. import scrapy 
  4.  
  5. import sys 
  6. reload( sys ) 
  7. sys.setdefaultencoding( "utf8" ) 
  8.  
  9. class CnblogsMySQL(scrapy.Spider): 
  10.  
  11.     # 爬蟲的名字,必須有這個變量 
  12.     name = 'cnblogs_mysql' 
  13.      
  14.     page_index = 1 
  15.      
  16.     # 初始地址,必須有這個變量 
  17.     start_urls = [ 
  18.         'https://www.cnblogs.com/cate/mysql/' + str( page_index ), 
  19.     ] 
  20.      
  21.     def parse(self, response): 
  22.      
  23.         post_items = response.xpath(  
  24.             "//div[@id='wrapper']/div[@id='main']/div[@id='post_list']/div[@class='post_item']/div[@class='post_item_body']"  
  25.                 ) 
  26.                  
  27.         for post_item_body in post_items: 
  28.             yield { 
  29.                 'article_title':  
  30.                     post_item_body.xpath( "h3/a/text()" ).extract_first().strip(), 
  31.                 'article_summary':  
  32.                     post_item_body.xpath( "p[@class='post_item_summary']/text()" ).extract_first().strip(), 
  33.                 'post_date':  
  34.                     post_item_body.xpath( "div[@class='post_item_foot']/text()" ).extract()[ 1 ].strip(), 
  35.                 'article_view' :  
  36.                     post_item_body.xpath(  
  37.                             "div[@class='post_item_foot']/span[@class='article_view']/a/text()"  
  38.                         ).extract_first().strip() 
  39.             } 
  40.      
  41.         next_page_url = None 
  42.         self.page_index += 1 
  43.         if self.page_index <= 20: 
  44.             next_page_url = "https://www.cnblogs.com/cate/mysql/" + str( self.page_index ) 
  45.         else: 
  46.             next_page_url = None 
  47.      
  48.         if next_page_url is not None: 
  49.             yield scrapy.Request(response.urljoin(next_page_url)) 

這個就是我們的爬蟲,其中 name 和 start_urls 兩個變量必須存在。parse 方法的作用是將響應內容解析為我們需要的數據。parse 中的 for 循環就是在提取每一頁中的 20 篇文章。解析并提取完成后,通過 yield 將結果拋到 pipeline 進行存儲。

2. 修改pipelines.py文件,內容如下:

  1. # -*- coding: utf-8 -*- 
  2.  
  3. # Define your item pipelines here 
  4. # Don't forget to add your pipeline to the ITEM_PIPELINES setting 
  5. # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html 
  6.  
  7.  
  8. class CnblogsScrapyPipeline(object): 
  9.  
  10.     def open_spider( self, spider ): 
  11.  
  12.         self.fp = open( "data.list", "w" ) 
  13.  
  14.     def close_spider( self, spider ): 
  15.  
  16.         self.fp.close() 
  17.  
  18.     def process_item(self, item, spider): 
  19.  
  20.         self.fp.write( item[ "article_title" ] + "\n" ) 
  21.         self.fp.write( item[ "article_view" ] + "\n" ) 
  22.         self.fp.write( item[ "post_date" ] + "\n" ) 
  23.         self.fp.write( item[ "article_summary" ] + "\n\n" ) 
  24.  
  25.         return item 

可以看到有三個方法。這三個方法是從基類中繼承而來。open_spider/close_spider 分別在爬蟲啟動和結束的時候執行,一般用作初始化及收尾。process_item 會在每一次 spider 解析出數據后 yield 的時候執行,用來處理解析的結果。上面這個 pipeline 的作用是將每一條記錄都存儲到文件中。當然也可以通過 pipeline 將內容存儲到數據庫或其它地方。

3. 配置pipeline

注意僅僅有這個 pipeline 文件還不能工作,需要在配置文件中向 scrapy 聲明 pipeline。同目錄下有個 settings.py 文件,加入如下內容:

  1. ITEM_PIPELINES = { 
  2.         'cnblogs_scrapy.pipelines.CnblogsScrapyPipeline': 300, 

后面的數字是 pipeline 的權重,如果一個爬蟲有多個 pipeline,各個 pipeline 的執行順序由這個權重來決定。

修改完成并保存之后,退到 cnblogs_scrapy 的上層目錄,并輸入以下命令啟動爬蟲:

  1. scrapy crawl cnblogs_mysql 

所有經過處理的信息都會輸出到屏幕上。結束之后,當前目錄中會生成名為 data.list 的文件,里面存儲了本次采集的所有數據。

六、翻頁

cnblogs_mysql.py 的 parse 方法中有個 next_page_url 變量,一般情況下這個變量的內容應當是當前頁面的下一頁 URL,該 URL 當然也可以通過解析頁面來獲取。獲得下一頁的URL之后,用 scrapy.Request 來發起新一次的請求。 簡單起見本文通過直接拼接 URL 的形式來指定僅采集前 20 頁的數據。

七、其它

用 scrapy 發請求之前,也可以自己構造 Request,這樣就能偽裝為真實訪問來避免被封。一般情況下有修改 User-Agent、隨機采集時間、隨機代理 IP 等方法。 scrapy 項目可以直接運行,也可以部署在云端進行批量采集和監控。云端部署需要用到 scrapyd,操作起來也很簡單,有需要的話可自行參考官網文檔。

【本文是51CTO專欄機構“豈安科技”的原創文章,轉載請通過微信公眾號(bigsec)聯系原作者】

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2023-11-29 10:16:24

ScrapyPython

2012-05-25 15:35:43

JMSJava

2015-07-23 10:54:09

Java Mybati框架

2009-06-18 09:29:44

Spring Web

2017-05-15 21:00:15

大數據Scrapy爬蟲框架

2018-08-08 11:40:24

ScrapyRequest網絡爬蟲

2013-08-27 13:44:49

2017-11-29 15:21:53

PythonScrapy爬蟲

2021-01-08 09:07:19

Scrapy框架爬蟲

2016-03-18 11:19:57

ios9replaykit入門

2020-10-27 08:33:38

Scrapy

2012-07-17 09:13:14

Scrapy

2020-12-07 11:23:32

Scrapy爬蟲Python

2021-11-09 09:46:09

ScrapyPython爬蟲

2021-11-08 14:38:50

框架Scrapy 爬蟲

2021-04-12 07:36:15

Scrapy爬蟲框架

2009-01-03 14:39:00

ibmdwSpirit

2018-05-16 13:50:30

Python網絡爬蟲Scrapy

2021-05-18 13:25:28

feapder爬蟲Python

2020-11-11 10:58:59

Scrapy
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天爽夜夜爽精品视频婷婷 | 国产欧美一区二区三区日本久久久 | 午夜精品在线 | 欧美在线小视频 | 久久久久一区 | 理论片87福利理论电影 | 九九精品久久久 | 日韩一区和二区 | 我想看国产一级毛片 | 成人h免费观看视频 | 一区二区三区在线 | 国产一区精品在线 | 一片毛片 | 亚洲一区在线观看视频 | 日韩精品在线播放 | 一级欧美| 国产精品1区2区3区 一区中文字幕 | 精品日韩在线 | 国外成人在线视频网站 | 精精国产xxxx视频在线 | 午夜电影合集 | 日日夜夜视频 | 国内久久精品 | 国产成人精品免费 | 国产一区久久久 | 国产成人综合一区二区三区 | 在线观看国产 | 日韩毛片网 | 伊人网一区 | 国产一级片免费视频 | 亚洲v日韩v综合v精品v | 成人av网站在线观看 | www.一区二区 | 日韩乱码在线 | 久久精品网 | 另类a v| 久久大| 美女在线视频一区二区三区 | 亚洲视频在线看 | 国产精品大片 | 自拍视频国产 |