成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

自動評論何須學(xué)完爬蟲,只需要掌握Requests庫即可

開發(fā) 后端
Requests 是用Python語言編寫,基于 urllib,采用 Apache2 Licensed 開源協(xié)議的 HTTP 庫。它比 urllib 更加方便,可以節(jié)約我們大量的工作,完全滿足 HTTP 測試需求。

[[414634]]

網(wǎng)絡(luò)庫requests

其實(shí),我們有專門的網(wǎng)絡(luò)庫進(jìn)行直接的網(wǎng)絡(luò)請求與處理,它就是requests庫。在我們開始講解與使用之前,需要通過如下命令進(jìn)行安裝:

  1. pip install requests 

首先,我們先來看看requests庫可以進(jìn)行哪些操作:

1.發(fā)送HTTP請求2.上傳文件3.處理Cookie4.支持Session會話5.使用代理6.身份驗(yàn)證7.打包請求8.SSL證書驗(yàn)證

下面,我們來一一介紹這些操作具體是如何實(shí)現(xiàn)的。

發(fā)送HTTP請求

與urllib與urllib3一樣,HTTP請求常用的是GET請求與POST請求。

GET請求

其中,GET請求使用的方式是requests.get()。它可以設(shè)置參數(shù)params,也可以設(shè)置超時timeout,同時也可以設(shè)置請求頭headers。

示例如下:

  1. import requests 
  2.  
  3. url = "https://www.csdn.net/" 
  4. headers = { 
  5.     'user-agent''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' 
  6. result = requests.get(url=url, timeout=1, headers=headers) 
  7. #打印網(wǎng)頁源代碼 
  8. print(result.text) 
  9. #打印響應(yīng)狀態(tài)碼 
  10. print(result.status_code) 
  11. #打印Cookie 
  12. print(result.cookies) 
  13. #打印result類型 
  14. print(type(result)) 

運(yùn)行之后,輸出如下:

Python爬蟲:自動評論何須學(xué)完爬蟲,只需要掌握requests庫即可

POST請求

接著,我們來介紹POST請求。這里,我們同樣使用測試網(wǎng)站http://httpbin.org/post,向它發(fā)送一些數(shù)據(jù)。示例如下:

  1. import requests 
  2.  
  3. url = "http://httpbin.org/post" 
  4.  
  5. data = { 
  6.  
  7. "name""liyuanjing"
  8.  
  9. "age""29" 
  10.  
  11.  
  12. headers = { 
  13.  
  14. 'user-agent''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' 
  15.  
  16.  
  17. result = requests.post(url=url, timeout=1, headers=headers, data=data) 
  18.  
  19. # 打印網(wǎng)頁源代碼 
  20.  
  21. print(result.text) 
  22.  
  23. # 將其轉(zhuǎn)換為json 
  24.  
  25. print(result.json()) 

運(yùn)行之后,效果如下:

Python爬蟲:自動評論何須學(xué)完爬蟲,只需要掌握requests庫即可

抓取二進(jìn)制圖片

對于文本文件的獲取,我們很簡單地通過text進(jìn)行處理分析。但是假如我們是獲取的一張圖片顯然text是無法還原真實(shí)內(nèi)容。

不僅如此,圖片的text是亂碼。所以,我們需要將獲取到的圖片二進(jìn)制數(shù)據(jù)通過相應(yīng)的API保存為文件。示例代碼如下:

  1. import requests 
  2.  
  3. url = "https://img1.baidu.com/it/u=954496120,1621506021&fm=26&fmt=auto&gp=0.jpg" 
  4. headers = { 
  5.     'user-agent''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' 
  6. result = requests.get(url=url, timeout=1, headers=headers) 
  7. with open('requests.png''wb'as f: 
  8.     f.write(result.content) 

運(yùn)行之后,就會在程序目錄的統(tǒng)計目錄下生成一張圖片,當(dāng)然圖片鏈接讀者可以自己去找。這里的鏈接暫時有效。

需要注意的是,response.text是Unicode編碼,而response.content是原始二進(jìn)制字節(jié)流,這一點(diǎn)要額外注意,如果網(wǎng)頁出現(xiàn)亂碼,可以使用response.encoding=”gbk”進(jìn)行設(shè)置解析。

上傳文件

與講解urllib3一樣,我們這里上傳文件的服務(wù)器端口,由flask編寫。我們先來看看服務(wù)器端的代碼:

  1. import flask 
  2. import os 
  3.  
  4. UPLOAD_FILE = 'uploads' 
  5. app = flask.Flask(__name__) 
  6. @app.route('/', methods=['POST']) 
  7. def upload_file(): 
  8.     file = flask.request.files['file'
  9.     if file: 
  10.         file.save(os.path.join(UPLOAD_FILE, os.path.basename(file.filename))) 
  11.         return '文件上傳成功' 
  12.     else
  13.         return '文件上傳失敗' 
  14.  
  15. if __name__ == '__main__'
  16.     app.run() 

運(yùn)行此段代碼,默認(rèn)會一直運(yùn)行等待下去。

而使用requests進(jìn)行文件的上傳,也非常的簡單,因?yàn)槲募蟼魇荘ost請求,我們只需要設(shè)置file參數(shù)。示例如下:

  1. import requests 
  2.  
  3. url = "http://127.0.0.1:5000" 
  4. headers = { 
  5.     'user-agent''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' 
  6. files = { 
  7.     "file"open('123.png''rb'
  8. result = requests.post(url=url, files=files) 
  9. print(result.text) 

運(yùn)行之后,會在項(xiàng)目文件uploads文件夾下多一個123.png圖片,當(dāng)然123上傳時的文件必須存在。同時也要事先創(chuàng)建uploads文件夾。

處理Cookie

一般來說,爬蟲分為2個部分:首先是登錄,然后才是爬取。而在登錄時,我們一般使用selenium,進(jìn)行cookie的返回。

接著使用requests進(jìn)行爬取網(wǎng)頁的源代碼,因?yàn)閟elenium是一個專門的庫,后面我們會介紹,這里我們先假設(shè)我們獲取到了cookie。

直接將Cookie設(shè)置到請求頭

為了更有意思,我們在chrome按F12之后,用瀏覽器評論一個CSDN帖子,會捕捉到如下圖所示的請求數(shù)據(jù):

Python爬蟲:自動評論何須學(xué)完爬蟲,只需要掌握requests庫即可

這里,我們可以復(fù)制cookie數(shù)據(jù)到我們的headers之中。

同時下面有一個提交表單,其中,content是我們評論CSDN的內(nèi)容,articleId是我們評論CSDN的帖子,讀者可以自己看看CSDN帖子是否有一串?dāng)?shù)字。

通過請求頭,評論CSDN

那么,我們可以仿照這個請求連接,通過requests完成CSDN的評論操作,示例代碼如下所示:

  1. import requests 
  2.  
  3. url = "https://blog.csdn.net/phoenix/web/v1/comment/submit" 
  4. headers = { 
  5.     'user-agent''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
  6.     'cookie''CSDN登錄后返回的cookie'
  7. data = { 
  8.     "commentId"""
  9.     "content""最近正在學(xué)習(xí)剛好能用上"
  10.     "articleId""118750834"
  11. result = requests.post(url=url, data=data, headers=headers) 
  12. print(result.status_code) 

運(yùn)行之后,控制臺會輸出200,同時評論帖子下面會多出一條評論數(shù)據(jù),如下圖所示:

Python爬蟲:自動評論何須學(xué)完爬蟲,只需要掌握requests庫即可

RequestsCookieJar()

除了通過請求頭設(shè)置Cookie進(jìn)行訪問之外,其實(shí)我們的post()方法還有一個專門的cookies參數(shù),它用于接收RequestsCookieJar對象。

示例如下:

  1. import requests 
  2.  
  3. url = "https://blog.csdn.net/phoenix/web/v1/comment/submit" 
  4. headers = { 
  5.     'user-agent''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
  6. cookieStr = 'CSDN登錄后返回的cookie' 
  7. data = { 
  8.     "commentId"""
  9.     "content""最近正在學(xué)習(xí)剛好能用上"
  10.     "articleId""118517922"
  11.  
  12. jar = requests.cookies.RequestsCookieJar() 
  13. for cookie in cookieStr.split(";"): 
  14.     key, value = cookie.split('=', 1) 
  15.     jar.set(key, value) 
  16. result = requests.post(url=url, data=data, headers=headers, cookies=jar) 
  17. print(result.status_code) 

這段代碼與前文運(yùn)行效果一樣,這里不再輸出運(yùn)行結(jié)果,僅僅只是cookie使用方式的不同形式。

Session會話

cookie數(shù)據(jù)保存在客戶端,session數(shù)據(jù)保存在服務(wù)器端,一個Session代表一個特定的客戶端。那么如何在特定的客戶端與服務(wù)器端的Session對象之間建立聯(lián)系呢?

通常就是不斷在客戶端與服務(wù)器端之間來回傳遞一個ID,通過這個ID,客戶端就能在服務(wù)器端找到對應(yīng)的Session對象。

在實(shí)際的爬蟲項(xiàng)目中,有時候需要使用同一個客戶端來多次抓取頁面,就可以用到Session。示例代碼如下:

  1. result = requests.post(url=url, data=data, headers=headers, cookies=jar) 
  2. session = requests.Session() 
  3. r2 = session.post(url=url, data=data, headers=headers, cookies=jar) 
  4. print(r2.status_code) 

這里,我們將上面的Cookie代碼改一改即可。

使用代理

對于requests庫來說,使用代理非常簡單,因?yàn)間et與post函數(shù)都有一個proxies參數(shù),用于設(shè)置代理即可。示例如下:

  1. import requests 
  2.  
  3. url = "https://www.csdn.net/" 
  4. headers = { 
  5.     'user-agent''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
  6. proxies = { 
  7.     'http''http://183.47.138.80:8888'
  8.     'http''http://125.78.226.217:8888' 
  9. result = requests.post(url=url, proxies=proxies) 

需要注意的是,這里的代理IP博主測試的時候是有效的,但讀者可能讀到的時候已經(jīng)失效,讀者可以自己去網(wǎng)絡(luò)搜尋免費(fèi)的代理測試。

除了基本的HTTP代理,Request還支持SOCKS協(xié)議的代理。這是一個可選的功能,若要使用,需要使用下面的命令安裝第三方庫。

  1. pip install requests[socks] 

安裝完成之后,替換proxies即可。

  1. proxies = { 
  2.     'http''socks5://user:pass@host:port'
  3.     'https''socks5://user:pass@host:port' 

身份驗(yàn)證

requests庫還提供了身份驗(yàn)證功能,其中,get與post方法有一個auth參數(shù)專門用于身份驗(yàn)證,傳入的參數(shù)是HTTPBasicAuth,示例代碼如下:

  1. import requests 
  2. from requests.auth import HTTPBasicAuth 
  3.  
  4. url = "https://www.csdn.net/" 
  5. headers = { 
  6.     'user-agent''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
  7.  
  8. result = requests.post(url=url, auth=HTTPBasicAuth('name''password')) 
  9. print(result.status_code) 

這里,只是給讀者展示如何通過代碼進(jìn)行身份驗(yàn)證,如果你自己編寫服務(wù)器,可以通過如上代碼進(jìn)行操作,這里就不編寫了。

打包請求

不管是上面的get請求還是post請求,我們都是通過requests.get或者requests.post進(jìn)行操作的,但其實(shí)我們可以將請求參數(shù)單獨(dú)列出來打包。

也就是,俗稱的封裝。示例代碼如下所示:

  1. import requests 
  2.  
  3. url = "https://www.csdn.net/" 
  4. headers = { 
  5.     'user-agent''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
  6.  
  7. req = requests.Request('get', url=url, headers=headers) 
  8. session = requests.Session() 
  9. prepared = session.prepare_request(req) 
  10. result = session.send(prepared) 
  11. print(result.text) 

這里,通過Request進(jìn)行封裝請求數(shù)據(jù),然后調(diào)用Session的prepare_request方法處理Request對象,并返回一個requests.models.Response對象。

最后,通過Session.send方法發(fā)送Response對象。

SLL證書驗(yàn)證

在requests請求中,有一個verify的參數(shù)。訪問HTTPS時,如果需要驗(yàn)證SSL證書,可以不設(shè)置該數(shù)據(jù),它默認(rèn)為True表示驗(yàn)證證書。

如果不需要驗(yàn)證證書,可以設(shè)置verify等于False,那么就不會進(jìn)行驗(yàn)證。驗(yàn)證的代碼很簡單,就是什么也不用做即可,代碼如下:

  1. import requests 
  2.  
  3. try: 
  4.     url = "https://www.csdn.net/" 
  5.     result = requests.get(url) 
  6.     print(result.status_code) 
  7. except requests.exceptions.SSLError as e: 
  8.     print(e.args[0]) 

如果你的網(wǎng)站沒有SLL證書,或者證書未經(jīng)過權(quán)威機(jī)構(gòu)認(rèn)證,則會拋出SSLError異常。

如果你的網(wǎng)站有SLL證書,且經(jīng)過了權(quán)威的認(rèn)證,那么就不會拋出異常。

而如果你不想驗(yàn)證證書的話,可以將代碼修改為如下代碼:

  1. import requests 
  2.  
  3. try: 
  4.     urllib3.disable_warnings() 
  5.     url = "https://www.csdn.net/" 
  6.     result = requests.get(url, verify=False
  7.     print(result.status_code) 
  8. except requests.exceptions.SSLError as e: 
  9.     print(e.args[0]) 

不過,它會報InsecureRequestWarning警告信息,如果需要禁止輸出警告信息,可以使用urllib3.disable_warnings()進(jìn)行屏蔽。

 

責(zé)任編輯:姜華 來源: 今日頭條
相關(guān)推薦

2021-03-02 15:00:34

Python爬蟲數(shù)據(jù)

2016-12-13 17:02:49

androidjava移動應(yīng)用開發(fā)

2018-03-07 10:03:40

2023-05-23 10:01:51

冪等性抽象代數(shù)

2009-04-09 16:52:47

LinuxUbuntu 9.04

2023-09-05 07:55:56

Python網(wǎng)絡(luò)爬蟲

2018-08-03 12:21:02

2021-04-16 09:17:39

機(jī)器學(xué)習(xí)人工智能AI

2021-07-13 08:14:27

色彩用色類型輔助色

2018-01-09 15:44:57

2010-03-16 16:47:25

Ubuntu 9.04

2019-10-28 11:30:43

架構(gòu)數(shù)據(jù)結(jié)構(gòu)布隆過濾器

2023-10-11 12:45:49

Windows系統(tǒng)

2020-10-24 20:10:40

Python 開發(fā)編程語言

2018-01-05 15:36:12

工具博客寫作

2021-02-03 11:20:41

Docker架構(gòu)容器

2022-10-08 06:26:48

人工智能機(jī)器學(xué)習(xí)藝術(shù)

2020-07-21 08:42:16

搞垮服務(wù)器日志

2020-02-25 23:36:04

代碼開發(fā)工具

2021-10-20 07:48:17

DatalistCSS技巧
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 又爽又黄axxx片免费观看 | 中文字幕在线精品 | av天天干| 欧美日韩精品一区二区三区视频 | 人人干在线 | 欧美一级特黄aaa大片在线观看 | 91精品国产综合久久婷婷香蕉 | 啪视频在线 | 国产成人精品一区二 | 搞黄视频免费看 | 在线成人| 久久精品免费一区二区三 | 国产精品免费一区二区三区四区 | 亚洲精品v | 欧美黄色一区 | 九九免费| 久久久久九九九九 | 国产精品久久久久久久久图文区 | 深爱激情综合 | 久久中文视频 | 国产亚洲人成a在线v网站 | 黄色片网站国产 | 97人人超碰 | 日韩在线视频一区 | 久久久久亚洲 | 一区二区三区免费 | 伊人久操 | 日韩免费三级 | 日本三级电影在线看 | 国产精品自拍视频网站 | 成人精品福利 | 神马久久春色视频 | 99re视频| 成人免费福利视频 | www日本在线播放 | 性一交一乱一伦视频免费观看 | 久久久91精品国产一区二区三区 | av在线电影网 | 国产乱码精品1区2区3区 | 7799精品视频天天看 | 色综合天天天天做夜夜夜夜做 |