成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從零開始的Python爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

開發 后端
用最短的時間寫一個最簡單的爬蟲,可以抓一些簡單的論壇、帖子、網頁。本文受眾是沒寫過爬蟲的萌新,快來看看吧!
 

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

引言

用最短的時間寫一個最簡單的爬蟲,可以抓一些簡單的論壇、帖子、網頁。

入門

1.準備工作

  • 安裝Python
  • 安裝scrapy框架
  • 一個IDE或者可以用自帶的

2.開始寫爬蟲

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

在spiders文件夾中創建一個python文件,比如miao.py,來作為爬蟲的腳本。

代碼如下:

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

3.運行一下

如果用命令行的話就這樣:

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

解析

1.試試神奇的xpath

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

2.看看xpath的效果

在最上面加上引用:

from scrapy import Selector

把parse函數改成:

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

我們再次運行一下,你就可以看到輸出“壇星際區”***頁所有帖子的標題和url了。

遞歸

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

完整的代碼如下:

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

Pipelines——管道

現在是對已抓取、解析后的內容的處理,我們可以通過管道寫入本地文件、數據庫。

1.定義一個Item

在miao文件夾中創建一個items.py文件

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

這里我們定義了兩個簡單的class用來描述我們爬取的結果。

2. 處理方法

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

3.在爬蟲中調用這個處理方法。

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

4.在配置文件里指定這個pipeline

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

可以這樣配置多個pipeline:

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

Middleware——中間件

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

1.Middleware的配置

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

2.破網站查UA, 我要換UA

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

這里就是一個簡單的隨機更換UA的中間件,agents的內容可以自行擴充。

3.破網站封IP,我要用代理

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

從零開始的 Python 爬蟲速成指南,本文受眾:沒寫過爬蟲的萌新

 

結束

看懂了嗎 ?是不是超簡單! 

責任編輯:龐桂玉 來源: 今日頭條
相關推薦

2018-08-20 08:39:24

編程語言Python網絡爬蟲

2024-03-01 19:53:37

PyBuilderPython開發

2018-05-09 19:29:49

Python爬蟲scrapy

2024-05-17 17:29:00

CurdlingPython開發

2025-01-26 16:57:02

2023-03-21 07:35:43

2017-12-05 10:17:02

Python爬蟲零基礎

2024-06-07 08:56:43

HTTPPythonSelenium

2025-01-06 00:38:12

2020-08-28 11:00:16

Python爬蟲命令

2011-04-29 10:46:32

iPhone開發入門iPhoneiOS

2015-11-17 16:11:07

Code Review

2019-01-18 12:39:45

云計算PaaS公有云

2018-04-18 07:01:59

Docker容器虛擬機

2024-12-06 17:02:26

2020-07-02 15:32:23

Kubernetes容器架構

2020-02-11 16:49:24

React前端代碼

2018-08-20 08:15:50

編程語言Go語言切片

2025-02-17 07:20:00

Flutter 3Flutter開發

2017-08-09 15:27:33

python爬蟲開發工具
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美中文字幕 | 成人国产精品久久久 | 中文字幕亚洲区一区二 | 国产美女视频黄 | 国产亚洲人成a在线v网站 | 日韩亚洲一区二区 | 超碰人人人 | 国产精品99 | 久久久久久久久久久国产 | 国产精品久久久久久久久久久久久久 | 久久久久久综合 | 久久av一区二区三区 | 日韩伦理一区二区 | h视频在线播放 | 亚洲第一天堂无码专区 | 国产精品91视频 | 香蕉视频久久久 | 成人av免费播放 | 日韩av在线一区二区 | 狠狠涩 | 99免费看| 国产在线观 | 五月婷婷导航 | 日日骚网 | 九九99九九精彩46 | 国产激情在线看 | 色资源站 | 美女视频黄的免费 | 日本三级全黄三级三级三级口周 | 国产电影一区二区在线观看 | 亚洲精品白浆高清久久久久久 | 99精品国产成人一区二区 | 亚洲高清在线播放 | 午夜影晥 | 中文字幕一区二区三区四区五区 | 伦理二区 | 在线不卡视频 | 日韩中文字幕在线观看 | 一本一道久久a久久精品蜜桃 | 日韩电影一区 | 成人欧美一区二区三区黑人孕妇 |