成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

手把手教你用Python爬取百度搜索結果并保存

開發 后端
眾所周知,百度上直接搜索關鍵字會出來一大堆東西,時常還會伴隨有廣告出現,不小心就點進去了,還得花時間退出來,有些費勁。

?[[381959]]?

 一、前言

眾所周知,百度上直接搜索關鍵字會出來一大堆東西,時常還會伴隨有廣告出現,不小心就點進去了,還得花時間退出來,有些費勁。

最近群里有個小伙伴提出一個需求,需要獲取百度上關于糧食的相關講話文章標題和鏈接。正好小編最近在學習爬蟲,就想著拿這個需求來練練手。我們都知道,對Python來說,有大量可用的庫,實現起來并不難,動手吧。

二、項目目標

爬取百度上關鍵字為“糧食”的搜索結果,并保存,提交給客戶,用于進一步分析我國糧食政策。

三、項目準備

軟件:PyCharm

需要的庫:json, requests,etree

四、項目分析

1)如何進行關鍵詞搜索?

利用response庫,直接Get網址獲得搜索結果。網址如下:

https://www.baidu.com/s?wd=糧食

2)如何獲取標題和鏈接?

利用etree對原代碼進行規范梳理后,通過Xpath定位到文章標題和href,獲取標題和文章鏈接。

3)如何保存搜索結果?

新建txt文件,對搜索結果循環寫入,保存即可。

五、項目實現

1、第一步導入需要的庫

import json
import requests
from lxml import etree

2、第二步用requests進行請求搜索

headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36"
}
response = requests.get('https://www.baidu.com/s?wd=糧食&lm=1', headers=headers)

3、第三步對獲取的源代碼進行整理分析,通過Xpath定位需要的資源

r = response.text
html = etree.HTML(r, etree.HTMLParser())
r1 = html.xpath('//h3')
r2 = html.xpath('//*[@class="c-abstract"]')
r3 = html.xpath('//*[@class="t"]/a/@href')

4、第四步把有用資源循環讀取保存

for i in range(10):
r11 = r1[i].xpath('string(.)')
r22 = r2[i].xpath('string(.)')
r33 = r3[i]
with open('ok.txt', 'a', encoding='utf-8') as c:
c.write(json.dumps(r11,ensure_ascii=False) + '\n')
c.write(json.dumps(r22, ensure_ascii=False) + '\n')
c.write(json.dumps(r33, ensure_ascii=False) + '\n')
print(r11, end='\n')
print('------------------------')
print(r22, end='\n')
print(r33)

六、效果展示

1、程序運行結果,如下圖所示:

????

2、保存為txt的文件最終結果如下圖所示:

????

七、總結

本文介紹了如何利用Python對百度搜索結果進行爬取、保存,是一個小爬蟲,這也是Python好玩的地方,有大量免費的庫可用,能幫你實現各種需求。工作量大,學會用Python!

本文轉載自微信公眾號「Python爬蟲與數據挖掘」,可以通過以下二維碼關注。轉載本文請聯系Python爬蟲與數據挖掘公眾號。

??

 

責任編輯:武曉燕 來源: Python爬蟲與數據挖掘
相關推薦

2020-03-08 22:06:16

Python數據IP

2021-05-08 08:04:05

Python爬取素材

2021-08-09 13:31:25

PythonExcel代碼

2022-10-19 14:30:59

2021-05-10 06:48:11

Python騰訊招聘

2021-02-02 13:31:35

Pycharm系統技巧Python

2021-12-11 20:20:19

Python算法線性

2011-03-28 16:14:38

jQuery

2021-02-04 09:00:57

SQLDjango原生

2021-02-06 14:55:05

大數據pandas數據分析

2022-08-04 10:39:23

Jenkins集成CD

2009-04-22 09:17:19

LINQSQL基礎

2021-05-17 21:30:06

Python求均值中值

2021-01-21 09:10:29

ECharts柱狀圖大數據

2021-01-08 10:32:24

Charts折線圖數據可視化

2012-01-11 13:40:35

移動應用云服務

2021-08-02 23:15:20

Pandas數據采集

2021-03-02 09:05:13

Python

2021-03-23 09:05:52

PythonExcelVlookup

2022-06-30 16:10:26

Python計時器裝飾器
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精彩视频 | 国产清纯白嫩初高生视频在线观看 | 中文字幕一区二区三区四区五区 | 国产精品片| 在线观看毛片网站 | 亚洲va国产日韩欧美精品色婷婷 | 伊人伊人 | 亚洲国产一区二区三区 | 午夜三区 | 日韩电影在线一区 | 一级片在线视频 | av中文字幕在线 | 久久久久久国产精品免费免费男同 | 国产精品伦理一区 | 国产欧美精品 | 日韩国产三区 | 国产在线精品免费 | 蜜臀久久99精品久久久久久宅男 | 国产视频在线一区二区 | 国产精品精品久久久 | 亚洲精品一区二区三区蜜桃久 | 日本一区二区三区四区 | 日韩一级 | 色精品视频 | 亚洲精品国产a久久久久久 午夜影院网站 | 久久成人国产精品 | 精品网 | 永久免费视频 | 免费久 | 综合久久99 | 中文字幕一区二区三区不卡在线 | 亚洲国产第一页 | 超碰免费观看 | 密色视频 | 久久亚洲国产精品日日av夜夜 | 美女福利网站 | 手机日韩 | 国产激情精品一区二区三区 | 国产成人艳妇aa视频在线 | 免费看黄视频网站 | a黄视频 |