成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

50行Python代碼獲取高考志愿信息,再也不用百度啦

開發 后端 新聞
最近遇到個任務,需要將高考志愿信息保存成Excel表格,BOSS丟給我一個網址表格之后就讓我自己干了。雖然我以前也學習過Python編寫爬蟲的知識,不過時間長了忘了,于是摸索了一天之后終于完成了任務。不得不說,Python干這個還是挺容易的,最后寫完一看代碼,只用了50行就完成了任務。

 最近遇到個任務,需要將高考志愿信息保存成Excel表格,BOSS丟給我一個網址表格之后就讓我自己干了。雖然我以前也學習過Python編寫爬蟲的知識,不過時間長了忘了,于是摸索了一天之后終于完成了任務。不得不說,Python干這個還是挺容易的,最后寫完一看代碼,只用了50行就完成了任務。

[[271468]]

準備工作

首先明確一下任務。首先我們要從網址表格中讀取到一大串網址,然后訪問每個網址,獲取到頁面上的學校信息,然后將它們在寫到另一個Excel中。顯然,我們需要一個爬蟲庫和一個Excel庫來幫助我們完成任務。

第一步自然是安裝它們,requests-html是一個非常好用的HTML解析庫,拿來做簡單的爬蟲非常優雅;而openpyxl是一個Excel表格庫,可以輕松創建和處理Excel數據。

  1. pip install requests-html openpyxl 

然后就是網址表格,大概長這樣,總共大概一千七百多條數據。其中有少量網址是錯誤的,訪問會得到404錯誤,所以在編寫代碼的時候還要注意錯誤處理。


任務分析

任務的核心自然就是分析和獲取網頁內容了。首先現在瀏覽器里面打開一個網址,看看網頁上的內容是什么。

50行Python代碼獲取高考志愿信息,再也不用百度啦

可以看到這個網頁格式很亂,學校名字什么的都是混在一起的,一點也不規整,這給我們提取數據造成了不少的麻煩。不過仔細分析之后,其實問題也并不難。

首先要提取的是學校名字,可以看到學校名字和其他文字混在一起,例如"本科一批普通文科627集美大學報考情況"。本來我準備用正則表達式提取,然后發現用正則表達式好像很難。之后我多訪問了幾個網頁,發現學校代碼基本上都是數字,如果有字母的話也出現到第一位,所以我采用了以下的算法,首先將字符串從數字處分隔,右邊的一個部分就包含了學校名字和“報考情況”幾個字,然后刪除“報考情況”即可得到學校名字。這個算法唯一的缺點就是,假如出現了字母在中間的代號,就沒辦法獲取到學校名字了,不過實際運行之后,我幸運的發現并沒有出現這種情況。

之后要提取的就是專業信息了,在網頁源代碼中這部分使用tr和td標簽來呈現的。一開始我用的是tr加上選擇器來提取,但是這個網頁生成的時候很有問題,每個tr標簽的樣式居然還根據內容的多少而不同,導致我寫死的選擇器沒法完美獲取所有行。不過后來我發現整個網頁內容都是一個表格, 除去表頭和結尾的幾個固定行之外,剩下的恰好就是要提取的數據行,所以直接獲取tr標簽,然后切片除去收尾即可。

50行Python代碼獲取高考志愿信息,再也不用百度啦

網頁基本上分析完了,下面就是編寫代碼了。

編寫代碼

總共50行左右代碼,我添加了注釋,相信大家應該很容易就可以看懂。

第一部分代碼是從網址表格讀取所有url,一開始編寫的時候,表格里的url是從另一個公式生成的,所以需要在加載的時候添加data_only=True才能讀取到公式的結果,否則只能讀取到公式本身。

第二部分是創建輸出文件,然后編寫表頭。順帶為了調試方便,我讓它如果檢測到已經存在目標文件的話就刪掉,在建立一個新的。

第三部分就是代碼的核心了。Python代碼看著可能有點奇怪,不過對照上面的分析,我想大家應該很容易看懂。需要注意保存文件在最后,假如半路代碼出現異常,整個就白干了,而一千七百多條網址不可能保證都正常運行。由于輸出格式是“學校名+專業信息”這樣的格式,所以我獲取學校名之后,還要將學校插入到每行專業信息之前。所以我這里索性直接用try-except包起來,如果出錯的話只打印一下出錯的網址。

  1. import os 
  2. from requests_html import HTMLSession 
  3. from openpyxl import Workbook, load_workbook 
  4. # 從網址表格獲取urls 
  5. def get_urls(): 
  6.  input_file = 'source.xlsx' 
  7.  wb = load_workbook(input_file, data_only=True
  8.  ws = wb.active 
  9.  urls = [row[0] for row in ws.values
  10.  wb.close() 
  11.  return urls 
  12. # 輸出Excel文件,如果已存在則刪除已有的 
  13. out_file = 'data.xlsx' 
  14. if os.path.exists(out_file): 
  15.  os.remove(out_file) 
  16. wb = Workbook() 
  17. ws = wb.active  
  18. # 編寫第一行表頭 
  19. ws['a1'] = '學校' 
  20. ws['b1'] = '專業代號' 
  21. ws['c1'] = '專業名稱' 
  22. ws['d1'] = '計劃數' 
  23. ws['e1'] = '預計1:1錄取最低分(投檔分)' 
  24. ws['f1'] = '按院校投檔比例投檔線上已報人數' 
  25. ws['g1'] = '學費' 
  26. ws['h1'] = '辦學地點' 
  27. ws['i1'] = '專業備注'  
  28. # 發起網絡請求,解析網頁信息,并寫入文件 
  29. session = HTMLSession() 
  30. urls = get_urls() 
  31. for url in urls: 
  32.  import re 
  33.  page = session.get(url) 
  34.  page.html.encoding = 'gb2312' 
  35.  try: 
  36.  college_info = page.html.xpath('//td[@class="report1_1_1"]/text()'first=True
  37.  college = re.split('\d+', college_info)[1].replace('報考情況'''
  38.  rows = page.html.xpath('//tr')[3:-2] 
  39.  for r in rows
  40.  info = [x.text for x in r.xpath('//td')] 
  41.  info.insert(0, college) 
  42.  ws.append(info) 
  43.  print(info) 
  44.  except
  45.  print(url) 
  46.  
  47. # 保存文件 
  48. wb.save(out_file) 

運行結果

好了,費了大半天的勁,代碼終于完成了。讓我們運行一下看看結果。整個代碼大概需要運行7-8分鐘,最后完成之后得到了一個500多k的Excel文件。

50行Python代碼獲取高考志愿信息,再也不用百度啦

打開之后,可以發現Excel文件填的滿滿的,最后總共獲取到了大約一萬多條數據,任務圓滿完成。

50行Python代碼獲取高考志愿信息,再也不用百度啦
責任編輯:華軒 來源: 今日頭條
相關推薦

2023-12-21 09:00:00

開發并發編程

2020-10-23 12:01:03

機器學習技術C++

2019-12-14 15:50:51

編程元知識代碼開發

2020-10-29 15:17:49

代碼開發工具

2015-07-29 16:49:47

百度

2021-12-21 09:05:46

命令Linux敲錯

2024-04-15 00:08:00

MySQLInnoDB數據庫

2025-04-25 11:20:00

網絡地址端口

2024-01-26 07:00:11

Python工具無向圖

2021-10-29 13:40:36

Python Gif 工具

2020-04-30 10:45:14

IDEA代碼神器工具

2015-05-29 09:01:48

2021-06-08 07:48:26

數據 Python開發

2014-07-18 15:54:04

goTenna:隨身無

2014-07-25 17:12:39

數據庫WOT2014MongoDB

2020-06-15 08:03:17

大文件OOM內存

2013-08-22 17:08:50

2019-01-14 00:43:08

可視化圖表數據分析數據可視化

2024-11-27 14:30:46

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕1区 | 国产精品夜夜夜一区二区三区尤 | 91视频进入| 日本aa毛片a级毛片免费观看 | 亚洲激情在线 | 日本超碰| 日韩中文字幕免费 | 激情五月综合 | 国内久久| 日本成人在线观看网站 | 成人在线视频免费观看 | 久久国产精品视频免费看 | 天天综合网7799精品 | 4hu最新网址| 日本手机在线 | 精品欧美一区二区三区久久久小说 | 亚洲成人一区 | 女同videos另类| 久久久久亚洲精品 | 91久久精品国产91久久性色tv | 国产免费自拍 | 羞羞视频在线网站观看 | 99精品欧美一区二区三区 | av手机在线 | 欧美黄视频| 午夜影院在线观看 | 国产精品国产精品国产专区不蜜 | 在线一区二区三区 | 成年人网站在线观看视频 | 欧美日韩国产精品激情在线播放 | 国产小视频在线 | 青青伊人久久 | 日本久久综合 | 欧美日韩视频网站 | 国产原创视频 | 国产精品成人一区二区 | 中文在线日韩 | 亚洲+变态+欧美+另类+精品 | 一区二区高清不卡 | 狠狠久久综合 | h片在线观看网站 |