成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Python網(wǎng)頁爬蟲制作DIY實(shí)際操作

開發(fā) 后端
Python爬蟲編寫是一個(gè)很有意思的事情,有很多有趣的知識(shí)需要我們?nèi)W(xué)習(xí),下面我們就來看看在編寫Python網(wǎng)頁爬蟲的時(shí)候具體需要怎么做。

Python網(wǎng)頁爬蟲在實(shí)際的使用中需要我們注意很多的地方,其實(shí)有的東西大家看著難但是在實(shí)際操作起來的話都很簡(jiǎn)單。下面我們就來學(xué)習(xí)下如何自己動(dòng)手編寫一個(gè)Python網(wǎng)頁爬蟲。

這個(gè)程序因?yàn)橹黜撁骀溄拥降捻撁娑荚谕粋€(gè)目錄下,結(jié)構(gòu)很簡(jiǎn)單,只有一層。因此寫了一些硬編碼做鏈接地址的分析。
代碼如下:

  1. #!/usr/bin/env python  
  2. # -*- coding: GBK -*-  
  3. import urllib  
  4. from sgmllib import SGMLParser  
  5. class URLLister(SGMLParser):  
  6. def reset(self):  
  7. SGMLParser.reset(self)  
  8. self.urls = []  
  9. def start_a(self, attrs):  
  10. href = [v for k, v in attrs if k == 'href']  
  11. if href:  
  12. self.urls.extend(href)  
  13. url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJi
    ngShuoShenMo/'
     
  14. sock = urllib.urlopen(url)  
  15. htmlSource = sock.read()  
  16. sock.close()  
  17. #print htmlSource  
  18. f = file('jingangjing.html', 'w')  
  19. f.write(htmlSource)  
  20. f.close()  
  21. mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGan
    gJingShuoShenMo/'
     
  22. parser = URLLister()  
  23. parser.feed(htmlSource)  
  24. for url in parser.urls:  
  25. myurl = mypath + url  
  26. print "get: " + myurl  
  27. sock2 = urllib.urlopen(myurl)  
  28. html2 = sock2.read()  
  29. sock2.close()  
  30. # 保存到文件  
  31. print "save as: " + url  
  32. f2 = file(url, 'w')  
  33. f2.write(html2)  
  34. f2.close() 

以上就是對(duì)Python網(wǎng)頁爬蟲在編寫過程中的詳細(xì)介紹。

【編輯推薦】

  1. Python腳本解決在游戲開發(fā)中的困難
  2. 簡(jiǎn)述Python語言經(jīng)驗(yàn)總結(jié)
  3. Python對(duì)象主要特征解析
  4. Python顯示UTF-8中文文本具體操作方法講解
  5. Python綁定C++程序具體實(shí)現(xiàn)方法淺談
責(zé)任編輯:張浩 來源: 互聯(lián)網(wǎng)
相關(guān)推薦

2010-03-10 19:00:20

Pythonnext函

2010-03-09 18:55:27

Python djan

2010-03-05 15:07:35

Python優(yōu)化圖片

2010-03-12 15:29:19

Pythonexe

2010-05-10 10:19:28

Oracle實(shí)戰(zhàn)RMA

2010-03-16 12:39:09

python for

2010-06-01 15:54:46

MySQL-pytho

2010-03-25 17:28:41

Python配置

2010-04-14 17:06:41

Oracle安裝路徑

2010-04-16 13:59:40

Oracle數(shù)據(jù)

2010-05-18 17:39:13

MySQL alter

2010-03-31 16:11:00

Oracle啟動(dòng)

2010-04-01 13:39:43

Oracle Name

2010-04-01 14:06:13

Oracle Name

2010-05-19 10:37:06

MySQL expla

2010-04-20 11:06:33

Oracle索引

2010-06-12 13:39:33

MySQL操作blob

2020-04-28 15:10:12

OpenCV Pyth閾值Linux

2010-03-17 13:14:00

Python Libr

2010-03-15 16:54:11

Python字典
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日韩欧美一区二区三区在线播放 | 在线a视频网站 | 在线成人免费视频 | 亚洲国产成人精品久久 | 黄色在线播放视频 | 亚洲国产成人精品女人久久久 | 羞羞视频网页 | 香蕉一区 | 中文字幕在线看 | 97人人爱| 欧美日韩成人在线 | 男女视频免费 | 欧美二区三区 | 成人小视频在线免费观看 | 久国产 | 福利久久 | 精品一区二区免费视频 | 精品国产欧美一区二区三区成人 | 伊人伊成久久人综合网站 | 天天操天天摸天天干 | 久久精品国产一区二区电影 | 久久久av | 免费视频中文字幕 | 欧美精品一二区 | 日韩久久精品 | 欧美高清dvd | 亚洲男女视频在线观看 | 国产精品成人一区二区三区夜夜夜 | 99在线观看| 久草视 | 天堂资源 | 国产精品美女久久久久久免费 | 九九九久久国产免费 | 777zyz色资源站在线观看 | 在线播放国产视频 | 久久一区二区三区四区 | 亚洲精品欧美一区二区三区 | 欧美性一区二区三区 | 性做久久久久久免费观看欧美 | 超碰超碰| 51ⅴ精品国产91久久久久久 |