Python微博移動(dòng)端爬蟲(chóng)實(shí)例(附代碼)
本文簡(jiǎn)要講述用Python爬取微博移動(dòng)端數(shù)據(jù)的方法??梢钥匆幌翿obots協(xié)議。另外盡量不要爬取太快。如果你毫無(wú)節(jié)制的去爬取別人數(shù)據(jù),別人網(wǎng)站當(dāng)然會(huì)反爬越來(lái)越嚴(yán)厲。至于為什么不爬PC端,原因是移動(dòng)端較簡(jiǎn)單,很適合爬蟲(chóng)新手入門(mén)。有時(shí)間再寫(xiě)PC端吧!
環(huán)境介紹
Python3/Windows-10-64位/微博移動(dòng)端
網(wǎng)頁(yè)分析
以獲取評(píng)論信息為例(你可以以自己的喜好獲得其他數(shù)據(jù))。如下圖:
在這里就會(huì)涉及到一個(gè)動(dòng)態(tài)加載的概念,也就是我們只有向下滑動(dòng)鼠標(biāo)滾輪才會(huì)加載出更多的評(píng)論數(shù)據(jù)。這也是網(wǎng)頁(yè)經(jīng)常使用的方式。接下來(lái)就應(yīng)該找到評(píng)論信息的真實(shí)網(wǎng)址,找到真實(shí)網(wǎng)址的方法就是打開(kāi)瀏覽器的開(kāi)發(fā)者工具,火狐/谷歌是F12鍵。打開(kāi)如下:
打開(kāi)以后點(diǎn)擊網(wǎng)絡(luò),網(wǎng)絡(luò)用來(lái)記錄瀏覽器和服務(wù)器交換的信息。接下來(lái)將鼠標(biāo)滾輪緩慢向下滾動(dòng),在這個(gè)過(guò)程中就會(huì)彈出類似于上圖的信息,也就是評(píng)論信息加載出來(lái)了。找到評(píng)論信息,應(yīng)該會(huì)在***條。如下圖:
真實(shí)網(wǎng)址:https://m.weibo.cn/api/comments/show?id=4160547165300149&page=3
將網(wǎng)址在火狐里面打開(kāi)如下圖:
上面的網(wǎng)址其實(shí)pages=3就代表第三頁(yè),所以只需模擬網(wǎng)址即可,pages=4,5,6。。。。
另外由于是Json文件,所以提取數(shù)據(jù)非常方便,只需用切片操作即可。