成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于微博數據用 Python 打造一顆“心”

大數據
requests 用于網絡請求爬取微博數據,結巴分詞進行中文分詞處理,詞云處理庫 wordcloud,圖片處理庫 Pillow,科學計算工具 NumPy ,類似于 MATLAB 的 2D 繪圖庫 Matplotlib。

一年一度的虐狗節終于過去了,朋友圈各種曬,曬自拍,曬娃,曬美食,秀恩愛的。程序員在曬什么,程序員在加班。但是禮物還是少不了的,送什么好?作為程序員,我準備了一份特別的禮物,用以往發的微博數據打造一顆“愛心”,我想她一定會感動得哭了吧。哈哈!??!

準備工作

有了想法之后就開始行動了,自然***想到的就是用 Python 了,大體思路就是把微博數據爬下來,數據經過清洗加工后再進行分詞處理,處理后的數據交給詞云工具,配合科學計算工具和繪圖工具制作成圖像出來,涉及到的工具包有:

requests 用于網絡請求爬取微博數據,結巴分詞進行中文分詞處理,詞云處理庫 wordcloud,圖片處理庫 Pillow,科學計算工具 NumPy ,類似于 MATLAB 的 2D 繪圖庫 Matplotlib。

工具安裝

安裝這些工具包時,不同系統平臺有可能出現不一樣的錯誤,wordcloud,requests,jieba 都可以通過普通的 pip 方式在線安裝,

  1. pip install wordcloud 
  2. pip install requests 
  3. pip install jieba 

在Windows 平臺安裝 Pillow,NumPy,Matplotlib 直接用 pip 在線安裝會出現各種問題,推薦的一種方式是在一個叫 Python Extension Packages for Windows 1 的第三方平臺下載 相應的 .whl 文件安裝??梢愿鶕约旱南到y環境選擇下載安裝 cp27 對應 python2.7,amd64 對應 64 位系統。下載到本地后進行安裝

  1. pip install Pillow-4.0.0-cp27-cp27m-win_amd64.whl 
  2. pip install scipy-0.18.0-cp27-cp27m-win_amd64.whl 
  3. pip install numpy-1.11.3+mkl-cp27-cp27m-win_amd64.whl 
  4. pip install matplotlib-1.5.3-cp27-cp27m-win_amd64.whl 

其他平臺可根據錯誤提示 Google 解決?;蛘咧苯踊?Anaconda 開發,它是 Python 的一個分支,內置了大量科學計算、機器學習的模塊 。

獲取數據

新浪微博官方提供的 API 是個渣渣,只能獲取用戶***發布的5條數據,退而求其次,使用爬蟲去抓取數據,抓取前先評估難度,看看是否有人寫好了,在GitHub逛了一圈,基本沒有滿足需求的。倒是給我提供了一些思路,于是決定自己寫爬蟲。使用 http://m.weibo.cn/ 移動端網址去爬取數據。發現接口 http://m.weibo.cn/index/my?format=cards&page=1 可以分頁獲取微博數據,而且返回的數據是 json 格式,這樣就省事很多了,不過該接口需要登錄后的 cookies 信息,登錄自己的帳號就可以通過 Chrome 瀏覽器 找到 Cookies 信息。

實現代碼:

  1. def fetch_weibo(): 
  2.     api = "http://m.weibo.cn/index/my?format=cards&page=%s" 
  3.     for i in range(1, 102): 
  4.         response = requests.get(url=api % i, cookies=cookies) 
  5.         data = response.json()[0] 
  6.         groups = data.get("card_group"or [] 
  7.         for group in groups: 
  8.             text = group.get("mblog").get("text"
  9.             text = text.encode("utf-8"
  10.             text = cleanring(text).strip() 
  11.             yield text 

查看微博的總頁數是101,考慮到一次性返回一個列表對象太費內存,函數用 yield 返回一個生成器,此外還要對文本進行數據清洗,例如去除標點符號,HTML 標簽,“轉發微博”這樣的字樣。

保存數據

數據獲取之后,我們要把它離線保存起來,方便下次重復使用,避免重復地去爬取。使用 csv 格式保存到 weibo.csv 文件中,以便下一步使用。數據保存到 csv 文件中打開的時候可能為亂碼,沒關系,用 notepad++查看不是亂碼。

  1. def write_csv(texts): 
  2.     with codecs.open('weibo.csv''w'as f: 
  3.         writer = csv.DictWriter(f, fieldnames=["text"]) 
  4.         writer.writeheader() 
  5.         for text in texts: 
  6.             writer.writerow({"text": text}) 
  7.  
  8. def read_csv(): 
  9.     with codecs.open('weibo.csv''r'as f: 
  10.         reader = csv.DictReader(f) 
  11.         for row in reader: 
  12.             yield row['text'

分詞處理

從 weibo.csv 文件中讀出來的每一條微博進行分詞處理后再交給 wordcloud 生成詞云。結巴分詞適用于大部分中文使用場景,使用停止詞庫 stopwords.txt 把無用的信息(比如:的,那么,因為等)過濾掉。

  1. def word_segment(texts): 
  2.     jieba.analyse.set_stop_words("stopwords.txt"
  3.     for text in texts: 
  4.         tags = jieba.analyse.extract_tags(text, topK=20) 
  5.         yield " ".join(tags) 

生成圖片

數據分詞處理后,就可以給 wordcloud 處理了,wordcloud 根據數據里面的各個詞出現的頻率、權重按比列顯示關鍵字的字體大小。生成方形的圖像,如圖:

是的,生成的圖片毫無美感,畢竟是要送人的也要拿得出手才好炫耀對吧,那么我們找一張富有藝術感的圖片作為模版,臨摹出一張漂亮的圖出來。我在網上搜到一張“心”型圖:

生成圖片代碼:

  1. def generate_img(texts): 
  2.     data = " ".join(text for text in texts) 
  3.     mask_img = imread('./heart-mask.jpg', flatten=True
  4.     wordcloud = WordCloud( 
  5.         font_path='msyh.ttc'
  6.         background_color='white'
  7.         mask=mask_img 
  8.     ).generate(data) 
  9.     plt.imshow(wordcloud) 
  10.     plt.axis('off'
  11.     plt.savefig('./heart.jpg', dpi=600) 

需要注意的是處理時,需要給 matplotlib 指定中文字體,否則會顯示亂碼,找到字體文件夾:C:\Windows\Fonts\Microsoft YaHei UI復制該字體,拷貝到 matplotlib 安裝目錄:C:\Python27\Lib\site-packages\matplotlib\mpl-data\fonts\ttf 下

差不多就這樣。

責任編輯:武曉燕 來源: 36大數據
相關推薦

2017-02-24 19:32:39

微博數據Python

2022-12-27 14:29:37

javascript動畫

2014-07-30 16:19:13

敏捷華為

2015-05-18 16:12:32

信息化轉型油氣行業華為

2013-04-16 13:57:36

2020-06-30 15:38:17

戴爾

2024-06-11 08:32:37

JavaScrip隨機樹UI

2013-09-29 11:08:10

Bay Trail平板電腦

2009-06-10 18:15:36

電腦下鄉家電下鄉

2010-07-30 15:58:18

2022-08-26 12:13:40

黑客網絡攻擊

2015-11-20 17:30:34

天翼

2021-12-24 11:58:20

Shell腳本圣誕樹編程語言

2021-03-15 14:17:38

射頻芯片5G手機信號

2011-12-20 14:33:03

傲游瀏覽器微博

2021-06-30 13:20:05

Windows 11芯片PC

2009-04-21 18:04:04

雙核Nehalemintel

2015-01-12 11:07:22

2021-08-13 08:19:31

狀態機設計模式

2021-01-21 21:14:53

人工智能AIOpenAI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: hsck成人网| 黄色毛片在线播放 | 激情五月综合网 | 久久久久av | 在线视频一区二区 | 操到爽| 亚洲高清在线播放 | 国产福利在线看 | 国产目拍亚洲精品99久久精品 | 久久精品国产清自在天天线 | 亚洲欧美日韩精品久久亚洲区 | 日韩精品一区二区三区四区 | 性色av一区 | 亚洲一区国产精品 | 精品美女视频在线观看免费软件 | 日韩电影一区 | 在线观看视频91 | 91久久北条麻妃一区二区三区 | 成人国产精品久久 | 精品视频一区二区三区四区 | 日韩1区2区 | 中文字幕在线一区二区三区 | 91视频网| 9191在线播放 | 亚洲精品91 | 久久免费高清 | 亚洲欧美激情国产综合久久久 | www.亚洲 | 国产一区二区三区在线视频 | 精品一区二区久久 | 免费观看一级毛片 | 日韩一区二区三区精品 | 4h影视 | 日韩在线一区二区 | 国内精品视频在线观看 | 久久精品国产亚洲 | 国产精品久久久久久久久久 | 亚洲 自拍 另类 欧美 丝袜 | 中文字幕人成乱码在线观看 | 最新日韩av| 中文字幕91av |