成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

新聞聯播也可以拿來做數據分析?

大數據 數據分析
今天從一個極簡角度,給大家展示如何利用文本數據做點有意思的統計,并通過可視化工具展示出來,希望對大家有所幫助。

在Tushare Pro數據開放平臺上,最近上線了近10年CCTV新聞聯播文本數據,以及各大財經網站的即時資訊文本。

很多用戶表示出了比較高的興趣,紛紛要求開通權限獲取數據。也有一些用戶看到這種文本類型的非結構化數據,表示一臉懵逼兩眼茫然。

今天從一個極簡角度,給大家展示如何利用文本數據做點有意思的統計,并通過可視化工具展示出來,希望對大家有所幫助。

數據準備

獲取近10年的新聞聯播文本有兩個方法,一是自己寫爬蟲,將CCTV網站的新聞聯播網頁爬取下來,二是通過Tushare SDK的API免費獲取數據。

如果是自己爬,好處是可以鍛煉自己的爬蟲編程能力,磨練自己被可能不統一的網頁格式虐心千百遍還不砸電腦的心態意志。

壞處是爬數據,清洗數據確實浪費時間,搞不好真有可能費電腦。

當然如果直接通過Tushare SDK調取數據,只需要一行代碼即可獲取到格式統一的數據。

df = pro.cctv_news(date='20181222')

數據格式效果如下

如果要獲取其他新聞資訊,也很簡單:

df = pro.news(src='sina', start_date='20181223', end_date='20181224')

新聞源目前支持如下:

?新聞聯播也可以拿來做數據分析??

獲取獲取后,可以存csv也可以存Excel,或者存數據庫都可以,這樣就完成了原始數據準備。

分詞處理

借助Python jieba分詞工具,我們可以快速的實現文本的分詞功能。同時可以設置關鍵字黑名單和白名單,過濾不需要的,提取想要的關鍵詞。

import jieba

#過濾關鍵詞
blacklist = ['責任編輯', '一定','一年', '一起', '一項', '一點兒', '一度','一系列','一道','一次','一億','進行', '實現', '已經', '指出',
'為什么', '是不是', '”', '一個', '一些', 'cctv', '一邊', '一部', '一致', '一窗', '萬億元', '億元', '一致同意', '本臺記住', '發生',
'上述', '不僅', '不再 ', '下去', '首次', '合作', '發展', '國家', '加強', '共同', '重要', '我們', '你們', '他們', '目前',
'領導人', '推進', '中方', '堅持', '支持', '表示', '時間', '協調', '時間', '制度', '工作', '強調', '進行', '推動', '通過',
'北京時間', '有沒有', '新聞聯播', '本臺消息', '這個', '那個', '就是', '今天', '明天', '參加', '今年', '明天']

#新增關鍵詞
stopwords = ['一帶一路', '雄安新區', '區塊鏈', '數字貨幣', '虛擬貨幣', '比特幣', '對沖基金', '自貿區', '自由貿易區','鄉村振興','美麗中國','共享經濟','租購同權','新零售',
'共有產權房','樓市調控', '產權保護', '互聯網金融', '5G', '4G', '國企改革', '大灣區', '長江經濟帶']

for word in stopwords:
jieba.add_word(word)

df = pd.read_csv(file, encoding='utf8')
list = []
df = df[df.content.isnull() == False]

for idx, row in df.iterrows():
data = jieba.cut(row['content'])
data = dict(Counter(data))

df = pd.DataFrame(list, columns=['date', 'keyword', 'count'])

按日期處理分詞之后,我們可以對詞頻進行統計,生成一個完整的詞頻csv文件。

為了讓大家更好地完成本次實驗,我們直接提供已經完成統計的csv文件供大家下載,請在文章末尾獲取下載方式。

詞頻統計分析

新聞詞云統計

對于具有影響力的新聞節目,可能很多人先想到的是哪些關鍵詞出現的次數最多?對于常見新聞詞語,一定逃不出你的預料之中,下面這個詞云圖可以驗證你的判斷。

??

實現詞云非常方便,前提是你已經準備好了詞頻統計。幸運的是,我們為你提供了現成的詞云統計csv文件,在下載的文件中可以找到一個all.csv的文件。

from pyecharts import WordCloud

all = pd.read_csv('all.csv', encoding='utf8')
name = list(all.head(80)['keyword'].values)
val = list(all.head(80)['count'].values)
wordcloud = WordCloud(width=1300, height=620)
wordcloud.add("", name, val, word_size_range=[20, 100])
wordcloud.render('')

正如你所看到的,我們借助了pyecharts這個工具來實現可視化。以下所有圖形效果都是借助pyecharts來實現的,更多具體的使用可以自行學習echarts和pyecharts的知識來加強圖形制作能力,這里不做太多的介紹。

新聞分類統計

除了新聞聯播常見關鍵詞,我們可能還想知道一些特定詞語出現在新聞聯播的次數,以便了解該類信息受關照程度,比如在過去10年當中,哪些省份和省會城市最受新聞聯播關注?

我們將各省在新聞聯播出現的數據進行分年統計,然后通過柱狀圖的形式展示出來。

from pyecharts import Bar


pro_data = pd.read_csv('pro_count_list.csv', encoding='utf8')
bar = Bar("", width=1000, height=500)
ps = pro_data.groupby(['key', 'year']).sum().reset_index()
attr = list(ps['key'].drop_duplicates().values)

for x in range(2009, 2019):
val = ps[ps.year == x]
val = list(val['count'].values)
bar.add(str(x), attr, val, is_stack=True, xaxis_interval=0, xaxis_rotate=60, yaxis_rotate=30)

bar.render('')

 

?新聞聯播也可以拿來做數據分析??

通過上圖我們可以知道,作為首都的北京毫無疑問是關注最多的地方。而在每年因為不同的政治、經濟或者文化事件,不同的省出現的頻次也呈現出一些差異。

比如2018年在政策上對海南的傾斜,對珠三角的關注等,而在2017年香港回歸20年,河北雄安新區的提出等事件,讓這些地方備受關注。

同樣的方法,我們也可以對各省會城市出現的頻次進行按年份統計。

?新聞聯播也可以拿來做數據分析??

可以清楚的看到,在2009年烏魯木齊因暴恐事件受到了極大的新聞關注,而海口在近兩年開放海南的大背景下也成了新聞聯播的常客。

如果柱狀圖看的不夠清晰,我們可以借助地圖熱力方式來顯示各省收關注程度可能更清楚。

from pyecharts import Map


pros = pro_data.groupby(['key'])['count'].sum().reset_index()
pros['count'] = pros['count']/10
pro_att = list(pros['key'].values)
pro_val = list(pros['count'].values)
map = Map("近十年新聞聯播提到各省的頻次", width=1200, height=600)

map.add(
"",
pro_att,
pro_val,
maptype="china",
is_visualmap=True,
visual_text_color="#000",
)

map.render('')

 

 

?新聞聯播也可以拿來做數據分析??

在熱力地圖上,顏色越深表示受關注越大,我們看到北京最紅,而東部沿海比西部,東北要比內蒙受關注更多。

如果想要了解各地級市或者縣級在新聞聯播出現的次數,我們同樣可以借助地圖效果來展示,通過散點效果可以大致看出在新聞聯播出現的情況。

?新聞聯播也可以拿來做數據分析??

新聞占比統計

可能有些人很想了解哪些大學在新聞聯播出現的次數最多,就像北京被關注最多一樣,北京的清華北大應該也是關注最多的?

我們來通過數據統計,根據排名前30位的占比來分析一下。

from pyecharts import Pie


dx = pd.read_csv('d:\\cctv_done\\u.csv', encoding='utf8')
dx = dx.head(30)
attr = list(dx['key'].values)
val = list(dx['count'].values)
pie = Pie("近十年新聞聯播提到的大學頻次", title_pos='center')
pie.add("", attr, val, is_label_show=True, is_legend_show=False)
pie.render()

 

?新聞聯播也可以拿來做數據分析??

我們對清華、北大、人大等知名大學的排名可能并不會覺得奇怪,但在受關注度排名前30的大學中,發現了一所國外的大學,那就是莫斯科大學,在接近10年的歷史里,總共提到了31次。

而在與世界各國的往來方面,我們同樣可以借助上述的方法,統計出各國在新聞聯播出現的次數來得到體現。

?新聞聯播也可以拿來做數據分析??

正如我們所知,中國與美國的關系是中國外交關系最緊密的,而中俄,中日關系也是非常重要。但同時我們也看到,諸如敘利亞、伊朗、朝鮮、伊拉克、巴基斯坦等戰亂和動蕩的國家讓世界人民也讓中國人民操碎了心。

新聞分時統計

在國際關系方面,我們從上面各國出現在新聞聯播的次數基本上得到了體現,但從每年的關注情況方面,我們可以通過折線圖更加清楚的了解到一些細節。

from pyecharts import Line


cdss = ctdf_all.head(10)
attr = [str(year) for year in range(2009, 2019)]
line = Line("")

for ckey in cdss['key'].values:
val = ctdfs[ctdfs.key == ckey]['count'].values
line.add(ckey, attr, val, is_smooth=True)

line.render()

 

?新聞聯播也可以拿來做數據分析??

從分時圖可以看出,美國、俄羅斯出現在新聞聯播出現的頻次一直很高,而且近年呈上升趨勢,而日本在2015年以后,提到的次數越來越少,反映出與日本的關系的變化。

在其他新聞和經濟熱詞方面,我們也進行了一些檢驗,比如人工智能、智能制造和5G等近年來越來越多的被提到,而在提到“金融風險”的次數也伴隨提及“金融”二字出現的越來越多。

另外,我們也跟蹤了一帶一路、自貿區、雄安新區等熱詞的頻次,比如雄安新區,在2017年4月1日首次出現之后,也是經常出現在新聞聯播里,通常快要到事件或概念提出的周年的時候,出現的頻次會更多。

?新聞聯播也可以拿來做數據分析??

總結

對于新聞等非結構化數據的統計分析,是一個很有意思的過程,也許你會發現一些意外的驚喜。尤其是結合互聯網社區的數據,比如微信微博等,可以從中挖掘出很有價值的信息。

本次實驗過程只是一個簡單的開始,還有很多更值得分析的角度和方法,只為拋磚引玉,希望對大家有所助益。

 

責任編輯:未麗燕 來源: 挖地兔
相關推薦

2015-01-07 09:57:20

2015-04-13 09:15:56

新聞聯播阿里云

2009-06-30 19:26:12

云計算虛擬服務器

2020-02-11 19:43:37

云辦公銳捷

2009-05-13 09:02:37

2020-05-15 15:09:51

R語言數據分析

2016-12-01 14:56:18

數據可視化

2023-05-26 07:50:17

數據分析師BI工具

2023-12-29 10:04:47

數據分析

2019-10-14 15:57:36

數據分析多維度二八法

2015-09-25 09:25:34

數據分析

2020-07-22 07:49:14

數據分析技術IT

2020-02-13 17:15:25

藍信

2018-05-18 09:18:00

數據分析報告數據收集

2017-02-09 15:46:09

數據分析互聯網

2012-05-31 09:33:28

數據分析

2016-09-30 01:04:45

數據分析數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩一区二区在线 | 欧美一卡二卡在线 | 久久久.com| 国产乱精品一区二区三区 | 韩国毛片视频 | 新疆少妇videos高潮 | 波多野结衣一区二区三区在线观看 | 久久一级 | 天天插天天操 | 午夜视频一区 | 中文av字幕| 精品国产精品国产偷麻豆 | 精品在线免费观看视频 | 国产探花在线精品一区二区 | 盗摄精品av一区二区三区 | 亚洲国产精品一区二区三区 | 天天插天天操 | 久久久精彩视频 | 天天做日日做 | 国产精品色 | 免费久久网站 | 亚洲国产在 | 91精品一区 | 国产一区 | 一区中文字幕 | 91视频久久久久 | 国产乱码精品1区2区3区 | 九九久久精品视频 | 综合色站导航 | 成人亚洲 | 久久久久久久久久久久久9999 | 偷派自拍| 美人の美乳で授乳プレイ | 免费国产黄网站在线观看视频 | 理论片87福利理论电影 | 欧美日韩在线一区二区三区 | www.久久精品视频 | 九九亚洲 | 久久精品免费 | 久久久久中文字幕 | a在线视频 |