《三十而已》火爆全網,我分析了21萬條彈幕,發現了這些秘密
最近幾周,在《隱秘的角落》熱度落去后,《三十而已》又闖進了大家的視線中,被大家不停的討論,想必沒看過這部電視劇的小伙伴們也或多或少的從朋友那里聽到過這部電視劇吧。
《三十而已》以三位三十歲的女性視角進行展開,或多或少的體現出現實中我們遇到的問題,更能引起大家的共鳴,因此走紅也在情理之中。今天,小編爬取了騰訊視頻的近21萬條彈幕,看看大家是如何評價這部電視劇的。
1.彈幕的抓取
首先是彈幕的抓取,小編首先獲取了電視劇每集的vid信息,然后根據vid獲取到target_id進而爬取到每集的彈幕信息。其流程如下圖所示:
對應的部分程序如下所示:
程序首先利用GetVid函數獲取每集的target_id信息,然后針對于每集電視劇,構造其彈幕的url鏈接,爬取每個彈幕的評論內容,每條彈幕的點贊數,評論者的姓名等信息。
這里,小編一共爬取了前25集的彈幕,每集電視劇小編爬取了前40頁的彈幕信息,一共是208625條彈幕信息。
2.彈幕數據分析
獲取到彈幕信息后,我們接下來對數據進行一下簡單的分析,首先我們對于彈幕的內容進行清洗并寫入到本地txt文件中,由于彈幕信息會攜帶無關的人名信息,我們需要將無關人名進行去除,并提取評論的中文內容。程序如下所示:
程序首先根據彈幕的特征,將無關人名去除,然后利用正則表達式匹配中文,寫入到本地文件中去。
每個用戶彈幕的數量
對于眾多的彈幕信息,我們來看一下用戶發送的彈幕數量如何。我們將彈幕數量按照用戶進行計數,分為了1到9,9個區間和10以上的彈幕數量區間。
從上圖可以看出,絕大部分的觀眾只是發了一條彈幕來證明自己來看了這部電視劇,彈幕數量在10條以上的還是屬于少數人群。
誰是彈幕之王
上述圖中,我們可以發現,“浮若年華”的用戶發送了最多的510條彈幕,什么概念呢,在小編爬取的25集電視劇中,該用戶平均每集發送20.4條彈幕,基本上每隔兩分鐘就要來一條彈幕,可謂彈幕的高產戶。
但是彈幕數量多,并不代表著收獲的點贊數就多,我們接下來看一下,用戶的每條彈幕收獲的平均點贊數吧。
可以看到“追劇小奶鵝”用戶,每條彈幕收到了8233條點贊,遠遠的甩開了其他的用戶,可謂是金句的代表用戶。
上述展示的是每個用戶的累計點贊數和平均每條彈幕所收獲的點贊數量,由于用戶“追劇小奶鵝”的平均每條彈幕點贊數高的離譜,因此我們去除掉該用戶。可以看出,用戶的累計點贊數和平均每條彈幕點贊數之間相關性不明顯。
3.彈幕內容分析
接下來,我們來看一下大家彈幕的內容都有哪些關鍵詞吧,這里我們去除掉一些無謂的詞語,例如“哈哈哈”,“第一”等水彈幕,看一下大家真正的彈幕里都包含哪些信息,入下圖所示:
可以看到,大家對這部電視劇評價還是很不錯的,而且都有涉及到劇中的一些關鍵元素,例如夫妻間的婚姻問題,以及劇中的人物故事發展等信息。
以上就是小編為大家帶來的關于《三十而已》的數據爬取和彈幕簡單分析,反正小編看完之后,感覺心情沉重許多,成年人的世界真的很復雜~~不過小編還是很喜歡毛曉彤的,嘻嘻。