成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

思路總結:對微博情感分析的的挖掘

大數據
一朋友由于工作需要,準備對新浪微博進行相關的抓取挖掘。特別是情感分析這一塊,便于他后期的實驗實踐。實際上,文本挖掘及分析在未來都會產生較大的效果。

 一朋友由于工作需要,準備對新浪微博進行相關的抓取挖掘。特別是情感分析這一塊,便于他后期的實驗實踐。實際上,文本挖掘及分析在未來都會產生較大的效果。舉一個簡單的例子,現在地鐵里的每個人每天都會去刷新自己的人人好友圈,微信好友消息。而這些消息大部分是基于文本的。如何對這些原始的消息進行挖掘。進而為相應的精準營銷做準備。在以后的營銷中將會產生重大效果。

原始數據

這一部分的內容,我們可以通過爬蟲技術來抓取。通過聚類算法,找到相同話題的所有微博。然后拿來做為原始數據。還有就是用戶好友圈內的評價消息,還有用戶產生的連接消息,等等。這些都可以作為原始數據來歸入我們的數據庫。

確訂目標(商業理解)

這一步也同時與業務理解要很好的關聯起來,首先,我們是要用這些原始數據來作什么?比如,我們用情感分析,所有不同用戶對同一事件的理解。我們要將他們的微博信息里的關鍵詞找出來。然而進行相應的查找算法,進而確定所有用戶對這一事件的評價。然后,我們要通過用戶的評價,找到有二次商業利用值的客戶。然后確訂為目標客戶。

數據理解

所抓取到的微博內容是什么,里邊帶幾個鏈接?是用什么符號與之相連?文字,圖片的分類,另外還有評論信息是否也有參考價值。里邊的特殊符號代表什么?等等。這些信息,那些是對我們的來說是有用的,如何去用?比如說要從文本中挖掘出關建字,進行相關的營銷活動。從而確定博主的情感動向。進而可以做些什么?理解我們的數據,才能更好的抓取到我們所要使用的數據。

模型建立

有人說,搞數據挖掘的人就是要來做這一部分的內容。你要建立一個好的模型,那以后的數據通過你的這個模型,那么你所需要的內容自動地就會呈現出來。而這一部分也是整個數據挖掘里最難的部分。

比如說我們的微博數據,我們可以通過決策樹算法建立模型。***輸出那些關健字的客戶就是我們的目標客戶。又或者,我們可以通過神經網絡的算法建立模型,找到相關的所的決策項。實際上,數據挖掘所用到的方法很多,也很復雜,我也是到現在還是沒有弄清楚一些算法的核心思想。但這樣并不影響我們來使用相關的算法來進行挖掘。再者說,現在的挖掘對象,真正上PB內容的資料也不是很多的。很多企業還停留在小型機的階段。所以,有的時候,我會開玩笑的說:數據量太小的話,EXECL會更好一些,然后是ACCESS數據庫。再然后就是ORCALE數據庫.....

模型建立是一個比較幸苦的工作,可是如果建立完成后,一般3-5年不會發生變化。比如我們現在的信用卡的信用評分系統。

模型評估

這一部分內容,是進行相關優化。也就是說模型建立好了,開始要跑業務了。要測試一下看它到底能跑到什么樣的程度。有的時候,你挖掘了半年,也找到的目標客戶,結果被其他人先用其他方法吸引走了,怎么辦?所以才要有模型評估這件工作。

先將大數據里的一部分數據,一般是40%拿來先做訓練,你也可以拿少量來試一試。然后看完成這些數據需要多長時間。換了其他的算法后,是否可以提高挖掘時間。一般這一步的數據分配要遵守一個4:3:3的原則,即40%拿來做訓練,30%來做測試,另外的30%拿來做驗證。綜合來說,才能夠評價這個模型的好壞,以及這個模型是否能產生它的相應價值。

發布模型

這是***一步,讓所有微博數據進行相應的算法優化。進而達到***的挖掘效果。

 

在以上的這幾個步驟中,模型評估與商業理解其實也是相輔相成的,因為這兩個主要是與數據最為密切。而數據理解與商業理解又是相互制約的,很多時候,我們是有了大數據,但是我們找不到我們的所要挖掘的目標在那里,這時就需要不斷的修訂我們的商業理解與數據理解,然而,模型的相關內容,在整個閉環的過程中并不顯的那么重要。有的時候,客戶的一個很簡單的需求,我們并不一定要用復雜的技術來實現,簡單也許就意味著勝利。

 

再來說說在文本挖掘中的思路,少量的文本信息。我們可以放在在WORD里用復制粘貼來完成,多的話可以用EXCEL,再多的話可以用U1,要是還是多就用SAS與R,再多就用其他的了,具體什么軟件,我也沒用過。

 

博文地址:http://bingyang.blog.51cto.com/533655/1437665

責任編輯:林師授 來源: 51CTO
相關推薦

2017-05-15 14:00:28

大數據Python情感極性分析

2013-06-17 10:39:32

淘寶阿里巴巴新浪微博

2021-07-06 23:53:42

Python微博輿情

2013-06-24 09:28:53

大數據挖掘

2013-04-27 13:55:34

大數據全球技術峰會

2015-04-16 10:35:08

微博微博如何實現

2012-05-09 14:02:46

HTML5

2013-03-26 10:40:21

2014-08-13 14:26:07

微軟小冰

2015-10-30 11:52:09

數據挖掘術語

2017-10-10 15:42:56

Python鹿晗關曉彤

2017-05-25 08:29:30

文本挖掘技術

2011-08-30 14:48:02

2015-09-24 18:08:50

微博架構架構演進架構

2011-08-15 13:42:57

2010-02-06 13:28:31

Android源碼

2024-10-14 14:19:02

2017-10-10 13:13:48

2017-04-27 11:15:05

新浪微博LNMP架構侯青龍

2013-08-05 10:25:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲日本激情 | 欧美成人精品欧美一级 | 久久国产精品一区二区三区 | www.久久99| 在线国产视频观看 | 欧美国产日韩一区二区三区 | 操人网| 高清久久久 | 日韩免费福利视频 | 久久91精品国产一区二区 | 99九九久久| 一区二区三区亚洲精品国 | 久久69精品久久久久久久电影好 | 日日夜夜av | 国产精品久久久久久久午夜 | 久久99精品久久久久久琪琪 | 欧美精品在线免费观看 | 精品国产女人 | 色爱综合网 | 国产精品久久久久国产a级 欧美日本韩国一区二区 | av一区二区三区四区 | 日本精品一区二区三区视频 | 久久专区 | 欧美激情一区二区 | 美女视频黄的免费 | 四虎最新视频 | 女同av亚洲女人天堂 | 美女视频三区 | 亚洲天天干 | 操久久| 免费av播放 | 日韩精品一二三区 | 精品99爱视频在线观看 | 欧美久久一级 | 日一区二区| 欧美一级二级三级视频 | 免费黄色大片 | 欧美一级二级在线观看 | 一区二区三区视频在线 | 亚洲高清在线观看 | 精品国产欧美一区二区三区不卡 |