成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何使用KNIME進行情感分析 | 中

大數據 數據分析
今天我們來聊一聊如何用KNIME構造一個情感分析模型,以便后期對相似的文本進行情感分析。

在現實世界中,知識不僅以傳統數據庫中的結構化數據的形式出現,還以諸如書籍、研究論文、新聞文章、WEB頁面及電子郵件等各種各樣的形式出現。面對以這些形式出現的、浩如煙海的信息源,人類的閱讀能力、時間精力等等往往不夠,需要借助計算機的智能處理技術來幫助人類及時、方便的獲取這些數據源中隱藏的有用信息。文本挖掘技術就在這種背景下產生和發展起來的。

文本挖掘的根本價值在于能把從文本中抽取出的特征詞進行量化來表示文本信息。將它們從一個無結構的原始文本轉化為結構化的計算機可以識別處理的信息,即對文本進行科學的抽象,建立它的數學模型,用以描述和代替文本。使計算機能夠通過對這種模型的計算和操作來實現對文本的識別。文本挖掘廣泛應用于輿情監測、有害信息過濾、電子郵件和文獻分析以及情感分析等領域。

今天我們來聊一聊如何用KNIME構造一個情感分析模型,以便后期對相似的文本進行情感分析。

下圖是整個分析過程的概況:

如何使用KNIME進行情感分析 | 中

首先,我們從IMDb網站上獲取關于《Girlfight》這部影片的2000條評論,儲存為.CSV格式的文件,利用File Reader這個節點把文本讀入。

如何使用KNIME進行情感分析 | 中

現在我們要將文件中的字符串轉化成文檔,把文件中除了文檔的列都過濾掉。

如何使用KNIME進行情感分析 | 中
(上圖即為Document Creation元節點里面的內容)

接著我們對這個文檔進行文本的預處理。先后將標點清除,數字過濾掉,將小于三個詞語的文檔過濾掉,停用詞過濾,將大寫轉化為小寫,***提取詞干。

如何使用KNIME進行情感分析 | 中
(上圖即為Preprocessing元節點里面的內容)

之后我們就可以創建詞袋了,即把提取出來的詞干扔進一個袋子里,可以看到,在本例中,我們創造的詞袋中一共包含155437行數據。

如何使用KNIME進行情感分析 | 中

然后把詞袋中的詞轉化為字符串,并根據原評論中詞出現的次數分組,可以看到,分組后我們的詞袋變成了22370行(這是因為之前的詞是有重復的)。

如何使用KNIME進行情感分析 | 中

之后我們過濾掉出現次數小于N的詞,(注意這個N是由從原文件中提取出的行數經過一段語法計算決定的,在本例中,是用行數除以100)。

如何使用KNIME進行情感分析 | 中

接著,我們以上一步過濾掉的詞為參考,在最初創建的詞袋中過濾掉它們,過濾后我們可用的詞是100728行數據,***計算這些詞的詞頻。

 

如何使用KNIME進行情感分析 | 中

終于我們完成了文本的預處理過程。

現在,我們要為原始的評論創建向量,來觀察詞袋中的詞是否存在于原文本中。之后提取原評論的情感標簽,并以顏色分類。

如何使用KNIME進行情感分析 | 中

接著我們把2000條評論分成兩個部分,本例中將70%用作訓練集,來構建決策樹模型,另外的30%用來測試決策樹模型。

如何使用KNIME進行情感分析 | 中

這就是決策樹模型,根據一個詞是否存在將文本集分為兩個部分。

如何使用KNIME進行情感分析 | 中

直到所有記錄都屬于同一類決策樹就會停止。

如何使用KNIME進行情感分析 | 中

***我們用兩種方法來對模型進行評價。

如何使用KNIME進行情感分析 | 中

一種是ROC曲線,曲線下方面積達到0.9397,如此可見,模型還是很不錯的。

如何使用KNIME進行情感分析 | 中

再來看一下矩陣,準確率高達93.167%。

如何使用KNIME進行情感分析 | 中

如此看來,我們的模型可以用來進行類似的文本情感分析。比如說網購的商品評論,企業官微下的評論等類似的情況,都可以用來進行情感分析。

點擊查看:

如何使用KNIME進行情感分析 | 上

如何使用KNIME進行情感分析 | 下

責任編輯:未麗燕 來源: 36大數據
相關推薦

2016-12-07 14:56:51

KNIME數據分析

2016-12-07 14:23:48

KNIME數據分析情感分析

2018-01-04 13:07:43

Python機器學習情感分析

2017-10-10 13:13:48

2019-05-14 10:37:26

Python機器學習編程語言

2018-09-04 11:45:31

前端JavaScriptNodeJS

2023-02-03 11:40:49

機器學習分析情感

2016-11-16 15:05:42

情感分析

2017-03-21 10:55:22

大數據

2021-08-09 15:00:36

SQL數據庫

2021-12-26 22:57:57

Java開發深度學習

2022-04-02 06:10:02

勒索軟件PSRansom安全工具

2016-12-07 09:27:11

KNIME大數據網絡

2021-11-26 08:45:06

NetworKi網絡安全分析安全工具

2017-07-12 10:44:31

CNNLSTMNLP

2018-02-07 17:32:54

情感分析

2020-12-15 20:00:09

比特幣加密貨幣區塊鏈

2019-05-20 13:20:36

Python編程語言情感分析

2021-11-04 05:43:38

GoKartGo代碼靜態安全分析

2017-09-26 19:02:09

PythonInstagram數據分析
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕第十一页 | 久久精品国产免费看久久精品 | va在线 | 欧美激情视频一区二区三区在线播放 | 中文字幕一区二区三区乱码在线 | 欧美1页 | 国产欧美日韩在线播放 | 一级做a爰片性色毛片 | 亚洲精品www久久久久久广东 | 人人玩人人添人人澡欧美 | 欧美精品第一页 | 国产精品一区二区三区在线 | 成人免费一区二区三区牛牛 | 色综合久久天天综合网 | 亚洲麻豆| 亚洲精选久久 | 色毛片 | 精品欧美一区二区三区精品久久 | 亚洲免费视频在线观看 | 精品日韩在线 | av网站免费观看 | 精品成人佐山爱一区二区 | 天天躁日日躁xxxxaaaa | 欧美日高清| 在线免费观看视频你懂的 | 国产精品成人一区 | 中文字幕亚洲一区二区三区 | www.伊人.com | 日韩在线免费视频 | 久久久久国产精品 | 亚洲一区二区三区四区视频 | hsck成人网| 最近中文字幕第一页 | 久久久久久久久久久久一区二区 | 日韩精品免费视频 | www.狠狠干| www.成人.com| 久久国产精品-国产精品 | 最新黄色在线观看 | 欧美黄色网 | 国产精品视频一区二区三区四蜜臂 |