成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MobData:用深度學習模型提取商品評論中的典型意見

企業動態
現在的電商平臺上某件商品的評論數動輒就上千甚至上萬,人工逐條看精力有限,在短暫的決策時間窗口中,最多只能抽樣查看不超過20條評價,這樣的抽樣結果總結出來的結論大概率存在偏差,無法反應整體的真實情況。

我們在日常消費的決策中,比如選擇去哪家餐廳吃飯、是否購買某一件商品時,除了自身的感覺之外,我們常常會參考別人,尤其是已經消費過、體驗過的人是什么評價。現在的電商平臺上某件商品的評論數動輒就上千甚至上萬,人工逐條看精力有限,在短暫的決策時間窗口中,最多只能抽樣查看不超過20條評價,這樣的抽樣結果總結出來的結論大概率存在偏差,無法反應整體的真實情況。

那有沒有大數據的方法,可以保證獲得最全面最客觀的評價,而不是管中窺豹呢?

幸運的是打分機制很早就被發明出來了,所有人都可以對某一件商品的整體情況在1-5分的評分體系中,給出一個綜合評價,再按一人一票制取平均值,用得到的平均分來反映商品在所有人群中的整體評價,簡潔民主。

但這樣簡單粗暴的評分方式無法體現出用戶對商品的詳細評價,舉個簡單的例子,同樣是5分的評價餐廳,有的人覺得是因為菜品口味好,對自己的胃口,有的人覺得是因為用餐環境舒適,和女神度過了一個浪漫的夜晚。所以本文就分享一個深度學習的方法,從評論中提取出用戶的觀點,比如從某火鍋店的評價“環境蠻好,沒有很重的香料味道,上菜快,不用調料也好吃”中提取出“環境好,上菜快”的評價標簽,并和其他有類似標簽的評價聚類。

本文分享一種用word2vec模型,將詞語訓練成詞向量,作用就是將人類使用的自然語言(相對于計算機可理解的編程語言)中的字詞,轉換為計算機可以理解的稠密向量(Dense Vector)。在word2vec出現之前,自然語言處理經常把字詞轉為離散的單獨的符號(One-hot Vector)

比如上圖的例子,在語料庫中,四個城市各對應一個向量,向量中有且只有一個值為1,其他位置都為0

但是用One-hot Vector會有兩個問題,***,城市編碼是隨機的,向量之間相互獨立,看不出城市之間可能存在的關聯關系。其次,向量維度的大小取決于語料庫中字詞的多少。如果將世界所有城市名稱對應的向量合為一個矩陣的話,那這個矩陣過于稀疏,占用大量空間。Word2Vec可以將One-hot Vector轉化為低維度的連續值,也就是稠密向量,并且其中意思相近的詞將被映射到向量空間中相近的位置。

上圖是將訓練好的詞向量降維后映射到二維平面的城市間的關系,可以看出亞洲的城市聚集在右上方而美國的城市聚集在左下方

Word2vec模型訓練好后,每個詞都有與其對應的一個多維向量,向量的維數可以作為參數人工設定,一般情況下維數越高,詞與詞之間的關系就可以被描述的越準確,當然訓練模型所需的硬件和時間成本自然也更高,與其他模型一樣,需要在表現和成本之間人工確定一個平衡點。以訓練某手機游戲的評論文本為例,用python genism包提供的Word2vec模塊作為訓練工具,預測“畫面”,“音效”兩個詞的top20近義詞結果如下

在模型結果的基礎上進行人工篩選后,可以總結出“畫工”,“畫面質量”,“音響效果”,“音樂感”,“節拍”等詞都可以作為近義詞添加到人工建立的近義詞詞典中。

除了近義詞之外,word2vec模型還支持預測與輸入詞出現概率***的協同詞,下圖顯示的是與“畫面”,“音效”一同出現頻率***的top20協同詞,可以再模型結果的基礎上篩選出“精美”,“唯美”,“細膩”等形容畫面的評價,和“震撼”,“逼真”等形容音效的評價。

再重復向模型輸入類似“畫面”,“音效”等可以用來評價游戲的維度后,就可以將構建完整的近義詞詞典作為依據,聚類具有相似觀點的評論文本。

整個流程可以整理為以下這張流程圖

做過模型的同學都知道,模型只是工具,人工的部分才是區分整套系統質量和表現的關鍵。這套觀點提取系統中需要人工處理的地方包括,數據(語料庫)的選擇,數據預處理,其中預處理又分分詞,去停詞,去除噪音數據等細節,人工提供評價維度的種子詞(上文提到的“畫面”,“音效”等),篩選模型輸出的近義詞和協同詞結果(所有的結果保存在人工構建的詞典中)。

這套系統建立完成后,將新的評論文本經過預處理后作為輸入,匹配文本中是否包含詞典中所有的評價維度的近義詞和協同詞,將匹配結果作為觀點標簽標注在該條評論上。這樣我們就可以用模型批量的為評論文本打上標簽,***將所有標簽的結果匯總相加,就能得到無偏差的,全量的關于商品的評論,全面參考評論意見,輔助購買決策。

責任編輯:張燕妮 來源: 51CTO
相關推薦

2020-05-21 14:05:17

TFserving深度學習架構

2017-02-09 14:34:25

亞馬遜大數據Spark

2025-02-17 13:09:59

深度學習模型壓縮量化

2019-08-08 08:00:00

深度學習機器學習神經網絡

2024-07-19 08:00:00

深度學習知識蒸餾

2020-11-02 14:38:56

Java 深度學習模型

2017-09-01 15:20:33

深度學習電商商品應用

2023-08-23 12:38:10

2020-04-10 15:05:09

深度學習人工智能蒸餾

2020-09-29 17:00:33

人工智能

2023-11-19 23:36:50

2011-11-07 10:34:06

AMDIntel微處理器

2017-02-05 21:02:44

大數據深度學習推薦系統

2017-05-08 14:42:36

2021-11-12 14:11:21

深度學習編程人工智能

2017-09-08 09:47:06

深度學習應用實踐

2020-10-13 14:42:42

深度學習Windows人工智能

2011-10-14 10:22:03

e值

2017-05-27 14:00:06

深度學習人臉建模

2018-03-26 20:04:16

深度學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美黑人一区二区三区 | 毛片入口 | 久久国产精品一区二区 | 在线观看视频一区 | 久久久久国产精品 | 一级做a爰片久久毛片免费看 | 国产精品免费观看 | 成人看片在线观看 | 伊人91在线| 亚洲国产精品99久久久久久久久 | 亚洲国产成人精品久久久国产成人一区 | 区一区二区三在线观看 | 精品国产一区二区三区在线观看 | 一级做a爰片性色毛片 | 国产一区二区视频在线观看 | 国产亚洲精品综合一区 | 亚洲免费视频一区 | 欧美一级全黄 | 日韩av高清在线 | 中文在线一区 | 欧美日韩精品在线一区 | 国产免费黄网 | 久久久久无码国产精品一区 | 亚洲精品成人 | 91大神新作在线观看 | 一区影院 | 欧美一区二区在线 | 国产乱人伦精品一区二区 | 视频精品一区二区三区 | 高清国产一区二区 | 亚洲免费精品 | 欧美成人精品一区二区男人看 | av手机免费在线观看 | 国产欧美日韩一区二区三区 | 国产日屁| 午夜精品久久久久久久久久久久久 | 国产视频线观看永久免费 | 欧美日韩国产在线 | 精品96久久久久久中文字幕无 | 欧美亚洲成人网 | 日韩不卡在线观看 |