成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于深度學習的文本情感識別技術在5G不良消息安全管控平臺中的應用

人工智能 深度學習
目前,深度學習應用領域十分廣闊,依靠其重復訓練、自我學習的方式,可以大大降低人工的工作量,提升效率及準確度。不僅適用于上述不良信息攔截系統,相信在不久的將來,該技術在其他新興領域也會大放異彩。

作者 | 孫越,單位:中移(杭州)信息技術有限公司 | 中國移動杭州研發中心

Labs 導讀

隨著5G網絡的不斷普及,大量用戶開始接觸并使用5G網絡。5G網絡不僅可以傳送傳統網絡的語音、視頻、文本等信息,還可以憑借更加低時延及高精準的定位能力,被使用在更多具有實用價值的應用場景中,如:戰地實況信息、衛星定位導航等等。

網絡信息時常會夾雜不良信息,如涉政信息、涉黃信息、涉黑信息、涉詐信息、商業廣告消息等,且不良信息數量呈現逐年上升趨勢,給用戶造成了巨大騷擾。為了凈化網絡環境,有效管控不良信息傳播,中國移動5G不良消息安全管控平臺應運而生。

圖片

數據來源:中國移動集團信息安全中心

1、5G不良信息管控平臺的應用場景

該平臺在面對繁雜的網絡信息環境時,諸如文本消息、語音信息、視頻信息、富媒體信息等,將信息歸類為:涉政、涉黃、涉黑、涉詐、商業廣告消息、正常消息等等,再通過對應策略進行及時攔截,并根據不良消息的嚴重程度進行后續懲處處理,從根源凈化網絡環境,營造良好的網絡空間。

圖片

2、現有5G不良信息管控平臺的技術要點

該平臺主要通過以下幾種方法對不良信息進行攔截:

①設定一級關鍵詞:一級關鍵詞通常設置為一些極度敏感詞匯,若用戶發送信息中包含一級關鍵詞內容,即立即攔截該信息,信息內容無法下發,并對該用戶進行標記。

②設定普通關鍵詞: 普通關鍵詞設置為一些較為敏感詞匯,若用戶發送信息中包含普通關鍵詞內容,且在一定時間內,用戶發送該敏感消息的次數超過系統預先設定的攔截閾值,則系統會將用戶拉入黑名單,在一定時間內,該用戶無法使用完整5G網絡服務。

③設定復雜文本信息監控:如用戶發送PDF文件,其中該文件中包含文字和圖片,將文件中文字提取出來,過濾一級關鍵詞和普通關鍵詞機制,圖片則進行富媒體機制過濾,分別根據文本和圖片的過濾結果,采用從重處置的原則,作為該文件的處置結果。

3、現有5G不良管控平臺的技術弱點

現有5G不良消息安全管控平臺的過濾機制僅能過濾指定且有限的短語、短句,而隨著網絡普及,新鮮詞匯每天都會大量涌現,僅靠人工手動添加詞匯,已經無法做到及時、快速的更新詞匯庫。而且當今大量用戶在發送文本信息時,雖然整個文本信息沒有違規詞匯,但表達的思想及情感卻可能帶有大量不良情感傾向,僅靠詞匯及短句無法成功攔截不良情感內容。因此,利用文本情感分析,將富含不良情感傾向的句子進行送審攔截,可以進一步加強不良信息管控的效果,減少垃圾信息對用戶的侵蝕與毒害。

通過建立包含網絡流行短句及新聞消息的文本情感庫,將文本中富含的情感分為三類:積極情感、中性情感、消極情感,并按照這三種分類對每一個文本加上相應標簽,利用深度學習網絡對情感庫中文本進行訓練,便可將訓練好的模型用在5G不良消息管控平臺中對不良情感消息進行攔截。

4、基于深度學習的5G不良管控系統技術實現細節

該技術中包含三大主體:jieba分詞系統、詞組向量化,文本情感識別算法,各個主體之間的交互如下圖:

圖片

各模塊交互流程圖

通過爬蟲技術爬取網絡詞語及新聞消息作為原始文本,并將原始文本按照8:2的比例分為訓練集和測試集,對訓練集中的文本信息進行標簽化,然后將測試集中文本信息通過jieba分詞工具進行分詞處理,比如:他來到移動杭研大廈。通過jieba分詞工具分詞后,結果為:他/來到/移動/杭研/大廈,最后將分詞后數據組建成語料庫。由于訓練集和測試集文本信息量很大(通常在百萬級數據),所以會導致分詞后語料庫中的數據量也十分龐大(千萬級數據量)。雖然可以將這些語料以編號的形式儲存在語料庫中,但由于數據量龐大,極易出現維度災難。因此,針對文本信息中出現的語氣助詞,比如:“了”、“的”、“嗎”等等,這些詞雖然出現十分頻繁,但對情感作用幾乎沒有貢獻,我們會選擇在語料庫中剔除這些詞組,達到減少維度的目的。

我們將訓練集中已經向量化的詞組送入深度學習網絡中進行學習訓練,獲取相應模型,最后將測試集中的數據放入到模型中查看對應的識別結果,當該模型能夠獲得較好的正確率時,該模型聯接到5G不良管控平臺,用戶發送端到端的信息進行過濾。在過濾過程中,若發現不良信息及時進行攔截,使5G不良信息管控系統對于不良信息的攔截更加系統、全面。

圖片

具體步驟如下:

  1. 從網上爬取原始文本語料,并將原始文本進行預處理,包括:去除語氣詞,刪除文本中出現的標點符號、空白區域,刪除文本中出現的終止詞、稀疏詞和特定詞;使用jieba庫進行分詞,將文本句子按照詞組精確地切開,分成一個一個單獨的詞組;
  2. 將爬取到的文本數據集按照一定比例劃分成訓練集和測試集,對訓練集中文本句子進行人工標注,分為:積極情感、消極情感、中性情感。并分別使用jieba庫對訓練集和測試集內文本句子進行分詞,將分詞后的訓練集構建成語料庫;
  3. 將步驟1中詞組進行向量化,讓每一個分詞映射為一個多維的連續值向量,得到整個數據集的詞向量矩陣。
  4. 通過先抽取情感詞所在的子句,減少句子的復雜度,再在子句中根據各種特征預測情感對象的位置,然后再從相應位置進行情感抽取。情感抽取是為了獲取文本中有價值的情感信息,判斷一個單詞或詞組在情感表達中扮演的角色,包括情感表達者識別、評價對象識別、情感觀點詞識別等任務。
  5. 通過將上述操作獲得的情感向量送入到深度學習網絡獲得文本情感識別模型,再將測試集中情感向量送入該模型中,查看測試結果,并將檢測結果正常的數據繼續進行常規策略過濾,如:文本匹配、富媒體識別等。  

5、融入深度學習的5G攔截系統的優點

與現有5G攔截系統相比,融入深度學習的5G攔截系統具有以下優點:

  • 利用深度學習技術提供高可靠性、高真實性的有效鑒別;
  • 利用深度學習技術進行情感識別,人工介入少,工作效率高;
  • 利用文本情感識別,可有效補充關鍵詞攔截的不足;
  • 利用文本情感識別,可將在策略中及時自動更新補充新的詞條信息,提高效率。

寫在最后:

目前,深度學習應用領域十分廣闊,依靠其重復訓練、自我學習的方式,可以大大降低人工的工作量,提升效率及準確度。不僅適用于上述不良信息攔截系統,相信在不久的將來,該技術在其他新興領域也會大放異彩。當然,深度學習本身也不盡完美,并不能解決所有棘手問題。正因為如此,我們應該繼續將深度學習技術投入到新場景、新領域以期獲得新突破,共創美好的未來智能生活。

責任編輯:未麗燕 來源: 移動Labs
相關推薦

2020-06-29 08:36:50

5G網絡技術

2021-08-06 09:55:33

5G智慧農業物聯網

2020-11-16 15:45:18

5G醫療技術

2020-11-13 17:35:48

5GWDM無源

2022-01-09 23:35:50

5G運營商金融

2023-01-13 12:39:27

5G技術安全

2022-02-23 11:19:36

5G人工智能技術

2020-03-19 17:36:41

5G智慧城市運營商

2019-08-09 08:26:34

5G物聯網應用通信網絡

2020-06-28 09:59:10

5G網絡安全網絡

2022-06-17 11:03:11

5G安全隱私

2019-10-24 10:19:42

5G網絡物聯網

2021-11-18 22:41:55

5G6G技術

2020-06-04 15:32:18

5G網絡技術蜂窩技術

2019-07-09 10:33:14

網絡安全技術通信

2022-03-21 15:30:49

5G物聯網商業建筑

2021-11-09 05:34:55

5G應用5G試商用

2019-04-28 13:36:38

5G工信部4G

2023-09-28 21:24:54

5G運營商通信

2014-05-09 15:43:39

移動安全Android安全
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人免费观看视频 | 91免费视频 | 亚洲综合色视频在线观看 | 日本亚洲精品成人欧美一区 | 99久久久久久久久 | 欧美黄色片在线观看 | 欧美精品久久久久久久久老牛影院 | 国产特级毛片aaaaaa喷潮 | 精品视频一区二区三区在线观看 | 亚洲最新在线视频 | 一区二区在线不卡 | 国产婷婷精品av在线 | 毛片一级片 | 午夜免费视频 | 最近日韩中文字幕 | 天啪 | 精品久久电影 | 色视频在线播放 | 国内精品久久久久久 | 在线观看欧美日韩视频 | 亚洲欧美激情网 | 久久精品国产99国产精品 | 色姑娘av | 色综合久久久 | 福利成人| 狠狠狠| 国产亚洲欧美在线 | 欧美在线视频一区二区 | 在线播放亚洲 | 日韩在线观看 | 91精品免费视频 | 亚洲精品一区二区三区 | 欧美一区永久视频免费观看 | 中文字幕一区二区三区四区五区 | 日本高清精品 | 日韩成人高清在线 | 国产精品久久久久久久久久久免费看 | 久久久精品网 | 妖精视频一区二区三区 | 精品中文字幕一区二区 | 国产9久 |