成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一種基于機器學習的自動文檔標簽圖譜技術

人工智能
本文主要詳細講解了是個方面,即:知識圖譜技術發(fā)展趨勢、基于機器學習的標簽圖譜技術思路、關鍵技術分析、典型應用案例分享。

 本期課程重點分為以下四個方面:知識圖譜技術發(fā)展趨勢、基于機器學習的標簽圖譜技術思路、關鍵技術分析、典型應用案例分享。

  一、知識圖譜技術發(fā)展趨勢

  1. 知識圖譜

  (1)定義

  知識圖譜:是一種規(guī)模非常大的語義網(wǎng)絡系統(tǒng),是海量文本知識挖掘最常見的手段之一。知識圖譜旨在描述真實世界中存在的各種實體或概念及其關系,一般用三元組表示。知識圖譜亦可被看作是一張巨大的圖,節(jié)點表示實體或概念,而邊則由屬性或關系構成。

[[391855]]

(2)發(fā)展歷程

  知識圖譜的發(fā)展分為起源、發(fā)展、繁榮三個階段。

  (3)應用

  目前,知識圖譜在金融、醫(yī)療、教育、司法等多個行業(yè)領域廣泛應用。

  • 金融行業(yè):反洗錢、反欺詐等

 • 醫(yī)療行業(yè)

• 教育行業(yè)

• 司法:知識圖譜在司法中能解決證據(jù)索引、類案推送、結果預判、證據(jù)分析、文書生成和智慧調(diào)解

(4)重要作用

  知識圖譜具有獲取、表示和處理知識的能力,是人類心智區(qū)別于其它物種心智的重要特征,且已成為推動機器基于人類知識來獲取認知能力的重要途徑,并將逐漸成為未來智能社會的重要生產(chǎn)資料。

  知識圖譜是人工智能的基石,包括感知層與認知層。知識圖譜推動人工智能的應用,是強人工智能發(fā)展的核心驅(qū)動力之一。

  (5)知識圖譜的特點

  • 特點:

  √ 適用范圍:面向文本知識和數(shù)據(jù)

  √ 數(shù)據(jù)方面:要求具備一定的數(shù)據(jù)量

  √ 知識內(nèi)容:對知識的寬度、深度有要求,視具體業(yè)務情況

  √ 要求數(shù)據(jù)標注:機器學習的前提,越多越好

  √ 需要業(yè)務專家評估結果的準確性

  √ 通用性較差:不同行業(yè)效果差異很大

  √ 技術復雜:涉及業(yè)務、信息、網(wǎng)絡、人工智能、算法、圖形和大數(shù)據(jù)等多個方面

  2. 知識圖譜面臨多方面的挑戰(zhàn)

  (1)數(shù)據(jù)方面的挑戰(zhàn):多源數(shù)據(jù)的歧義多、噪聲大,數(shù)據(jù)關聯(lián)性不明確

  (2)算法挑戰(zhàn):現(xiàn)有算法知識抽取準確性、算法性能和算法可解釋性的挑戰(zhàn)(各行業(yè)不一樣)

  (3)基礎知識庫的挑戰(zhàn):知識庫融合、垂直領域知識庫構建、基礎知識庫不開放

  (4)開發(fā)工具的挑戰(zhàn):全生命周期平臺的缺失、算法工具專家間人機協(xié)同需要提升、基于文本的知識圖譜構建工具性能弱、跨語言語系的挑戰(zhàn)、知識圖譜中間件缺乏

  (5)隱私、安全方面的挑戰(zhàn)

  (6)測試認證方面的挑戰(zhàn)

  (7)商業(yè)模式與人才相關的挑戰(zhàn)

  (8)標準化方面的挑戰(zhàn)

  3. 工業(yè)領域文檔知識特點

  知識圖譜在通用領域得到廣泛的應用與發(fā)展,但在工業(yè)領域的應用卻不是很多,這與工業(yè)領域的行業(yè)特點、專業(yè)性、保密性和復雜性有關。

  (1)原始文檔知識數(shù)據(jù)龐大、格式繁多:知識獲取很復雜、技術難度高、成本高、時間長

  (2)年增長速度很快、存儲分散

  (3)專業(yè)性太強:與具體的場景關聯(lián)很強

  (4)公開的工業(yè)知識庫很少

  (5)保密性強:知識傳播、共享有限制

  (6)專業(yè)學科多,知識應用復雜:通用性不強,成本高

  4. 工業(yè)領域知識圖譜面臨的問題

  與傳統(tǒng)通用領域不同,工業(yè)領域的知識圖譜在知識獲取、知識應用方面存在較大的困難,總結起來主要有以下幾點:

  • 工業(yè)知識獲取技術難度高、投入大、周期長

  • 小批量、小樣本下的知識圖譜如何生成

  • 知識圖譜的準確度問題

  • 與結構化數(shù)據(jù)的知識融合問題

  • 缺乏標準化的知識圖譜平臺:任意擴展算法、語種、專業(yè)學科

  • 自主可控問題

  二、基于機器學習的標簽圖譜技術思路

  1. 標簽的定義與意義

  (1)標簽定義:是知識內(nèi)容高度抽象、高度概括的具現(xiàn)化,是知識某個維度的特征。它具有豐富的含義和內(nèi)涵,內(nèi)容簡單、明了。

  (2)標簽作用:分類、快速查找、快速了解、用戶畫像、產(chǎn)品畫像……

  (3)標簽在工業(yè)領域中的意義:

  • 具備常規(guī)標簽功效和能力

  • 專業(yè)性:專業(yè)術語、詞匯、主題……

  • 是工業(yè)知識圖譜基于知識運維模式的重要方法之一:標簽可以認為是關鍵詞、主題、事件

  2. 標簽應用

  標簽應用:非常廣泛,比如知識分類、信息關聯(lián)、用戶畫像、產(chǎn)品畫像、數(shù)據(jù)統(tǒng)計挖掘等。以客戶管理為例,客戶管理是制定六大目標的相關標簽體系,可以實現(xiàn)精確客戶營銷,產(chǎn)生最大客戶價值。

  3. 標簽體系構建方法

  (1)三大原則:

  • 放棄大而全的框架,以業(yè)務場景倒推標簽需求

  • 標簽生成自動化,解決效率和溝通成本

  • 有效的標簽管理機制

  (2)建立一個完整的標簽體系需要注重四點

4. 標簽示例

電商標簽體系示例

 知識三維標簽體系示例

  5. 基于標簽圖譜的技術思路

  (1)思路重點:標簽代替實體

  (2)影響準確度的因素:

  • 預處理結果質(zhì)量

  • 標簽實體識別

  • 關系抽取

  • AI算法優(yōu)化

  • 業(yè)務協(xié)同程度

  (3)基于知識運維的知識圖譜特點:原始數(shù)據(jù)少、通過迭代逐步豐富數(shù)據(jù)、通過迭代校正圖譜中的錯誤、逐步把專家頭腦中的知識挖掘出來,特別注重人機協(xié)同。

 三、關鍵技術分析

  1. 智能標簽技術

  (1)技術要點:基于人工智能算法,從單個文檔里提取若干個內(nèi)容特征詞作為文檔的內(nèi)容標簽

  (2)標簽目的:為下一步內(nèi)容標簽實體處理、標簽實體關系和標簽應用提取做準備

  (3)專業(yè)要求:

  • 提供專業(yè)詞匯庫、術語庫、近義詞/同義詞庫可以提高專業(yè)性(必填項)

  • 通過預設標簽和編碼,可以規(guī)范標簽名稱,縮小標簽范圍

  • 通過預設關聯(lián)詞之間的關系和權重,可以精確語義理解,消除二義性

  • 通過人工標注,可以提高準確性(可選項)

  • 在標簽使用過程中,可以人工糾錯(類似人工標注,小樣本知識圖譜常用的手段)

  2. 標簽關系抽取技術

  • 常規(guī)知識圖譜要素:實體、關系、方向

  • 標簽知識圖譜要素:與常規(guī)知識圖譜類似

  √ 標簽=實體

  √ 關系:按常規(guī)方法抽取

  √ 方向:按常規(guī)方法抽取

  √ 標簽圖譜類似關鍵詞圖譜、主題圖譜

  √ 自動化:輔以人工標注(工作量小、簡單)

  3. 標簽圖譜存儲與可視化技術

  • 圖譜結構:三元關系,即對象A-關系-對象B

  • 圖譜存儲:RDBMS數(shù)據(jù)庫或圖數(shù)據(jù)庫

  • 圖譜檢索:以標簽為基礎,也可以是一段文字

  • 可視化:ECHART圖表等,與具體的圖譜數(shù)據(jù)沒有直接關系,擴展能力強

  四、典型應用案例分享

  1. 基于試驗知識文檔的標簽知識圖譜需求

  • 背景:

  在某試驗單位試驗設計師的工作電腦上,存放著多年與試驗相關的參考文檔。雖然已對其進行初步分類,整理成多個分件夾和子文件夾,但有些文件夾下文檔比較多,而有些文件夾下僅有一個文檔,同時每年都在不停地更新,這會造成使用時的不便,我們可以將其歸納為以下幾點主要問題:

  √ 麻煩:每次查找資料時不能一下全部找到,需要按文件夾逐層往下找

  √ 效率低:每次查看文檔時,必須要打開文檔大概看一遍,才知道里面是否有想要的內(nèi)容

  √ 專業(yè)性不精確:與試驗相關的資料越來越多,專業(yè)性越來越強,文件夾命名已不能體現(xiàn)文檔的內(nèi)容

  √ 信息孤島現(xiàn)象嚴重:想要的內(nèi)容分散在不同的文檔里,不能在多個文檔中快速找到想要的內(nèi)容

  • 需求:提供一個工具或方法,能快速解決上述問題

  2. 試驗參考文檔分析

  (1)源文檔分析

  • 文檔總數(shù):3500多篇

  • 目錄個數(shù):82個

  • 二三級目錄有不少

  • 多種文件格式:WORD、PDF、TXT

  • 涉及專業(yè)比較寬:試驗、大數(shù)據(jù)、云計算、試驗件、試驗方案和試驗報告等

  • 試驗相關的文獻占一半左右

  (2)試驗類文檔分析

  • 業(yè)務類:31個目錄,647個文獻

  • 數(shù)據(jù)類:11個目錄,982個文獻

  • 文檔分布不均:有的多,有的少

  (3)技術思路

  • 總體思路:采用基于機器學習的自動文檔標簽圖譜技術來解決

  • 理由:

  √ 文檔覆蓋面比較寬,但細分類的文檔數(shù)量太少,最少的僅有一篇文檔,不適合大規(guī)模知識圖譜技術

  √ 文檔在不斷更新,但更新的數(shù)量不會很多

  √ 使用者是業(yè)務專家,有足夠的資歷、能力來協(xié)助工人智能自動打標簽、生成知識圖譜

  √ 使用者可以隨時糾正圖譜中的錯誤

  • 主要步驟:

  √ 文本預處理

  √ 知識文檔語義化

  √ 智能自動打標簽

  √ 校正智能標簽準確性

  √ 自動標簽圖譜

  √ 校正標簽圖譜的準確性

  • 預處理要點與結果展示:

  √ 必須把文檔里的圖片、表格單獨抽取出來做特殊處理

  √ 注意論文豎排版面格式

  √ 表格里的數(shù)據(jù)需要單獨處理

3. 試驗知識文檔智能標簽

  智能自動標簽:預設標準化的試驗標簽與編碼,由人工智能根據(jù)文檔內(nèi)容來決定對標預設的標簽,通過多種標簽提取算法綜合分析來決定合適的標簽(默認前10個)。在試驗專業(yè)術語、詞匯、同近義詞輔助下,準確率高達90%以上。

  4. 試驗標簽知識圖譜

  (1)圖譜生成

  基于中文語法、詞性和句子成分,采用先進、成熟的標簽實體關系抽取算法來抽取關系,標簽實體構成圖譜“三元”關系。  

地面模型試驗圖譜示例

  (2)準確性提升

  • 試驗數(shù)據(jù)方面:

  √ 試驗輔助詞庫:專業(yè)術語、同義詞、近義詞、關聯(lián)詞

  √ 二義性消除:通過關聯(lián)詞權重規(guī)則

  √ 擴大關聯(lián)詞范圍:人工給出小部分,大部分由人工智能給出,然后由人工確定是否選用為關聯(lián)詞

  √ 通過專業(yè)工具對兩豎排排版的文獻進行單獨處理

  • 技術方面:

  √ 選用多種算法綜合比較分析,擇優(yōu)選擇標簽并排序

  √ 輔助人工標注、學習,提升準確性

責任編輯:梁菲 來源: 互聯(lián)網(wǎng)
相關推薦

2017-05-02 14:41:00

網(wǎng)絡釣魚機器學習社會工程

2017-10-27 18:40:01

機器學習終身機器學習遷移學習

2024-08-30 11:27:55

父文檔檢索RAG技術人工智能

2017-12-05 14:55:56

2009-06-03 15:38:37

Struts框架RBAC

2023-07-18 07:23:11

方案payloadrequest

2011-05-10 09:09:36

身份驗證HID Global

2020-06-18 07:00:00

機器學習人工智能開源框架

2020-04-27 09:52:03

預測銷售機器學習ML

2020-12-23 10:10:23

Pythonweb代碼

2022-06-22 09:44:41

Python文件代碼

2022-07-07 10:33:27

Python姿勢代碼

2021-07-27 08:00:00

機器學習開發(fā)工具

2020-12-09 10:15:34

Pythonweb代碼

2022-06-06 15:44:24

大數(shù)據(jù)數(shù)據(jù)分析思維模式

2023-06-13 10:00:21

自動駕駛技術

2018-05-29 09:00:00

LinuxBTFS文件系統(tǒng)

2009-12-15 19:18:39

Ruby源代碼

2018-12-29 09:25:05

區(qū)塊鏈數(shù)據(jù)經(jīng)濟區(qū)塊鏈技術

2023-09-12 14:46:24

人工智能自然語言
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91精品国产一区二区三区 | 久久99久久99精品免视看婷婷 | 国产一区二区三区色淫影院 | 精品免费在线 | 国产精品91视频 | 亚洲国产精品久久久 | 欧美区在线| 欧美狠狠操 | 精品日韩在线观看 | 天啪| 福利视频1000 | 欧美色性 | 综合激情久久 | 中文欧美日韩 | 91精品久久久 | 欧美日韩一区二区三区四区 | 国产精品久久久久久久岛一牛影视 | 91影院在线观看 | 欧美日韩综合 | 欧美99久久精品乱码影视 | 九九综合九九 | 日韩电影一区二区三区 | 亚洲精品一区中文字幕乱码 | 日韩日韩日韩日韩日韩日韩日韩 | 久久香蕉精品视频 | 日韩欧美天堂 | 91色站 | 久久天天 | 秋霞av国产精品一区 | www.成人久久 | 欧美精品video | 久久国产精品视频 | 亚洲网址在线观看 | 欧美色综合一区二区三区 | 91玖玖| 亚洲成人三级 | 亚洲狠狠爱一区二区三区 | 国产精品美女久久久久 | 一区二区精品 | 污视频免费在线观看 | 亚洲在线|