知識圖譜與圖數據庫的關系,終于有人講明白了
01 什么是知識圖譜
1. 搜索引擎方式革新
?
2012年5月6日,Google發布了“知識圖譜”的新一代“智能”搜索功能。
傳統的搜索引擎搜索數據,更多的方法是基于關鍵詞匹配的方式。
近兩年來,我們到各大搜索引擎上搜索信息時,比如搜索關鍵詞“詹姆斯瓦特”,你會發現在某一個地方出現一些卡片,信息卡片的方式是搜索領域的一大革新,它是基于知識圖譜的方式。
2. 知識圖譜的本質
?
基于關鍵詞匹配的傳統搜索引擎,是將匹配到關鍵詞后再把信息展現出來。
如果把信息的形式進行轉換,例如將里面的人物、地點、時間等信息抽取出來,構建一個知識圖譜的結構,就可以將“詹姆斯瓦特的校友是誰?”等問題的答案推理出來。
知識圖譜實現了從原來的關鍵字匹配、內容匹配的方式,轉變為對信息的推理、對信息的追溯這種方式。
知識圖譜本質上是基于圖的語義網絡,表示實體與實體之間的關系。
02 知識圖譜研究的多個維度
知識圖譜相關領域包括知識工程、自然語言處理、數據庫、機器學習等。
知識工程:例如知識庫構建、基于規則的推理等。
自然語言處理:例如信息抽取、語義解析等。
數據庫:例如RDF數據庫系統、數據集成、知識融合等。
機器學習:例如知識圖譜數據的知識表示(Graph Embedding)等。
1. 知識工程
知識圖譜是Web和?數據時代的知識?程新的發展形態。
知識工程的核心是知識庫和推理引擎。?
知識庫包括以下幾個方面:
- 領域本體的構建:面向特定領域的形式化地對于共享概念體系的明確而又詳細的說明。
- 知識抽取:從海量的數據中通過信息抽取的?式獲取知識。
- 知識融合:通過對多個相關知識圖譜的對?、關聯和合并,使其稱為?個有機的整體,以提供更全?知識。
① 知識圖譜數據模型
- RDF?
基于領域本體的構建,有幾種基本的數據模型,比如常見的RDF數據模型。
RDF數據模型將知識庫里面的各個本體以及它的屬性,還有一些相關的屬性值,以及它和其他的本體之間的關系,用一個3元組的方式來描述,即主謂賓三列的表。
?
- RDFs?
RDF數據模型的一種變式,在RDF數據層的基礎上引?模式層,定義類、屬性、關系、屬性的定義域與值域來描述與約束資源,構建最基本的類層次體系和屬性體系,?持簡單的上下位推理。
- 本體語言OWL?
進?步擴展RDFs詞匯,可聲明類間互斥關系、屬性的傳遞性等復雜語義,?持基于本體的?動推理,提供了?組合適web傳播的描述邏輯的語法,對機器友好,但認知復雜性限制了?程應?。
② 知識抽取
?
③ 大規模知識抽取?
知識庫的構建有以下案例:
- Yago(Yet Another Great Ontology)?
融合了WordNet和Wikipedia,從Wikipedia的結構中抽取信息,利???采樣評估
- DBPedia?
通過社區成員定義和撰寫準確的抽取模板,進?從維基百科中抽取結構信息,并將其發布到Web上。
- Freebase
從Wikipedia和其他數據源(如 IMDB、MusicBrainz)中導?知識。
2. 自然語言處理
?然語?處理和知識圖譜研究是雙向互動的關系:?然語?處理為知識圖譜抽取知識;知識圖譜可以提升NLP任務的準確度。
(1)知識圖譜與自然語言處理
知識圖譜與自然語言處理在如下兩個方面關系緊密:
①信息抽取
主要技術:實體識別與抽取、實體消歧、關系抽取
趨勢及挑戰:
? 從封閉?向開放
? ?規模信息抽取
? 深層次挖掘信息背后的語義(從抽取到理解)
②語義解析
語義解析就是將?然語?映射成機器可以表達的形式。
主要技術:詞義消歧、語義??標注、指代消解等。
應?:
? ?向知識圖譜的?然語?問答
? 聊天機器?等
(2)實體識別
在實體識別中,命名實體識別的主要?法有如下兩種:
①基于規則的實體識別?法
基于命名實體詞典的?法:采?字符串完全匹配或部分匹配的?式,從?本中找出與詞典最相似的短語完成實體識別。
優點:規則簡單。
缺點:需要構建詞典和規則;性能受詞典規模和質量的影響。
②基于機器學習的實體識別?法
利?預先標注好的語料訓練模型,使模型學習到某個字或詞作為命名實體組成部分的概率,進?計算?個候選字段作為命名實體的概率值。若?于某?閾值,則識別為命名實體。
分為:最?熵模型(Maximum Entropy Model)和條件隨機場模型(Conditional Markov Random Field)。
(3)語義解析之語義搜索
語義搜索是指搜索引擎的?作不再拘泥于?戶所輸?請求語句的字?本?,?是透過現象看本質,準確地捕捉到?戶所輸?語句后?的真正意圖,并以此來進?搜索,從?更準確地向?戶返回最符合其需求的搜索結果。
(4)語義解析之知識問答
智能問答的主要?法有如下兩種:
①基于信息檢索的?法
?先利?中?分詞、命名實體識別等?然語?處理?具找到問句中所涉及到的實體和關鍵詞,然后去知識資源庫中去進?檢索,并通過打分模型對答案進?排序。
②基于語義解析的?法
將?個?然語?形式的問句,按照特定語?的語法規則,解析成語義表達式,將其轉化為某種數據庫的查詢語?。
兩種主要方法的框架對比如下所示:
3. 圖數據庫
知識圖譜與圖數據庫的關系從以下四個方面介紹:知識圖譜與數據管理、基于關系的知識圖譜存儲管理、原生知識圖譜存儲管理、知識圖譜與圖數據庫。
① 知識圖譜與數據管理
知識圖譜本質上是多關系圖,通常?“實體”來表達圖?的結點、?“關系”來表達圖?的邊。
關系型數據庫:實體與實體之間的關系通常都是利?外鍵來實現,對關系的查詢需要?量join操作。
圖數據庫:圖模型建模實體(結點)和實體之間的關系(邊),在對關系的操作上有更?的性能。
② 基于關系的知識圖譜存儲管理
使用三元組進行知識圖譜的存儲:
優點:簡單明了
缺點:最?問題在于將知識圖譜查詢翻譯為 SQL 查詢后會產?三元組表的?量?連接操作。
為解決基于關系的是指圖譜存儲管理中出現的問題,采用以下兩種方法解決:
- 屬性表:屬性相似的聚為?張表?
優點:克服三元組?連接的問題。
缺點:?對多聯系或多值屬性存儲問題、RDF的靈活性等。
代表:采?屬性表存儲?案的代表系統是 RDF 三元組庫 Jena。
- 垂直劃分:以謂語劃分三元組表?
優點:克服屬性表的空值多值問題。
缺點:?量屬性表、刪除代價?。
代表:采?垂直劃分存儲?案的代表數據庫是 SW‐Store。
③ 原生知識圖譜存儲管理
- RDF模型?
?
gStore系統利用子圖匹配整個圖譜。
優點:任意一個節點不滿足子圖的模式都可以跳過,實現高并發。
- 屬性圖
?
典型屬性圖代表:Neo4j圖數據庫。
與RDF的區別為:邊也有屬性,可以與RDF互相轉換
④ 知識圖譜與圖數據庫
?
4. 機器學習
在與機器學習的聯系更多地表現在知識表示學習這一方面,應用較多的場景為知識推理。
① 知識表示學習
知識表示學習的背景是基于?絡形式的知識表示存在數據稀疏問題和計算效率問題。
知識表示學習(representation learning)主要是?向知識圖譜中的實體和關系進?表示學習,使?建模?法將實體和向量表示在低維稠密向量空間中,然后進?計算和推理。
- 優點:顯著提升計算效率,有效緩解數據稀疏,實現異質信息融合。
- 應?:知識圖譜補全、相似度計算、關系抽取、?動問答、實體鏈指。
- 舉例:知識表示代表模型:TransE [Bordes et al., NIPS 13]。
對每個事實(Subject, Predicate, Object),將其中的predicate作為從subject到object的翻譯操作。每個Subject/Predicate/Object,都映射成?個多維向量。優化?標是S+P=O 。
② 自然語言問答
?
03 從人工智能和大數據的角度看待知識圖譜
為什么要從這兩個角度來看待?這主要是目前這兩個角度非常火。
① 人工智能的誕生
早在1956年達特茅斯會議上,首次提出“??智能(Artificial Intelligence, AI)”的概念。人們將他概括為“?機器來模仿?類學習以及其他??的智能”。
人工智能目前有兩個流派:符號主義(Symbolism)與連接主義(Connectionism)。
- 符號主義
符號主義(symbolicism),?稱為邏輯主義(logicism)、?理學派(psychologism)或計算機學派(computerism),其主要原理為認知過程就是在符號表示上的?種運算。
可以舉例理解:
?明認識???O:O(a,b,c,d,e) ,其中a(?把))b(?胎)d(坐墊)e(?架)c(腳踏)。
- 連接主義?
連接主義(connectionism),?稱為仿?學派(bionicsism)或?理學派(physiologism),其主要原理為智能活動是由?量簡單的單元通過復雜的相互連接后并?運?的結果。
當前典型研究:深度學習、深度神經?絡。
可以舉例理解:
?明學騎???:經過?時間練習,?明終于學會了!卻說不清楚“到底該怎樣”騎。
② 知識圖譜與人工智能
?
計算機的發展分為三個階段:計算智能、感知智能、認知智能。
人工智能需要機器智能,特別是認知智能,而認知智能依賴知識圖譜。
目前的重要研究方向是和連接主義的結合(例如知識圖譜的表示學習等)。
③ 知識圖譜與大數據
- 知識圖譜與大數據的聯系?
“知識圖譜”是?向關聯分析的?數據模型。
大數據的5V 特性包括:Volume(大量),Velocity(高速),Variety(多樣),Value(價值),Veracity (真實)。其中最重要是Value,但價值是隱含的,而大數據里面隱含的關系,可以用一個知識圖譜來表示。
- 知識圖譜與大數據的應用?
知識圖譜與大數據方面的應用包括以下幾個方面:
圖機器學習,例如TransE,GCN等模型。
圖數據庫,例如RDF圖gStore、Virtuoso,屬性圖Neo4j、janusgraph等。
圖計算系統,例如點中心模型系統Pregel、GraphLab等。
圖挖掘算法,例如Pagerank、Simrank、社區發現、影響力傳播等。
04 我們的工作
① 研發路線圖
?
我們團隊來自于北京大學王選計算機研究所數據管理研究室,2011年開始做圖數據庫方面的研究,提出了子圖匹配的方法來實現RDF的查詢、2013年至2017年開發的gStore中提出了基于結構感知的圖數據庫索引和子圖匹配查詢優化理論。
② 技術路線圖
?
基于圖的生態鏈的系統平臺分為三個步驟研發:知識圖譜的構建、知識圖譜管理、知識圖譜應用。
- 知識圖譜的構建
大部分數據是結構化或非結構化等形式,存儲在關系數據庫中,而非以RDF或屬性圖的形式存儲,因此在構建時需要進行數據形式的轉換。
涉及知識抽取、知識融合等問題,是整個系統平臺的重難點。
- 知識圖譜管理
解決轉換成RDF或屬性圖的數據怎么存儲、如何進行數據管理、為知識圖譜應用提供高效訪問接口等問題。
- 知識圖譜應用
開發知識圖譜的應用,體現數據的價值,是整個系統平臺的價值點。
③ 產品生態
?
- gStore?
項?特點:基于?圖匹配的圖數據查詢和優化策略,單機能?持50億規模的圖數據的存儲和查詢,以及更新等。
代碼:除了SPARQL語法解析器外均為獨?開發的,?前有14萬?C++代碼,完成?主知識產權。
目前版本:v 0.9.1
項?主?:gstore.cn
開源地址:https://github.com/pkumod/gStore
- gBuilder
項?特點:知識圖譜構建的?體化平臺,包括Schema設計,結構化和?結構數據抽取,融合多種?本抽取的算法模型,以及抽取模型NAS搜索等。
- gAnswer?
項?特點:基于?圖匹配的知識圖譜的?然語?問答?法。
開源地址:https://github.com/pkumod/gAnswer
- gStore Workbench
gStore可視化管理工具。
- gCloud
“開箱即用”的gStore服務。
- gMaster
支持百億規模分布式部署。
gStore高效RDF圖數據庫管理系統實現了自主可控國產化,能夠與國產化CPU和操作系統適配。賦能國產?主可控的計算機體系架構。
05 相關案例
① 金融科技
知識關聯查詢:?融實體查詢、多層股權查詢、?融實體關聯分析。
?險分析:?險識別、資本系分析。
② 政府大數據
社會的自然人會產生諸多數據,例如出生、教育、住房、就業、婚姻生育、醫療養老、死亡等方面的數據。基于這些數據可以進行政府大數據融合與挖掘,例如用于民政和司法的親屬關系檢索。
③ 智慧紀檢
可以使用知識圖譜進行干部廉潔畫像、社會關系分析、話單分析等。
④ 智慧醫療
基于藥物說明書構建“病-癥-藥”的知識圖譜,可以進行疾病科室、疾病癥狀、疾病并發癥、健康飲食智能問答等應用。
⑤ 人工智能
例如智能問答等語音機器人。
⑥ 氣象交通
將規則寫進知識圖譜,實時采集氣象信息并進行知識圖譜的匹配,以起到預警的作用。
⑦ 公安知識圖譜
多維度知識探索:從“同程、同宿、同案件”等多個維度進?知識探索和知識推理。
隱含關系挖掘:從交通出?、?吧上?、出?境等部?和系統中獲取數據,發現?物的“同?,同上?,同出國”等隱含關聯關系。
嘉賓:李文杰博士 北京大學 博士后