知識圖譜與圖數據庫的關系，終于有人講明白了

作者：李文杰博士 2022-09-03 18:39:29

數據庫新聞

本文分享圖數據庫和知識圖譜的基礎內容以及我們做過的相關工作。

01 什么是知識圖譜

1. 搜索引擎方式革新

2012年5月6日，Google發布了“知識圖譜”的新一代“智能”搜索功能。

傳統的搜索引擎搜索數據，更多的方法是基于關鍵詞匹配的方式。

近兩年來，我們到各大搜索引擎上搜索信息時，比如搜索關鍵詞“詹姆斯瓦特”，你會發現在某一個地方出現一些卡片，信息卡片的方式是搜索領域的一大革新，它是基于知識圖譜的方式。

2. 知識圖譜的本質

基于關鍵詞匹配的傳統搜索引擎，是將匹配到關鍵詞后再把信息展現出來。

如果把信息的形式進行轉換，例如將里面的人物、地點、時間等信息抽取出來，構建一個知識圖譜的結構，就可以將“詹姆斯瓦特的校友是誰？”等問題的答案推理出來。

知識圖譜實現了從原來的關鍵字匹配、內容匹配的方式，轉變為對信息的推理、對信息的追溯這種方式。

知識圖譜本質上是基于圖的語義網絡，表示實體與實體之間的關系。

02 知識圖譜研究的多個維度

知識圖譜相關領域包括知識工程、自然語言處理、數據庫、機器學習等。

知識工程：例如知識庫構建、基于規則的推理等。

自然語言處理：例如信息抽取、語義解析等。

數據庫：例如RDF數據庫系統、數據集成、知識融合等。

機器學習：例如知識圖譜數據的知識表示（Graph Embedding）等。

1. 知識工程

知識圖譜是Web和?數據時代的知識?程新的發展形態。

知識工程的核心是知識庫和推理引擎。?

知識庫包括以下幾個方面：

領域本體的構建：面向特定領域的形式化地對于共享概念體系的明確而又詳細的說明。
知識抽取：從海量的數據中通過信息抽取的?式獲取知識。
知識融合：通過對多個相關知識圖譜的對?、關聯和合并，使其稱為?個有機的整體，以提供更全?知識。

① 知識圖譜數據模型

RDF?

基于領域本體的構建，有幾種基本的數據模型，比如常見的RDF數據模型。

RDF數據模型將知識庫里面的各個本體以及它的屬性，還有一些相關的屬性值，以及它和其他的本體之間的關系，用一個3元組的方式來描述，即主謂賓三列的表。

RDFs?

RDF數據模型的一種變式，在RDF數據層的基礎上引?模式層，定義類、屬性、關系、屬性的定義域與值域來描述與約束資源，構建最基本的類層次體系和屬性體系，?持簡單的上下位推理。

本體語言OWL?

進?步擴展RDFs詞匯，可聲明類間互斥關系、屬性的傳遞性等復雜語義，?持基于本體的?動推理，提供了?組合適web傳播的描述邏輯的語法，對機器友好，但認知復雜性限制了?程應?。

② 知識抽取

③ 大規模知識抽取?

知識庫的構建有以下案例：

Yago(Yet Another Great Ontology)?

融合了WordNet和Wikipedia，從Wikipedia的結構中抽取信息，利???采樣評估

DBPedia?

通過社區成員定義和撰寫準確的抽取模板，進?從維基百科中抽取結構信息，并將其發布到Web上。

Freebase

從Wikipedia和其他數據源（如 IMDB、MusicBrainz）中導?知識。

2. 自然語言處理

?然語?處理和知識圖譜研究是雙向互動的關系：?然語?處理為知識圖譜抽取知識；知識圖譜可以提升NLP任務的準確度。

（1）知識圖譜與自然語言處理

知識圖譜與自然語言處理在如下兩個方面關系緊密：

①信息抽取

主要技術：實體識別與抽取、實體消歧、關系抽取

趨勢及挑戰：

? 從封閉?向開放

? ?規模信息抽取

? 深層次挖掘信息背后的語義（從抽取到理解）

②語義解析

語義解析就是將?然語?映射成機器可以表達的形式。

主要技術：詞義消歧、語義??標注、指代消解等。

應?：

? ?向知識圖譜的?然語?問答

? 聊天機器?等

（2）實體識別

在實體識別中，命名實體識別的主要?法有如下兩種：

①基于規則的實體識別?法

基于命名實體詞典的?法：采?字符串完全匹配或部分匹配的?式，從?本中找出與詞典最相似的短語完成實體識別。

優點：規則簡單。

缺點：需要構建詞典和規則；性能受詞典規模和質量的影響。

②基于機器學習的實體識別?法

利?預先標注好的語料訓練模型，使模型學習到某個字或詞作為命名實體組成部分的概率，進?計算?個候選字段作為命名實體的概率值。若?于某?閾值，則識別為命名實體。

分為：最?熵模型（Maximum Entropy Model）和條件隨機場模型（Conditional Markov Random Field）。

（3）語義解析之語義搜索

語義搜索是指搜索引擎的?作不再拘泥于?戶所輸?請求語句的字?本?，?是透過現象看本質，準確地捕捉到?戶所輸?語句后?的真正意圖，并以此來進?搜索，從?更準確地向?戶返回最符合其需求的搜索結果。

（4）語義解析之知識問答

智能問答的主要?法有如下兩種：

①基于信息檢索的?法

?先利?中?分詞、命名實體識別等?然語?處理?具找到問句中所涉及到的實體和關鍵詞，然后去知識資源庫中去進?檢索，并通過打分模型對答案進?排序。

②基于語義解析的?法

將?個?然語?形式的問句，按照特定語?的語法規則，解析成語義表達式，將其轉化為某種數據庫的查詢語?。

兩種主要方法的框架對比如下所示：

3. 圖數據庫

知識圖譜與圖數據庫的關系從以下四個方面介紹：知識圖譜與數據管理、基于關系的知識圖譜存儲管理、原生知識圖譜存儲管理、知識圖譜與圖數據庫。

① 知識圖譜與數據管理

知識圖譜本質上是多關系圖，通常?“實體”來表達圖?的結點、?“關系”來表達圖?的邊。

關系型數據庫：實體與實體之間的關系通常都是利?外鍵來實現，對關系的查詢需要?量join操作。

圖數據庫：圖模型建模實體（結點）和實體之間的關系（邊），在對關系的操作上有更?的性能。

② 基于關系的知識圖譜存儲管理

使用三元組進行知識圖譜的存儲：

優點：簡單明了

缺點：最?問題在于將知識圖譜查詢翻譯為 SQL 查詢后會產?三元組表的?量?連接操作。

為解決基于關系的是指圖譜存儲管理中出現的問題，采用以下兩種方法解決：

屬性表：屬性相似的聚為?張表?

優點：克服三元組?連接的問題。

缺點：?對多聯系或多值屬性存儲問題、RDF的靈活性等。

代表：采?屬性表存儲?案的代表系統是 RDF 三元組庫 Jena。

垂直劃分：以謂語劃分三元組表?

優點：克服屬性表的空值多值問題。

缺點：?量屬性表、刪除代價?。

代表：采?垂直劃分存儲?案的代表數據庫是 SW‐Store。

③ 原生知識圖譜存儲管理

RDF模型?

gStore系統利用子圖匹配整個圖譜。

優點：任意一個節點不滿足子圖的模式都可以跳過，實現高并發。

屬性圖

典型屬性圖代表：Neo4j圖數據庫。

與RDF的區別為：邊也有屬性，可以與RDF互相轉換

④ 知識圖譜與圖數據庫

4. 機器學習

在與機器學習的聯系更多地表現在知識表示學習這一方面，應用較多的場景為知識推理。

① 知識表示學習

知識表示學習的背景是基于?絡形式的知識表示存在數據稀疏問題和計算效率問題。

知識表示學習（representation learning）主要是?向知識圖譜中的實體和關系進?表示學習，使?建模?法將實體和向量表示在低維稠密向量空間中，然后進?計算和推理。

優點：顯著提升計算效率，有效緩解數據稀疏，實現異質信息融合。
應?：知識圖譜補全、相似度計算、關系抽取、?動問答、實體鏈指。
舉例：知識表示代表模型：TransE [Bordes et al., NIPS 13]。

對每個事實（Subject, Predicate, Object），將其中的predicate作為從subject到object的翻譯操作。每個Subject/Predicate/Object，都映射成?個多維向量。優化?標是S+P=O 。

② 自然語言問答

03 從人工智能和大數據的角度看待知識圖譜

為什么要從這兩個角度來看待？這主要是目前這兩個角度非常火。

① 人工智能的誕生

早在1956年達特茅斯會議上，首次提出“??智能（Artificial Intelligence, AI）”的概念。人們將他概括為“?機器來模仿?類學習以及其他??的智能”。

人工智能目前有兩個流派：符號主義（Symbolism）與連接主義（Connectionism）。

符號主義

符號主義（symbolicism），?稱為邏輯主義（logicism）、?理學派（psychologism）或計算機學派（computerism），其主要原理為認知過程就是在符號表示上的?種運算。

可以舉例理解：

?明認識???O：O(a,b,c,d,e) ，其中a（?把)）b（?胎）d（坐墊）e（?架）c（腳踏）。

連接主義?

連接主義（connectionism），?稱為仿?學派（bionicsism）或?理學派（physiologism），其主要原理為智能活動是由?量簡單的單元通過復雜的相互連接后并?運?的結果。

當前典型研究：深度學習、深度神經?絡。

可以舉例理解：

?明學騎???：經過?時間練習，?明終于學會了！卻說不清楚“到底該怎樣”騎。

② 知識圖譜與人工智能

計算機的發展分為三個階段：計算智能、感知智能、認知智能。

人工智能需要機器智能，特別是認知智能，而認知智能依賴知識圖譜。

目前的重要研究方向是和連接主義的結合（例如知識圖譜的表示學習等）。

③ 知識圖譜與大數據

知識圖譜與大數據的聯系?

“知識圖譜”是?向關聯分析的?數據模型。

大數據的5V 特性包括：Volume（大量），Velocity（高速），Variety（多樣），Value（價值），Veracity （真實）。其中最重要是Value，但價值是隱含的，而大數據里面隱含的關系，可以用一個知識圖譜來表示。

知識圖譜與大數據的應用?

知識圖譜與大數據方面的應用包括以下幾個方面：

圖機器學習，例如TransE，GCN等模型。

圖數據庫，例如RDF圖gStore、Virtuoso，屬性圖Neo4j、janusgraph等。

圖計算系統，例如點中心模型系統Pregel、GraphLab等。

圖挖掘算法，例如Pagerank、Simrank、社區發現、影響力傳播等。

04 我們的工作

① 研發路線圖

我們團隊來自于北京大學王選計算機研究所數據管理研究室，2011年開始做圖數據庫方面的研究，提出了子圖匹配的方法來實現RDF的查詢、2013年至2017年開發的gStore中提出了基于結構感知的圖數據庫索引和子圖匹配查詢優化理論。

② 技術路線圖

基于圖的生態鏈的系統平臺分為三個步驟研發：知識圖譜的構建、知識圖譜管理、知識圖譜應用。

知識圖譜的構建

大部分數據是結構化或非結構化等形式，存儲在關系數據庫中，而非以RDF或屬性圖的形式存儲，因此在構建時需要進行數據形式的轉換。

涉及知識抽取、知識融合等問題，是整個系統平臺的重難點。

知識圖譜管理

解決轉換成RDF或屬性圖的數據怎么存儲、如何進行數據管理、為知識圖譜應用提供高效訪問接口等問題。

知識圖譜應用

開發知識圖譜的應用，體現數據的價值，是整個系統平臺的價值點。

③ 產品生態

gStore?

項?特點：基于?圖匹配的圖數據查詢和優化策略，單機能?持50億規模的圖數據的存儲和查詢，以及更新等。

代碼：除了SPARQL語法解析器外均為獨?開發的，?前有14萬?C++代碼，完成?主知識產權。

目前版本：v 0.9.1

項?主?：gstore.cn

開源地址：https://github.com/pkumod/gStore

gBuilder

項?特點：知識圖譜構建的?體化平臺，包括Schema設計，結構化和?結構數據抽取，融合多種?本抽取的算法模型，以及抽取模型NAS搜索等。

gAnswer?

項?特點：基于?圖匹配的知識圖譜的?然語?問答?法。

開源地址：https://github.com/pkumod/gAnswer

gStore Workbench

gStore可視化管理工具。

gCloud

“開箱即用”的gStore服務。

gMaster

支持百億規模分布式部署。

gStore高效RDF圖數據庫管理系統實現了自主可控國產化，能夠與國產化CPU和操作系統適配。賦能國產?主可控的計算機體系架構。

05 相關案例

① 金融科技

知識關聯查詢：?融實體查詢、多層股權查詢、?融實體關聯分析。

?險分析：?險識別、資本系分析。

② 政府大數據

社會的自然人會產生諸多數據，例如出生、教育、住房、就業、婚姻生育、醫療養老、死亡等方面的數據。基于這些數據可以進行政府大數據融合與挖掘，例如用于民政和司法的親屬關系檢索。

③ 智慧紀檢

可以使用知識圖譜進行干部廉潔畫像、社會關系分析、話單分析等。

④ 智慧醫療

基于藥物說明書構建“病-癥-藥”的知識圖譜，可以進行疾病科室、疾病癥狀、疾病并發癥、健康飲食智能問答等應用。

⑤ 人工智能

例如智能問答等語音機器人。

⑥ 氣象交通

將規則寫進知識圖譜，實時采集氣象信息并進行知識圖譜的匹配，以起到預警的作用。

⑦ 公安知識圖譜

多維度知識探索：從“同程、同宿、同案件”等多個維度進?知識探索和知識推理。

隱含關系挖掘：從交通出?、?吧上?、出?境等部?和系統中獲取數據，發現?物的“同?，同上?，同出國”等隱含關聯關系。

嘉賓：李文杰博士北京大學博士后

責任編輯：張燕妮來源： DataFunTalk

數據庫圖譜

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看