成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

知識圖譜與圖數據庫的關系,終于有人講明白了

數據庫 新聞
本文分享圖數據庫和知識圖譜的基礎內容以及我們做過的相關工作。

01 什么是知識圖譜

1. 搜索引擎方式革新

圖片?

2012年5月6日,Google發布了“知識圖譜”的新一代“智能”搜索功能。

傳統的搜索引擎搜索數據,更多的方法是基于關鍵詞匹配的方式。

近兩年來,我們到各大搜索引擎上搜索信息時,比如搜索關鍵詞“詹姆斯瓦特”,你會發現在某一個地方出現一些卡片,信息卡片的方式是搜索領域的一大革新,它是基于知識圖譜的方式。

2. 知識圖譜的本質

圖片?

基于關鍵詞匹配的傳統搜索引擎,是將匹配到關鍵詞后再把信息展現出來。

如果把信息的形式進行轉換,例如將里面的人物、地點、時間等信息抽取出來,構建一個知識圖譜的結構,就可以將“詹姆斯瓦特的校友是誰?”等問題的答案推理出來。

知識圖譜實現了從原來的關鍵字匹配、內容匹配的方式,轉變為對信息的推理、對信息的追溯這種方式。

知識圖譜本質上是基于圖的語義網絡,表示實體與實體之間的關系。

02 知識圖譜研究的多個維度

知識圖譜相關領域包括知識工程、自然語言處理、數據庫、機器學習等。

知識工程:例如知識庫構建、基于規則的推理等。

自然語言處理:例如信息抽取、語義解析等。

數據庫:例如RDF數據庫系統、數據集成、知識融合等。

機器學習:例如知識圖譜數據的知識表示(Graph Embedding)等。

1. 知識工程

知識圖譜是Web和?數據時代的知識?程新的發展形態。

知識工程的核心是知識庫和推理引擎。?

知識庫包括以下幾個方面:

  • 領域本體的構建:面向特定領域的形式化地對于共享概念體系的明確而又詳細的說明。
  • 知識抽取:從海量的數據中通過信息抽取的?式獲取知識。
  • 知識融合:通過對多個相關知識圖譜的對?、關聯和合并,使其稱為?個有機的整體,以提供更全?知識。

① 知識圖譜數據模型

  • RDF?

基于領域本體的構建,有幾種基本的數據模型,比如常見的RDF數據模型。

RDF數據模型將知識庫里面的各個本體以及它的屬性,還有一些相關的屬性值,以及它和其他的本體之間的關系,用一個3元組的方式來描述,即主謂賓三列的表。

圖片?

  • RDFs?

RDF數據模型的一種變式,在RDF數據層的基礎上引?模式層,定義類、屬性、關系、屬性的定義域與值域來描述與約束資源,構建最基本的類層次體系和屬性體系,?持簡單的上下位推理。

  • 本體語言OWL?

進?步擴展RDFs詞匯,可聲明類間互斥關系、屬性的傳遞性等復雜語義,?持基于本體的?動推理,提供了?組合適web傳播的描述邏輯的語法,對機器友好,但認知復雜性限制了?程應?。

② 知識抽取

圖片?

③ 大規模知識抽取?

知識庫的構建有以下案例:

  • Yago(Yet Another Great Ontology)?

融合了WordNet和Wikipedia,從Wikipedia的結構中抽取信息,利???采樣評估 

  • DBPedia?

通過社區成員定義和撰寫準確的抽取模板,進?從維基百科中抽取結構信息,并將其發布到Web上。

  • Freebase

從Wikipedia和其他數據源(如 IMDB、MusicBrainz)中導?知識。

2. 自然語言處理

?然語?處理和知識圖譜研究是雙向互動的關系:?然語?處理為知識圖譜抽取知識;知識圖譜可以提升NLP任務的準確度。

(1)知識圖譜與自然語言處理

知識圖譜與自然語言處理在如下兩個方面關系緊密:

①信息抽取 

主要技術:實體識別與抽取、實體消歧、關系抽取 

趨勢及挑戰: 

? 從封閉?向開放 

? ?規模信息抽取 

? 深層次挖掘信息背后的語義(從抽取到理解)

②語義解析 

語義解析就是將?然語?映射成機器可以表達的形式。 

主要技術:詞義消歧、語義??標注、指代消解等。 

應?: 

? ?向知識圖譜的?然語?問答 

? 聊天機器?等

(2)實體識別

在實體識別中,命名實體識別的主要?法有如下兩種: 

①基于規則的實體識別?法 

基于命名實體詞典的?法:采?字符串完全匹配或部分匹配的?式,從?本中找出與詞典最相似的短語完成實體識別。 

優點:規則簡單。

缺點:需要構建詞典和規則;性能受詞典規模和質量的影響。

②基于機器學習的實體識別?法 

利?預先標注好的語料訓練模型,使模型學習到某個字或詞作為命名實體組成部分的概率,進?計算?個候選字段作為命名實體的概率值。若?于某?閾值,則識別為命名實體。 

分為:最?熵模型(Maximum Entropy Model)和條件隨機場模型(Conditional Markov Random Field)。

(3)語義解析之語義搜索

語義搜索是指搜索引擎的?作不再拘泥于?戶所輸?請求語句的字?本?,?是透過現象看本質,準確地捕捉到?戶所輸?語句后?的真正意圖,并以此來進?搜索,從?更準確地向?戶返回最符合其需求的搜索結果。 

(4)語義解析之知識問答

智能問答的主要?法有如下兩種:

①基于信息檢索的?法 

?先利?中?分詞、命名實體識別等?然語?處理?具找到問句中所涉及到的實體和關鍵詞,然后去知識資源庫中去進?檢索,并通過打分模型對答案進?排序。 

②基于語義解析的?法 

將?個?然語?形式的問句,按照特定語?的語法規則,解析成語義表達式,將其轉化為某種數據庫的查詢語?。

兩種主要方法的框架對比如下所示:

圖片

3. 圖數據庫

知識圖譜與圖數據庫的關系從以下四個方面介紹:知識圖譜與數據管理、基于關系的知識圖譜存儲管理、原生知識圖譜存儲管理、知識圖譜與圖數據庫。

① 知識圖譜與數據管理

知識圖譜本質上是多關系圖,通常?“實體”來表達圖?的結點、?“關系”來表達圖?的邊。

關系型數據庫:實體與實體之間的關系通常都是利?外鍵來實現,對關系的查詢需要?量join操作。

圖數據庫:圖模型建模實體(結點)和實體之間的關系(邊),在對關系的操作上有更?的性能。

② 基于關系的知識圖譜存儲管理

使用三元組進行知識圖譜的存儲:

優點:簡單明了 

缺點:最?問題在于將知識圖譜查詢翻譯為 SQL 查詢后會產?三元組表的?量?連接操作。

為解決基于關系的是指圖譜存儲管理中出現的問題,采用以下兩種方法解決:

  • 屬性表:屬性相似的聚為?張表?

優點:克服三元組?連接的問題。

缺點:?對多聯系或多值屬性存儲問題、RDF的靈活性等。

代表:采?屬性表存儲?案的代表系統是 RDF 三元組庫 Jena。

  • 垂直劃分:以謂語劃分三元組表?

優點:克服屬性表的空值多值問題。

缺點:?量屬性表、刪除代價?。

代表:采?垂直劃分存儲?案的代表數據庫是 SW‐Store。

③ 原生知識圖譜存儲管理

  • RDF模型?

圖片?

gStore系統利用子圖匹配整個圖譜。

優點:任意一個節點不滿足子圖的模式都可以跳過,實現高并發。

  • 屬性圖 

圖片?

典型屬性圖代表:Neo4j圖數據庫。

與RDF的區別為:邊也有屬性,可以與RDF互相轉換

④ 知識圖譜與圖數據庫

圖片?

4. 機器學習

在與機器學習的聯系更多地表現在知識表示學習這一方面,應用較多的場景為知識推理。

① 知識表示學習

知識表示學習的背景是基于?絡形式的知識表示存在數據稀疏問題和計算效率問題。 

知識表示學習(representation learning)主要是?向知識圖譜中的實體和關系進?表示學習,使?建模?法將實體和向量表示在低維稠密向量空間中,然后進?計算和推理。 

  • 優點:顯著提升計算效率,有效緩解數據稀疏,實現異質信息融合。 
  • 應?:知識圖譜補全、相似度計算、關系抽取、?動問答、實體鏈指。
  • 舉例:知識表示代表模型:TransE [Bordes et al., NIPS 13]。 

對每個事實(Subject, Predicate, Object),將其中的predicate作為從subject到object的翻譯操作。每個Subject/Predicate/Object,都映射成?個多維向量。優化?標是S+P=O 。

② 自然語言問答

圖片?


03 從人工智能和大數據的角度看待知識圖譜

為什么要從這兩個角度來看待?這主要是目前這兩個角度非常火。

① 人工智能的誕生

早在1956年達特茅斯會議上,首次提出“??智能(Artificial Intelligence, AI)”的概念。人們將他概括為“?機器來模仿?類學習以及其他??的智能”。

人工智能目前有兩個流派:符號主義(Symbolism)與連接主義(Connectionism)。

  • 符號主義

符號主義(symbolicism),?稱為邏輯主義(logicism)、?理學派(psychologism)或計算機學派(computerism),其主要原理為認知過程就是在符號表示上的?種運算。

可以舉例理解:

?明認識???O:O(a,b,c,d,e) ,其中a(?把))b(?胎)d(坐墊)e(?架)c(腳踏)。

  • 連接主義?

連接主義(connectionism),?稱為仿?學派(bionicsism)或?理學派(physiologism),其主要原理為智能活動是由?量簡單的單元通過復雜的相互連接后并?運?的結果。 

當前典型研究:深度學習、深度神經?絡。

可以舉例理解:

?明學騎???:經過?時間練習,?明終于學會了!卻說不清楚“到底該怎樣”騎。

② 知識圖譜與人工智能

圖片?

計算機的發展分為三個階段:計算智能、感知智能、認知智能。

人工智能需要機器智能,特別是認知智能,而認知智能依賴知識圖譜。

目前的重要研究方向是和連接主義的結合(例如知識圖譜的表示學習等)。

③ 知識圖譜與大數據

  • 知識圖譜與大數據的聯系?

“知識圖譜”是?向關聯分析的?數據模型。

大數據的5V 特性包括:Volume(大量),Velocity(高速),Variety(多樣),Value(價值),Veracity (真實)。其中最重要是Value,但價值是隱含的,而大數據里面隱含的關系,可以用一個知識圖譜來表示。

  • 知識圖譜與大數據的應用?

知識圖譜與大數據方面的應用包括以下幾個方面:

圖機器學習,例如TransE,GCN等模型。

圖數據庫,例如RDF圖gStore、Virtuoso,屬性圖Neo4j、janusgraph等。

圖計算系統,例如點中心模型系統Pregel、GraphLab等。

圖挖掘算法,例如Pagerank、Simrank、社區發現、影響力傳播等。

04 我們的工作

① 研發路線圖

圖片?

我們團隊來自于北京大學王選計算機研究所數據管理研究室,2011年開始做圖數據庫方面的研究,提出了子圖匹配的方法來實現RDF的查詢、2013年至2017年開發的gStore中提出了基于結構感知的圖數據庫索引和子圖匹配查詢優化理論。

② 技術路線圖

圖片?

基于圖的生態鏈的系統平臺分為三個步驟研發:知識圖譜的構建、知識圖譜管理、知識圖譜應用。

  • 知識圖譜的構建

大部分數據是結構化或非結構化等形式,存儲在關系數據庫中,而非以RDF或屬性圖的形式存儲,因此在構建時需要進行數據形式的轉換。

涉及知識抽取、知識融合等問題,是整個系統平臺的重難點。

  • 知識圖譜管理

解決轉換成RDF或屬性圖的數據怎么存儲、如何進行數據管理、為知識圖譜應用提供高效訪問接口等問題。

  • 知識圖譜應用

開發知識圖譜的應用,體現數據的價值,是整個系統平臺的價值點。

③ 產品生態

圖片?

  • gStore?

項?特點:基于?圖匹配的圖數據查詢和優化策略,單機能?持50億規模的圖數據的存儲和查詢,以及更新等。

代碼:除了SPARQL語法解析器外均為獨?開發的,?前有14萬?C++代碼,完成?主知識產權。

目前版本:v 0.9.1

項?主?:gstore.cn

開源地址:https://github.com/pkumod/gStore

  • gBuilder

項?特點:知識圖譜構建的?體化平臺,包括Schema設計,結構化和?結構數據抽取,融合多種?本抽取的算法模型,以及抽取模型NAS搜索等。

  • gAnswer?

項?特點:基于?圖匹配的知識圖譜的?然語?問答?法。

開源地址:https://github.com/pkumod/gAnswer

  • gStore Workbench

gStore可視化管理工具。

  • gCloud

“開箱即用”的gStore服務。

  • gMaster

支持百億規模分布式部署。

gStore高效RDF圖數據庫管理系統實現了自主可控國產化,能夠與國產化CPU和操作系統適配。賦能國產?主可控的計算機體系架構。

05 相關案例

① 金融科技

知識關聯查詢:?融實體查詢、多層股權查詢、?融實體關聯分析。

?險分析:?險識別、資本系分析。

② 政府大數據

社會的自然人會產生諸多數據,例如出生、教育、住房、就業、婚姻生育、醫療養老、死亡等方面的數據。基于這些數據可以進行政府大數據融合與挖掘,例如用于民政和司法的親屬關系檢索。

③ 智慧紀檢

可以使用知識圖譜進行干部廉潔畫像、社會關系分析、話單分析等。

④ 智慧醫療

基于藥物說明書構建“病-癥-藥”的知識圖譜,可以進行疾病科室、疾病癥狀、疾病并發癥、健康飲食智能問答等應用。

⑤ 人工智能

例如智能問答等語音機器人。

⑥ 氣象交通

將規則寫進知識圖譜,實時采集氣象信息并進行知識圖譜的匹配,以起到預警的作用。

⑦ 公安知識圖譜

多維度知識探索:從“同程、同宿、同案件”等多個維度進?知識探索和知識推理。

隱含關系挖掘:從交通出?、?吧上?、出?境等部?和系統中獲取數據,發現?物的“同?,同上?,同出國”等隱含關聯關系。

嘉賓:李文杰博士 北京大學 博士后

責任編輯:張燕妮 來源: DataFunTalk
相關推薦

2022-08-15 20:49:16

知識圖譜網絡大數據

2021-02-21 21:25:43

知識圖譜

2021-11-07 21:01:52

云計算數據庫分布式

2022-08-15 19:24:35

圖數據庫圖計算搜索

2022-04-18 07:37:30

數據信息知識

2022-04-27 18:25:02

數據采集維度

2021-09-03 18:38:13

數據湖數據倉庫

2021-12-03 18:25:56

數據指標本質

2022-05-01 22:09:27

數據模型大數據

2022-04-22 11:26:55

數據管理架構

2022-04-12 18:29:41

元數據系統架構

2021-06-29 11:21:41

數據安全網絡安全黑客

2020-11-30 08:34:44

大數據數據分析技術

2022-01-05 18:27:44

數據挖掘工具

2023-09-08 18:57:42

MPPSMP節點

2022-12-28 18:31:43

Hive性能分布式表

2021-12-07 18:24:26

數據安全

2022-11-01 18:21:14

數據埋點SDK

2025-05-29 01:00:00

數據架構大數據數據湖

2022-09-19 09:41:45

數據庫思維
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄色一级特级片 | 91免费高清视频 | 亚洲免费网 | 台湾佬久久 | 亚洲69p | 中文在线а√在线8 | 亚洲精品国产偷自在线观看 | 求个av网址 | 激情a| 成人av网站在线观看 | 日韩精品一区二区在线 | 久久久av | 免费成人高清在线视频 | 久久久久久亚洲欧洲 | 国产一区二区三区四区hd | 国产成人精品综合 | 亚洲精品一区二区另类图片 | 超碰97免费观看 | 国产成人精品a视频一区www | 日韩av三区 | 视频在线观看一区二区 | 男人视频网站 | 成人午夜在线 | 黄色片在线看 | 亚洲bt 欧美bt 日本bt | 午夜精品一区二区三区在线观看 | 成人国产精品久久久 | 日本一卡精品视频免费 | 久久精品91久久久久久再现 | 国产精品极品美女在线观看免费 | 一级黄色夫妻生活 | 在线观看中文字幕 | 欧美成人h版在线观看 | 涩涩鲁亚洲精品一区二区 | 免费av一区二区三区 | 一区二区av | 在线观看免费观看在线91 | 99久久精品国产一区二区三区 | 男人天堂免费在线 | 久久久久网站 | 午夜成人在线视频 |