成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

企業(yè)知識圖譜面臨的機(jī)遇、挑戰(zhàn)及解決方案

譯文
數(shù)據(jù)庫 其他數(shù)據(jù)庫 知識圖譜
本文介紹了EKG目前尚存在的各種挑戰(zhàn),以及如何使用原生的多模型數(shù)據(jù)庫所提供的靈活的數(shù)據(jù)表示,來解決這些挑戰(zhàn)。

【51CTO.com快譯】作為提高企業(yè)的運(yùn)營效率和業(yè)務(wù)部門競爭力的必備工具,企業(yè)知識圖譜(Enterprise Knowledge Graphs,EKG)正日益被廣泛地運(yùn)用在協(xié)調(diào)組織內(nèi)、外部數(shù)據(jù)的不同場景中。不過,作為事物的另一面,EKG的弊端則主要體現(xiàn)在:業(yè)務(wù)部門可能難以對其進(jìn)行開發(fā)、維護(hù)、以及擴(kuò)展。本文介紹了EKG目前尚存在的各種挑戰(zhàn),以及如何使用原生的多模型數(shù)據(jù)庫所提供的靈活的數(shù)據(jù)表示,來解決這些挑戰(zhàn)(請參見圖1)。

圖1:多模型知識圖譜能夠在一個(gè)系統(tǒng)中融合多種數(shù)據(jù)表示

什么是企業(yè)知識圖譜?

目前,知識圖譜已經(jīng)為Google、Apple、Facebook、Twitter、MicroSoft、Linkedin、Ebay以及阿里巴巴等公司創(chuàng)造了數(shù)萬億美元的財(cái)富。它們主要是通過自行研發(fā)技術(shù)棧(technology stacks)來支持知識圖譜。相對于開源的EKG,商業(yè)化圖形數(shù)據(jù)庫產(chǎn)品的開發(fā),則是根據(jù)行業(yè)或企業(yè)特定的知識模型,來協(xié)調(diào)組織的內(nèi)容、數(shù)據(jù)、以及信息資產(chǎn)。

EKG通常表示某個(gè)組織的知識領(lǐng)域,以及那些可被人工和機(jī)器理解的組件。它是對本組織的知識資產(chǎn)、內(nèi)容和數(shù)據(jù)的參考集合。此類集合利用某種數(shù)據(jù)模型來描述人員、地點(diǎn)、事物、以及它們之間的關(guān)系。

雖然許多企業(yè)都部署了各種類型的業(yè)務(wù)知識圖譜(business knowledge graph,BKG)方案,但是并非所有的圖譜都能叫做EKG。EKG的主要驅(qū)動(dòng)力源自:為滿足特定業(yè)務(wù)需求而構(gòu)建定制化的知識圖譜。如果說BKG主要旨在支持那些細(xì)分的業(yè)務(wù)用例,那么EKG則旨在向多個(gè)業(yè)務(wù)部門提供高質(zhì)量的統(tǒng)一數(shù)據(jù),以及多種用例。在下一節(jié)中,我們將討論在利用EKG支持業(yè)務(wù)用例時(shí),所面臨的挑戰(zhàn)和機(jī)遇。

EKG的挑戰(zhàn)與機(jī)遇

對于業(yè)務(wù)部門而言,由于EKG包含了來自多個(gè)數(shù)據(jù)源的高凈值數(shù)據(jù),因此它省去了為支持業(yè)務(wù)用例而集成數(shù)據(jù)源所使用的時(shí)間和精力。目前許多EKG方案都能夠根據(jù)企業(yè)的概念模型,來協(xié)調(diào)多個(gè)截然不同的異構(gòu)源系統(tǒng)。這些原始數(shù)據(jù)通常被暫存在諸如Hadoop/HDFS、S3等分布式的存儲系統(tǒng)上,中間件群集會(huì)將這些數(shù)據(jù)提取并轉(zhuǎn)換(Extract Transform Load,ETL)到圖形數(shù)據(jù)庫的群集之中。

由于EKG能夠支持諸如企業(yè)級搜索之類的應(yīng)用,因此它們需要提取和轉(zhuǎn)換各種格式(如:文檔、表格、鍵值和圖形)的EKG數(shù)據(jù),以支持業(yè)務(wù)應(yīng)用。

圖2:在協(xié)調(diào)圖譜和提供數(shù)據(jù)時(shí),可能產(chǎn)生不匹配的現(xiàn)象

由于企業(yè)往往難以將數(shù)據(jù)協(xié)調(diào)成為EKG所需的復(fù)雜多源數(shù)據(jù),因此EKG常常無法發(fā)揮出其全部的潛力。同時(shí),業(yè)務(wù)用戶不但難以應(yīng)對復(fù)雜且生疏的知識圖譜表示形式,而且缺乏使用它們的工具。雖然企業(yè)可以通過付出巨大的努力,將數(shù)十個(gè)、乃至數(shù)百個(gè)數(shù)據(jù)源整合到一個(gè)EKG中,并且解決諸如數(shù)據(jù)出處、以及權(quán)限保留之類的數(shù)據(jù)治理問題,因此業(yè)務(wù)部門在充分利用高質(zhì)量EKG數(shù)據(jù)過程種,面臨著“最后一百米”的巨大挑戰(zhàn)。

其實(shí),問題的本質(zhì)在于,從數(shù)據(jù)到圖形的“全有或全無”轉(zhuǎn)換過程,會(huì)導(dǎo)致源數(shù)據(jù)表示形式與EKG之間、以及EKG與業(yè)務(wù)部門希望的數(shù)據(jù)處理方式之間的不匹配(見圖2)狀況。基于多模型的EKG,通過允許知識圖譜中表示形式的多樣性,來減少數(shù)據(jù)的不匹配。據(jù)此,圖譜將得以靈活地進(jìn)行增量協(xié)調(diào),而業(yè)務(wù)部門也能夠按需對數(shù)據(jù)進(jìn)行最少的轉(zhuǎn)換。

多個(gè)數(shù)據(jù)源被協(xié)調(diào)到圖譜中的挑戰(zhàn)

企業(yè)需要協(xié)調(diào)好大量不同的數(shù)據(jù)源。通常情況下,被統(tǒng)一的相關(guān)數(shù)據(jù)源越多,對企業(yè)的潛在價(jià)值也就越大。當(dāng)然,將數(shù)據(jù)協(xié)調(diào)到圖譜的成本,也會(huì)隨著數(shù)據(jù)源數(shù)量的增加而呈現(xiàn)指數(shù)級的增長。這就是為什么企業(yè)渴望找到能夠?qū)?shù)據(jù)進(jìn)行自動(dòng)協(xié)調(diào),以及通過敏捷應(yīng)用,來按需提供數(shù)據(jù)的協(xié)調(diào)方法。

圖3:EKG的數(shù)據(jù)協(xié)調(diào)工作量會(huì)隨著數(shù)據(jù)源數(shù)量而呈現(xiàn)出指數(shù)級的增長

可見,我們需要通過復(fù)雜的知識表示形式,來表示不同數(shù)據(jù)的細(xì)微差別,并標(biāo)準(zhǔn)化圖譜結(jié)構(gòu)。供知識圖譜使用與聯(lián)合的所有源數(shù)據(jù),都需要被轉(zhuǎn)換成為單模型圖形數(shù)據(jù)庫中的圖表結(jié)構(gòu)。當(dāng)然,將源數(shù)據(jù)映射到這些復(fù)雜的知識圖譜表示形式是需要時(shí)間、精力、以及知識儲備的。

如下圖4所示,由于需要大量的資源,EKG的生成過程可能會(huì)影響到圖形數(shù)據(jù)庫的擴(kuò)展性能。在實(shí)際應(yīng)用中,總會(huì)有超過圖形數(shù)據(jù)庫擴(kuò)展能力的海量數(shù)據(jù),尤其是存儲鍵值和文檔等實(shí)際數(shù)據(jù)的時(shí)候。

圖4:圖形處理數(shù)據(jù)的復(fù)雜度與文檔、鍵值的處理能力關(guān)系

基于上述原因,多模型數(shù)據(jù)庫恰好能夠以按需擴(kuò)容和簡化圖形表示的方式,來融合各種鍵值、文檔、聯(lián)接(join)、以及圖形數(shù)據(jù)模型。例如:當(dāng)用純圖形表示時(shí),企業(yè)內(nèi)部的網(wǎng)絡(luò)安全信息會(huì)逐年以數(shù)萬億條“邊(edge)”的速度增長。那么在結(jié)合了圖形、文檔和聯(lián)接之后,同一個(gè)企業(yè)網(wǎng)絡(luò)安全的圖譜則可能以數(shù)十億條“邊”來表示。

企業(yè)在尋找減少開發(fā)和維護(hù)EKG所需工作量的過程中,往往會(huì)捫心自問如下問題:

  • 我們可以自動(dòng)將源數(shù)據(jù)進(jìn)行分類、映射和轉(zhuǎn)換為知識圖譜嗎?
  • 在概念模型出現(xiàn)變化時(shí),我們能夠自動(dòng)重構(gòu)EKG嗎?
  • 我們能夠搜索數(shù)據(jù)源、知識圖譜,進(jìn)而精選數(shù)據(jù)嗎?

鑒于目前尚無可用于將數(shù)據(jù)自動(dòng)協(xié)調(diào)為圖形的實(shí)用方案,EKG必須是整體化的圖模型,并且所有數(shù)據(jù)都必須被轉(zhuǎn)換為圖才能真正有用。同時(shí),通過允許包含其他類型的數(shù)據(jù)模型,我們可以減少EKG的部署和維護(hù)工作,增加EKG的潛在規(guī)模,并且提高EKG開發(fā)和維持的靈活性與敏捷性。另外,通過讓其他數(shù)據(jù)模型的知識圖譜將分段數(shù)據(jù)和圖形存儲在同一數(shù)據(jù)庫中,我們能夠以敏捷和迭代的方式進(jìn)行圖形的協(xié)調(diào)。

讓EKG易用的挑戰(zhàn)

如前文所述,業(yè)務(wù)用戶難以應(yīng)對復(fù)雜且生疏的知識圖譜的表示形式,而且缺乏使用它們的工具。在實(shí)際使用中,他們常會(huì)碰到如下EKG問題:

  • 它能夠與我現(xiàn)有的工具一起使用嗎?
  • 我的開發(fā)人員會(huì)知道如何使用它嗎?
  • 我如何能夠找到相關(guān)的數(shù)據(jù)?
  • 如何綁定所需的數(shù)據(jù)?
  • 如何獲得所需的數(shù)據(jù)格式?

上述挑戰(zhàn)的實(shí)質(zhì)源于:在EKG與業(yè)務(wù)部門需要使用和處理的數(shù)據(jù)方式之間,存在不匹配的狀況。例如:某家企業(yè)可能需要2017年1月至2019年12月的所有交易信息,并要求此類數(shù)據(jù)能夠以特定文檔結(jié)構(gòu)(如JSON文檔集合)的形式提供出來。由于不想額外地學(xué)習(xí)或使用圖形查詢語言來達(dá)到該目的,因此他們需要一種“數(shù)據(jù)購物”的體驗(yàn)。即:通過訪問EKG商店,并使用多重過濾器在EKG的目錄中搜索數(shù)據(jù),然后他們根據(jù)EKG商店推薦的數(shù)據(jù)集,來補(bǔ)充現(xiàn)有的數(shù)據(jù),并指定獲取數(shù)據(jù)的方式與時(shí)間。

多模型企業(yè)知識圖譜

多模型企業(yè)圖譜(Multi-model enterprise graphs,MMEKG)可以通過讓用戶在同一個(gè)生態(tài)系統(tǒng)中混合和管理數(shù)據(jù)源、EKG、以及數(shù)據(jù)的表示形式,以解決前面提到的各種問題。

減少時(shí)間和成本

MMEKG能夠按需對圖進(jìn)行延遲轉(zhuǎn)換。由于允許在邊和頂點(diǎn)中包含不同的文檔,因此多模型圖譜能夠減小圖的大小。據(jù)此,EKG也可以使用敏捷迭代的過程來進(jìn)行開發(fā)。

圖5:使用多模型圖譜能夠更有效地協(xié)調(diào)知識圖譜的數(shù)據(jù)

減少計(jì)算資源

如下圖6所示,EKG解決方案通常需要使用單獨(dú)的數(shù)據(jù)系統(tǒng),來進(jìn)行stage、圖形ETL、圖形管理、以及將數(shù)據(jù)傳遞給業(yè)務(wù)部門使用。MMEKG可以有效地消除源數(shù)據(jù)、知識圖譜、以及精選的業(yè)務(wù)數(shù)據(jù)之間存在的不匹配狀況。它不但可以在同一個(gè)系統(tǒng)中管理數(shù)據(jù),而且能夠減少轉(zhuǎn)換的延遲,并使得所有的數(shù)據(jù)都可以被搜索。可見,它降低了使用單獨(dú)的集群來進(jìn)行stage,轉(zhuǎn)換,圖形化,以及業(yè)務(wù)應(yīng)用的相關(guān)成本(請參見圖7)。

圖6:典型的EKG生態(tài)系統(tǒng)會(huì)使用多個(gè)系統(tǒng)來進(jìn)行stage和轉(zhuǎn)換 

圖7:可以在同一多模型數(shù)據(jù)庫中管理源數(shù)據(jù)、EKG、以及業(yè)務(wù)數(shù)據(jù)

使用方便

由于多模型使得源數(shù)據(jù)、知識圖譜和業(yè)務(wù)應(yīng)用數(shù)據(jù),能夠在同一個(gè)數(shù)據(jù)系統(tǒng)中被搜索和找到,因此業(yè)務(wù)用戶可以采用自己的格式去使用數(shù)據(jù),而不必了解復(fù)雜的企業(yè)圖譜模型。

數(shù)據(jù)沿襲(data lineage)

同樣由于采用了同一個(gè)多模型系統(tǒng)進(jìn)行數(shù)據(jù)的stage,轉(zhuǎn)換和交付,因此跟蹤數(shù)據(jù)的沿襲也變得容易了許多。

增強(qiáng)現(xiàn)有的EKG

具有RDF(Resource Description Framework,資源描述框架)類EKG的企業(yè),完全可以保留現(xiàn)有的投入,并在MMEKG中加以利用。因?yàn)槎嗄P蛨D是RDF基于帶標(biāo)記的有向圖的超集,因此模型數(shù)據(jù)庫可以吸收RDF的本體和RDF的EKG。類似地,多模型圖也包含有屬性圖,因此方便了吸收那些基于屬性圖的EKG。

圖8:多模型的EKG可以提取RDF,以及基于屬性圖的EKG

總結(jié)

多模型(Multi-model)可謂針對EKG的實(shí)用技術(shù),其優(yōu)勢包括讓EKG的多源數(shù)據(jù)更加流暢,提高EKG數(shù)據(jù)在業(yè)務(wù)用例中的可用性,通過混合模型實(shí)現(xiàn)更高的可擴(kuò)展性,以及減少EKG生態(tài)系統(tǒng)的復(fù)雜度。

原文標(biāo)題:The Multi-Model Knowledge Graph,作者:Arthur Keen & Jan Stuecke

【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

 

責(zé)任編輯:龐桂玉 來源: 51CTO
相關(guān)推薦

2022-06-27 23:13:44

數(shù)字化轉(zhuǎn)型企業(yè)數(shù)字經(jīng)濟(jì)

2025-06-09 09:10:26

2020-12-02 08:14:05

行業(yè)規(guī)模經(jīng)驗(yàn)

2023-11-03 19:52:43

大數(shù)據(jù)

2022-05-06 10:31:10

大數(shù)據(jù)安全大數(shù)據(jù)平臺數(shù)據(jù)安全

2021-01-19 10:52:15

知識圖譜

2025-04-27 00:10:00

AI人工智能知識圖譜

2024-02-22 11:23:16

2017-03-06 16:48:56

知識圖譜構(gòu)建存儲

2021-01-25 10:36:32

知識圖譜人工智能

2024-03-20 15:11:25

2025-06-06 01:00:00

AI人工智能知識圖譜

2024-10-08 10:37:12

語言數(shù)據(jù)自然語言

2016-12-29 11:29:45

云計(jì)算

2017-04-13 11:48:05

NLP知識圖譜

2021-01-18 10:50:29

知識圖譜人工智能深度學(xué)習(xí)

2025-06-05 02:00:00

人工智能知識圖譜AI

2024-06-03 07:28:43

2025-06-05 09:09:50

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩av资源站 | 一级毛片免费看 | 午夜视频一区二区三区 | 99久久久久国产精品免费 | 国产成人精品999在线观看 | 粉嫩一区二区三区四区公司1 | 99视频精品 | 日韩三级免费网站 | 久久精品二区亚洲w码 | 久久精品国产a三级三级三级 | 久久av一区二区三区 | 国产精品久久久久久久久久久久久 | 久久久在线视频 | 不卡一区二区三区四区 | 又爽又黄axxx片免费观看 | www.久久 | 2019中文字幕视频 | 久久岛国| 欧美色欧美亚洲另类七区 | 亚洲国产精品美女 | 国产乱码精品1区2区3区 | 欧美日韩三级视频 | 欧美日韩电影一区 | 欧美精品久久久久久久久久 | 亚洲成人一区二区 | 一区二区三区四区在线 | 欧美黄视频| a级在线免费观看 | 精品欧美一区二区三区久久久 | 一区二区三区四区不卡视频 | 99精品国自产在线观看 | 国产精品久久久久久吹潮日韩动画 | 久久国产精品视频 | 日韩免费中文字幕 | 午夜羞羞| 久久国产秒 | 国产精品久久久久久久久免费软件 | 美女视频一区二区三区 | 毛片大全| 久久中文字幕av | jav成人av免费播放 |