知識圖譜火了,還不快來pick一下!
原創【51CTO.com原創稿件】 隨著移動互聯網的發展,萬物互聯成為了可能,這種互聯所產生的數據也在爆發式地增長,這些數據不僅為分析關系提供了有效原料,更為人工智能的飛速發展帶來了***的數據紅利。知識圖譜因此應運而生,成為近些年來的熱點技術。
今天就讓我們從知識圖譜的概念、表示、構成及應用四方面,對其進行一個深入、全面的探究。
什么是知識圖譜
知識圖譜(KnowledgeGraph/Vault)又稱為科學知識圖譜,是由Google公司在2012年提出來的一個新的概念。基于谷歌知識圖譜的架構,可以知識圖譜大致可以理解為一個語義網,是與知識庫的密切關聯、但又有明顯差異的一個技術棧(Technology Stack),在谷歌的設計理念中,知識圖譜的目標是解決信息過載問題。
谷歌知識圖譜架構
是不是覺得有點抽象?那我們換個角度,從實際應用的角度出發其實可以簡單地把知識圖譜理解成多關系圖(Multi-relational Graph),知識圖譜就是把所有不同種類的信息(Heterogeneous Information)通過數據挖掘、信息處理、知識計量和圖形繪制等一系列方式,連接在一起而得到的一個關系網絡。知識圖譜提供了從“關系”的角度去分析問題的能力。
知識圖譜的表示 知識圖譜應用的前提是已經構建好了知識圖譜,也可以把它認為是一個知識庫。這也是為什么它可以用來回答一些搜索相關問題的原因,比如在百度搜索引擎里輸入“鹿晗的女朋友?”,我們直接可以得到答案-“關曉彤”。這是因為我們在系統層面上已經創建好了一個包含“鹿晗”和“關曉彤”的實體以及他倆之間關系的知識庫。所以,當我們執行搜索的時候,就可以通過關鍵詞提取("鹿晗", "關曉彤", "女朋友")以及知識庫上的匹配可以直接獲得最終的答案。這種搜索方式跟傳統的搜索引擎是不一樣的,一個傳統的搜索引擎它返回的是網頁、而不是最終的答案,所以就多了一層用戶自己篩選并過濾信息的過程。 在現實世界中,實體和關系也會擁有各自的屬性,比如人可以有“姓名”和“年齡”。當一個知識圖譜擁有屬性時,我們可以用屬性圖(Property Graph)來表示。下面的圖表示一個簡單的屬性圖。劉二和劉強是父子關系,并且劉二擁有一個159開頭的電話號,這個電話號開通時間是2018年,其中2018年就可以作為關系的屬性。類似的,劉二本人也帶有一些屬性值比如年齡為35歲、職位是個體經營者等。
知識圖譜的構成 構建知識圖譜是一個迭代更新的過程,根據知識獲取的邏輯,每一輪迭代包含三個階段: 1信息抽取:從各種類型的數據源中提取出實體、屬性以及實體間的相互關系,在此基礎上形成本體化的知識表達; 2知識融合:在獲得新知識之后,需要對其進行整合,以消除矛盾和歧義,比如某些實體可能有多種表達,某個特定稱謂也許對應于多個不同的實體等; 3知識加工(計算+應用):對于經過融合的新知識,需要經過質量評估之后(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質量。 知識圖譜架構分析圖 知識圖譜的應用 知識圖譜技術為不同的商業場景帶來了大量的智能應用和成功案例,上面所提到的用于搜索引擎(國外的搜索引擎以谷歌的Google Search、微軟的Bing Search]最為典型;國內的主流搜索引擎公司如百度、搜狗等)的例子只是冰山一角,接下來就和小編一起看看知識圖譜的其他應用吧! 通過知識圖譜相關技術從招股書、年報、公司公告、券商研究報告、新聞等半結構化表格和非結構化文本數據中批量自動抽取公司的股東、子公司、供應商、客戶、合作伙伴、競爭對手等信息,構建出公司的知識圖譜。 在某個宏觀經濟事件或者企業相關事件發生的時候,券商分析師、交易員、基金公司基金經理等投資研究人員可以通過此圖譜做更深層次的分析和更好的投資決策,比如在美國限制向中興通訊出口的消息發布之后,如果我們有中興通訊的客戶供應商、合作伙伴以及競爭對手的關系圖譜,就能在中興通訊停牌的情況下快速地篩選出受影響的國際國內上市公司從而挖掘投資機會或者進行投資組合風險控制。 知識圖譜技術可以幫助我們快速構建一個法律知識圖譜,目前還缺乏法律知識圖譜的理論工作。跟其他領域的知識圖譜相比,法律知識圖譜需要考慮法律的邏輯,下面就是一個法律知識圖譜的片段: 從上面這個例子可以看出,每一個犯罪行為都有主體、客體、主觀要件和客觀要件,我們就需要從文本中去抽取這些信息,從而形成一個關于犯罪行為的圖譜,而通過對海量判決書的挖掘,可以建立犯罪行為之間的關聯,比如說,防衛過當和故意傷害之間有一個關聯,即誤判為的關系。通過這個圖譜,給定一個判決書,可以輔助法官判的一個案件是否有誤判,是否需要補充信息。 通過融合來自不同數據源的信息構成知識圖譜,同時引入領域專家建立業務專家規則。我們通過數據不一致性檢測,利用繪制出的知識圖譜可以識別潛在的欺詐風險。比如借款人張 xx 和借款人吳 x 填寫信息為同事,但是兩個人填寫的公司名卻不一樣, 以及同一個電話號碼屬于兩個借款人,這些不一致性很可能有欺詐行為。 反欺詐情報分析 如教育科研,醫療,生物醫療以及需要進行大數據分析的一些行業。這些行業對整合性和關聯性的資源需求迫切,知識圖譜可以為其提供更加精確規范的行業數據以及豐富的表達,幫助用戶更加便捷地獲取行業知識。 知識圖譜的行業應用 結語 知識圖譜是一個既充滿挑戰而且非常有趣的領域。相信在未來幾年時間內,知識圖譜毫無疑問將是人工智能的前沿研究問題。知識圖譜的重要性不僅在于它是一個全局知識庫,更是支撐智能搜索和深度問答等智能應用的基礎,而且在于它是一把鑰匙,能夠打開人類的知識寶庫,為許多相關學科領域開啟新的發展機會。從這個意義上來看,知識圖譜不僅是一項技術,更是一項戰略資產。 當然,還要強調一點,知識圖譜工程本身還是業務為重心,以數據為中心,不能低估業務和數據的重要性哦。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】