成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

知識(shí)圖譜掃盲

人工智能 知識(shí)圖譜
互聯(lián)網(wǎng)正從僅包含網(wǎng)頁(yè)和網(wǎng)頁(yè)之間超鏈接的文檔萬(wàn)維網(wǎng)(Document Web)轉(zhuǎn)變成包含大量描述各種實(shí)體和實(shí)體之間豐富關(guān)系的數(shù)據(jù)萬(wàn)維網(wǎng)(Data Web)。在這個(gè)背景下,Google、百度和搜狗等搜索引擎公司紛紛以此為基礎(chǔ)構(gòu)建知識(shí)圖譜,分別為Knowledge Graph、知心和知立方,來(lái)改進(jìn)搜索質(zhì)量,從而拉開(kāi)了語(yǔ)義搜索的序幕。

近兩年來(lái),隨著Linking Open Data等項(xiàng)目的全面展開(kāi),語(yǔ)義Web數(shù)據(jù)源的數(shù)量激增,大量RDF數(shù)據(jù)被發(fā)布。互聯(lián)網(wǎng)正從僅包含網(wǎng)頁(yè)和網(wǎng)頁(yè)之間超鏈接的文檔萬(wàn)維網(wǎng)(Document Web)轉(zhuǎn)變成包含大量描述各種實(shí)體和實(shí)體之間豐富關(guān)系的數(shù)據(jù)萬(wàn)維網(wǎng)(Data Web)。在這個(gè)背景下,Google、百度和搜狗等搜索引擎公司紛紛以此為基礎(chǔ)構(gòu)建知識(shí)圖譜,分別為Knowledge Graph、知心和知立方,來(lái)改進(jìn)搜索質(zhì)量,從而拉開(kāi)了語(yǔ)義搜索的序幕。

知識(shí)圖譜的表示和本質(zhì)

正如Google的辛格博士在介紹知識(shí)圖譜時(shí)提到的:“The world is not made of strings , but is made of things.”,知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念。其中,每個(gè)實(shí)體或概念用一個(gè)全局唯一確定的ID來(lái)標(biāo)識(shí),稱為它們的標(biāo)識(shí)符(identifier)。每個(gè)屬性-值對(duì)(attribute-value pair,又稱AVP)用來(lái)刻畫實(shí)體的內(nèi)在特性,而關(guān)系(relation)用來(lái)連接兩個(gè)實(shí)體,刻畫它們之間的關(guān)聯(lián)。知識(shí)圖譜亦可被看作是一張巨大的圖,圖中的節(jié)點(diǎn)表示實(shí)體或概念,而圖中的邊則由屬性或關(guān)系構(gòu)成。上述圖模型可用W3C提出的資源描述框架RDF[2] 或?qū)傩詧D(property graph)來(lái)表示。知識(shí)圖譜率先由Google提出,以提高其搜索的質(zhì)量。

知識(shí)圖譜本質(zhì)上是語(yǔ)義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(Point)和邊(Edge)組成。在知識(shí)圖譜里,每個(gè)節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”。知識(shí)圖譜是關(guān)系的最有效的表示方式。通俗地講,知識(shí)圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò)。知識(shí)圖譜提供了從“關(guān)系”的角度去分析問(wèn)題的能力。

知識(shí)圖譜的作用

為了讓用戶能夠更快更簡(jiǎn)單的發(fā)現(xiàn)新的信息和知識(shí),Google搜索將發(fā)布“知識(shí)圖譜”(Knowledge Graph)——可以將搜索結(jié)果進(jìn)行知識(shí)系統(tǒng)化,任何一個(gè)關(guān)鍵詞都能獲得完整的知識(shí)體系。

比如搜索“Amazon”(亞馬遜河),一般的搜索結(jié)果會(huì)給出和Amazon最相關(guān)的信息。比如Amazon網(wǎng)站,因?yàn)榫W(wǎng)上關(guān)于它的信息最多,但Amazon并不僅僅是一個(gè)網(wǎng)站,它還是全球流量最大的Amazon河流。如果在追溯歷史,它可能還是希臘女戰(zhàn)士一族的代稱。而這些結(jié)果未來(lái)都會(huì)在Google搜索的“知識(shí)圖譜”中展現(xiàn)出來(lái)。

不管用戶搜索的關(guān)鍵詞是代表了地標(biāo)、名人、城市、球隊(duì)名、電影、專業(yè)詞語(yǔ)還是一種菜的做法,Google的“知識(shí)圖譜”都可以將搜索結(jié)果的知識(shí)體系完整的呈現(xiàn)出來(lái)。

和之前的搜素結(jié)果相比,“知識(shí)圖譜”將在三個(gè)方面大幅度提高Google搜索的最終效果:

1 找到正確的結(jié)果。由于一個(gè)關(guān)鍵詞可能代表多重含義,所以知識(shí)圖譜會(huì)將最全面的信息展現(xiàn)出來(lái),讓用戶找到自己最想要的那種含義。

2 最好的總結(jié)。有了知識(shí)圖譜,Google可以更好的理解用戶搜索的信息,并總結(jié)處相關(guān)的內(nèi)容和主題。當(dāng)你搜“瑪麗·居里”時(shí),你不僅可以獲得這個(gè)關(guān)鍵詞的所有相關(guān)內(nèi)容,還能獲得居里夫人的詳細(xì)生平介紹。

3 更深、更廣。由于“知識(shí)圖譜”會(huì)給出搜索結(jié)果的完整知識(shí)體系,所以用戶往往會(huì)發(fā)現(xiàn)很多不知道的東西(知識(shí))。當(dāng)你搜索一個(gè)即將去旅行的地方時(shí),可能你會(huì)發(fā)現(xiàn)一個(gè)以此命名的餐館,甚至還可能發(fā)現(xiàn)還有一本小說(shuō)就叫這個(gè)名字,并且已經(jīng)改編成了同名電影。

Google的“知識(shí)圖譜”不僅僅會(huì)從Freebase、維基百科或全球概覽中獲得專業(yè)的信息,同時(shí)還通過(guò)大規(guī)模的信息搜索分析來(lái)提高搜索結(jié)果的深度和廣度?,F(xiàn)在Google數(shù)據(jù)庫(kù)中包含超過(guò)5億個(gè)事物,不同事物之間的關(guān)系超過(guò)35億條。同時(shí)人們搜索的越多,Google獲得的信息也就越多越全面,整個(gè)知識(shí)圖譜也就會(huì)達(dá)到更好的效果。

知識(shí)圖譜的構(gòu)建

1. 知識(shí)圖譜的規(guī)模

據(jù)不完全統(tǒng)計(jì),Google知識(shí)圖譜到目前為止包含了5億個(gè)實(shí)體和35億條事實(shí)(形如實(shí)體-屬性-值,和實(shí)體-關(guān)系-實(shí)體)。其知識(shí)圖譜是面向全球的,因此包含了實(shí)體和相關(guān)事實(shí)的多語(yǔ)言描述。不過(guò)相比占主導(dǎo)的英語(yǔ)外,僅包含其他語(yǔ)言(如中文)的知識(shí)圖譜的規(guī)模則小了很多。與此不同的是,百度和搜狗主要針對(duì)中文搜索推出知識(shí)圖譜,其知識(shí)庫(kù)中的知識(shí)也主要以中文來(lái)描述,其規(guī)模略小于Google的。

2. 知識(shí)圖譜的表示

假設(shè)我們用知識(shí)圖譜來(lái)描述一個(gè)事實(shí)(Fact) - “張三是李四的父親”。這里的實(shí)體是張三和李四,關(guān)系是“父親”(is_father_of)。當(dāng)然,張三和李四也可能會(huì)跟其他人存在著某種類型的關(guān)系(暫時(shí)不考慮)。當(dāng)我們把電話號(hào)碼也作為節(jié)點(diǎn)加入到知識(shí)圖譜以后(電話號(hào)碼也是實(shí)體),人和電話之間也可以定義一種關(guān)系叫 has_phone,就是說(shuō)某個(gè)電話號(hào)碼是屬于某個(gè)人。

另外,我們可以把時(shí)間作為屬性(Property)添加到 has_phone 關(guān)系里來(lái)表示開(kāi)通電話號(hào)碼的時(shí)間。這種屬性不僅可以加到關(guān)系里,還可以加到實(shí)體當(dāng)中,當(dāng)我們把所有這些信息作為關(guān)系或者實(shí)體的屬性添加后,所得到的圖譜稱之為屬性圖 (Property Graph)。屬性圖和傳統(tǒng)的RDF格式都可以作為知識(shí)圖譜的表示和存儲(chǔ)方式。

3. 知識(shí)圖譜的存儲(chǔ)

知識(shí)圖譜是基于圖的數(shù)據(jù)結(jié)構(gòu),它的存儲(chǔ)方式主要有兩種形式:RDF存儲(chǔ)格式和圖數(shù)據(jù)庫(kù)(Graph Database)。

根據(jù)DB-Engines Ranking的排名, neo4j在整個(gè)圖存儲(chǔ)領(lǐng)域里占據(jù)著NO.1的地位,而且在RDF領(lǐng)域里Jena還是目前為止最為流行的存儲(chǔ)框架。

當(dāng)然,如果需要設(shè)計(jì)的知識(shí)圖譜非常簡(jiǎn)單,而且查詢也不會(huì)涉及到1度以上的關(guān)聯(lián)查詢,我們也可以選擇用關(guān)系型數(shù)據(jù)存儲(chǔ)格式來(lái)保存知識(shí)圖譜。但對(duì)那些稍微復(fù)雜的關(guān)系網(wǎng)絡(luò)(現(xiàn)實(shí)生活中的實(shí)體和關(guān)系普遍都比較復(fù)雜),知識(shí)圖譜的優(yōu)點(diǎn)還是非常明顯的。首先,在關(guān)聯(lián)查詢的效率上會(huì)比傳統(tǒng)的存儲(chǔ)方式有顯著的提高。當(dāng)我們涉及到2,3度的關(guān)聯(lián)查詢,基于知識(shí)圖譜的查詢效率會(huì)高出幾千倍甚至幾百萬(wàn)倍。其次,基于圖的存儲(chǔ)在設(shè)計(jì)上會(huì)非常靈活,一般只需要局部的改動(dòng)即可。比如我們有一個(gè)新的數(shù)據(jù)源,我們只需要在已有的圖譜上插入就可以。于此相反,關(guān)系型存儲(chǔ)方式靈活性方面比較差,它所有的Schema都是提前定義好的,如果后續(xù)要改變,它的代價(jià)是非常高的。最后,把實(shí)體和關(guān)系存儲(chǔ)在圖數(shù)據(jù)結(jié)構(gòu)是一種符合整個(gè)故事邏輯的最好的方式。

4. 知識(shí)圖譜的數(shù)據(jù)來(lái)源

為了提高搜索質(zhì)量,特別是提供如對(duì)話搜索和復(fù)雜問(wèn)答等新的搜索體驗(yàn),我們不僅要求知識(shí)圖譜包含大量高質(zhì)量的常識(shí)性知識(shí),還要能及時(shí)發(fā)現(xiàn)并添加新的知識(shí)。在這種背景下,知識(shí)圖譜通過(guò)收集來(lái)自百科類站點(diǎn)和各種垂直站點(diǎn)的結(jié)構(gòu)化數(shù)據(jù)來(lái)覆蓋大部分常識(shí)性知識(shí)。這些數(shù)據(jù)普遍質(zhì)量較高,更新比較慢。而另一方面,知識(shí)圖譜通過(guò)從各種半結(jié)構(gòu)化數(shù)據(jù)(形如HTML表格)抽取相關(guān)實(shí)體的屬性-值對(duì)來(lái)豐富實(shí)體的描述。此外,通過(guò)搜索日志(query log)發(fā)現(xiàn)新的實(shí)體或新的實(shí)體屬性從而不斷擴(kuò)展知識(shí)圖譜的覆蓋率。相比高質(zhì)量的常識(shí)性知識(shí),通過(guò)數(shù)據(jù)挖掘抽取得到的知識(shí)數(shù)據(jù)更大,更能反映當(dāng)前用戶的查詢需求并能及時(shí)發(fā)現(xiàn)最新的實(shí)體或事實(shí),但其質(zhì)量相對(duì)較差,存在一定的錯(cuò)誤。這些知識(shí)利用互聯(lián)網(wǎng)的冗余性在后續(xù)的挖掘中通過(guò)投票或其他聚合算法來(lái)評(píng)估其置信度,并通過(guò)人工審核加入到知識(shí)圖譜中。

a) 百科類數(shù)據(jù)

維基百科 ,通過(guò)協(xié)同編輯,已經(jīng)成為最大的在線百科全書,其質(zhì)量與大英百科媲美??梢酝ㄟ^(guò)以下方式來(lái)從維基百科中獲取所需的內(nèi)容:通過(guò)文章頁(yè)面(Article Page)抽取各種實(shí)體;通過(guò)重定向頁(yè)面(Redirect Page)獲得這些實(shí)體的同義詞(又稱Synonym);通過(guò)去歧義頁(yè)面(Disambiguation Page)和內(nèi)鏈錨文本(Internal Link Anchor Text)獲得它們的同音異義詞(又稱Homonym);通過(guò)概念頁(yè)面(Category Page)獲得各種概念以及其上下位(subclass)關(guān)系;通過(guò)文章頁(yè)面關(guān)聯(lián)的開(kāi)放分類抽取實(shí)體所對(duì)應(yīng)的類別;通過(guò)信息框(Infobox)抽取實(shí)體所對(duì)應(yīng)的屬性-值對(duì)和關(guān)系-實(shí)體對(duì)。類似地,從百度百科和互動(dòng)百科抽取各種中文知識(shí)來(lái)彌補(bǔ)維基百科中文數(shù)據(jù)不足的缺陷。此外,F(xiàn)reebase[5] 是另一個(gè)重要的百科類的數(shù)據(jù)源,其包含超過(guò)3900萬(wàn)個(gè)實(shí)體(其稱為Topics)和18億條事實(shí),規(guī)模遠(yuǎn)大于維基百科。對(duì)比之前提及的知識(shí)圖譜的規(guī)模,我們發(fā)現(xiàn)僅Freebase一個(gè)數(shù)據(jù)源就構(gòu)成了Google知識(shí)圖譜的半壁江山。更為重要的是,維基百科所編輯的是各種詞條,這些詞條以文章的形式來(lái)展現(xiàn),包含各種半結(jié)構(gòu)化信息,需要通過(guò)事先制定的規(guī)則來(lái)抽取知識(shí);而Freebase則直接編輯知識(shí),包括實(shí)體及其包含的屬性和關(guān)系,以及實(shí)體所屬的類型等結(jié)構(gòu)化信息。因此,不需要通過(guò)任何抽取規(guī)則即可獲得高質(zhì)量的知識(shí)。雖然開(kāi)發(fā)Freebase的母公司MetaWeb于2010年被Google收購(gòu),F(xiàn)reebase還是作為開(kāi)放的知識(shí)管理平臺(tái)獨(dú)立運(yùn)行。所以百度和搜狗也將Freebase加入到其知識(shí)圖譜中。

b) 結(jié)構(gòu)化數(shù)據(jù)

除了百科類的數(shù)據(jù),各大搜索引擎公司在構(gòu)建知識(shí)圖譜時(shí),還考慮其他結(jié)構(gòu)化數(shù)據(jù)。其中,LOD項(xiàng)目在發(fā)布各種語(yǔ)義數(shù)據(jù)的同時(shí),通過(guò)owl:sameAs將新發(fā)布的語(yǔ)義數(shù)據(jù)中涉及的實(shí)體和LOD中已有數(shù)據(jù)源所包含的潛在同一實(shí)體進(jìn)行關(guān)聯(lián),從而實(shí)現(xiàn)了手工的實(shí)體對(duì)齊(entity alignment)。LOD不僅包括如DBpedia[6] 和YAGO[7] 等通用語(yǔ)義數(shù)據(jù)集,還包括如MusicBrainz 和DrugBank 等特定領(lǐng)域的知識(shí)庫(kù)。因此,Google等通過(guò)整合LOD中的(部分)語(yǔ)義數(shù)據(jù)提高知識(shí)的覆蓋率,尤其是垂直領(lǐng)域的各種知識(shí)。此外,Web上存在大量高質(zhì)量的垂直領(lǐng)域站點(diǎn)(如電商網(wǎng)站,點(diǎn)評(píng)網(wǎng)站等),這些站點(diǎn)被稱為Deep Web[10]。它們通過(guò)動(dòng)態(tài)網(wǎng)頁(yè)技術(shù)將保存在數(shù)據(jù)庫(kù)中的各種領(lǐng)域相關(guān)的結(jié)構(gòu)化數(shù)據(jù)以HTML表格的形式展現(xiàn)給用戶。各大搜索引擎公司通過(guò)收購(gòu)這些站點(diǎn)或購(gòu)買其數(shù)據(jù)來(lái)進(jìn)一步擴(kuò)充其知識(shí)圖譜在特定領(lǐng)域的知識(shí)。這樣做出于三方面原因:其一、大量爬取這些站點(diǎn)的數(shù)據(jù)會(huì)占據(jù)大量帶寬,導(dǎo)致這些站點(diǎn)無(wú)法被正常訪問(wèn);其二、爬取全站點(diǎn)數(shù)據(jù)可能會(huì)涉及知識(shí)產(chǎn)權(quán)糾紛;最后,相比靜態(tài)網(wǎng)頁(yè)的爬取,Deep Web爬蟲(chóng)需要通過(guò)表單填充(Form Filling)技術(shù)來(lái)獲取相關(guān)內(nèi)容,且解析這些頁(yè)面中包含的結(jié)構(gòu)化信息需要額外的自動(dòng)化抽取算法,具體細(xì)節(jié)在下一節(jié)描述。

c) 半結(jié)構(gòu)化數(shù)據(jù)挖掘AVP

雖然從Deep Web爬取數(shù)據(jù)并解析其中所包含的結(jié)構(gòu)化信息面臨很大的挑戰(zhàn),各大搜索引擎公司仍在這方面投入了大量精力。一方面,Web上存在大量長(zhǎng)尾的結(jié)構(gòu)化站點(diǎn),這些站點(diǎn)提供的數(shù)據(jù)與最主流的相關(guān)領(lǐng)域站點(diǎn)所提供的內(nèi)容具有很強(qiáng)的互補(bǔ)性,因此對(duì)這些長(zhǎng)尾站點(diǎn)進(jìn)行大規(guī)模的信息抽取(尤其是實(shí)體相關(guān)的屬性-值對(duì)的抽取)對(duì)于知識(shí)圖譜所含內(nèi)容的擴(kuò)展是非常有價(jià)值的。另一方面,中文百科類的站點(diǎn)(如百度百科等)的結(jié)構(gòu)化程度遠(yuǎn)不如維基百科,能通過(guò)信息框獲得AVP的實(shí)體非常稀少,大量屬性-值對(duì)隱含在一些列表或表格中。一個(gè)切實(shí)可行的做法是構(gòu)建面向站點(diǎn)的包裝器(Site-specific Wrapper)。其背后的基本思想是:一個(gè)Deep Web站點(diǎn)中的各種頁(yè)面由統(tǒng)一的程序動(dòng)態(tài)生成,具有類似的布局和結(jié)構(gòu)。利用這一點(diǎn),我們僅需從當(dāng)前待抽取站點(diǎn)采樣并標(biāo)注幾個(gè)典型詳細(xì)頁(yè)面(Detailed Pages),利用這些頁(yè)面通過(guò)模式學(xué)習(xí)算法(Pattern Learning)自動(dòng)構(gòu)建出一個(gè)或多個(gè)以類Xpath表示的模式,然后將其應(yīng)用在該站點(diǎn)的其他詳細(xì)頁(yè)面中從而實(shí)現(xiàn)自動(dòng)化的AVP抽取。對(duì)于百科類站點(diǎn),我們可以將具有相同類別的頁(yè)面作為某個(gè)“虛擬”站點(diǎn),并使用類似的方法進(jìn)行實(shí)體AVP的抽取。自動(dòng)學(xué)習(xí)獲得的模式并非完美,可能會(huì)遺漏部分重要的屬性,也可能產(chǎn)生錯(cuò)誤的抽取結(jié)果。為了應(yīng)對(duì)這個(gè)問(wèn)題,搜索引擎公司往往通過(guò)構(gòu)建工具來(lái)可視化這些模式,并人工調(diào)整或新增合適的模式用于抽取。此外,通過(guò)人工評(píng)估抽取的結(jié)果,將那些抽取結(jié)果不令人滿意的典型頁(yè)面進(jìn)行再標(biāo)注來(lái)更新訓(xùn)練樣本,從而達(dá)到主動(dòng)學(xué)習(xí)(Active Learning)的目的。

d) 通過(guò)搜索日志進(jìn)行實(shí)體和實(shí)體屬性等挖掘

搜索日志是搜索引擎公司積累的寶貴財(cái)富。一條搜索日志形如<查詢,點(diǎn)擊的頁(yè)面鏈接,時(shí)間戳>。通過(guò)挖掘搜索日志,我們往往可以發(fā)現(xiàn)最新出現(xiàn)的各種實(shí)體及其屬性,從而保證知識(shí)圖譜的實(shí)時(shí)性。這里側(cè)重于從查詢的關(guān)鍵詞短語(yǔ)和點(diǎn)擊的頁(yè)面所對(duì)應(yīng)的標(biāo)題中抽取實(shí)體及其屬性。選擇查詢作為抽取目標(biāo)的意義在于其反映了用戶最新最廣泛的需求,從中能挖掘出用戶感興趣的實(shí)體以及實(shí)體對(duì)應(yīng)的屬性。而選擇頁(yè)面的標(biāo)題作為抽取目標(biāo)的意義在于標(biāo)題往往是對(duì)整個(gè)頁(yè)面的摘要,包含最重要的信息。據(jù)百度研究者的統(tǒng)計(jì),90%以上的實(shí)體可以在網(wǎng)頁(yè)標(biāo)題中被找到。為了完成上述抽取任務(wù),一個(gè)常用的做法是:針對(duì)每個(gè)類別,挑選出若干屬于該類的實(shí)體(及相關(guān)屬性)作為種子(Seeds),找到包含這些種子的查詢和頁(yè)面標(biāo)題,形成正則表達(dá)式或文法模式。這些模式將被用于抽取查詢和頁(yè)面標(biāo)題中出現(xiàn)的其他實(shí)體及其屬性。如果當(dāng)前抽取所得的實(shí)體未被包含在知識(shí)圖譜中,則該實(shí)體成為一個(gè)新的候選實(shí)體。類似地,如果當(dāng)前被抽取的屬性未出現(xiàn)在知識(shí)圖譜中,則此屬性成為一個(gè)新的候選屬性。這里,我們僅保留置信度高的實(shí)體及其屬性,新增的實(shí)體和屬性將被作為新的種子發(fā)現(xiàn)新的模式。此過(guò)程不斷迭代直到?jīng)]有新的種子可以加入或所有的模式都已經(jīng)找到且無(wú)法泛化。在決定模式的好壞時(shí),常用的基本原則是盡量多地發(fā)現(xiàn)屬于當(dāng)前類別的實(shí)體和對(duì)應(yīng)屬性,盡量少地抽取出屬于其他類別的實(shí)體及屬性。上述方法被稱為基于Bootstrapping的多類別協(xié)同模式學(xué)習(xí)。

5. 從抽取圖譜到知識(shí)圖譜

上述所介紹的方法僅僅是從各種類型的數(shù)據(jù)源抽取構(gòu)建知識(shí)圖譜所需的各種候選實(shí)體(概念)及其屬性關(guān)聯(lián),形成了一個(gè)個(gè)孤立的抽取圖譜(Extraction Graphs)。為了形成一個(gè)真正的知識(shí)圖譜,我們需要將這些信息孤島集成在一起。

a) 實(shí)體對(duì)齊

實(shí)體對(duì)齊(Object Alignment)旨在發(fā)現(xiàn)具有不同ID但卻代表真實(shí)世界中同一對(duì)象的那些實(shí)體,并將這些實(shí)體歸并為一個(gè)具有全局唯一標(biāo)識(shí)的實(shí)體對(duì)象添加到知識(shí)圖譜中。雖然實(shí)體對(duì)齊在數(shù)據(jù)庫(kù)領(lǐng)域被廣泛研究,但面對(duì)如此多異構(gòu)數(shù)據(jù)源上的Web規(guī)模的實(shí)體對(duì)齊,這還是第一次嘗試。各大搜索引擎公司普遍采用的方法是聚類。聚類的關(guān)鍵在于定義合適的相似度度量。這些相似度度量遵循如下觀察:具有相同描述的實(shí)體可能代表同一實(shí)體(字符相似);具有相同屬性-值的實(shí)體可能代表相同對(duì)象(屬性相似);具有相同鄰居的實(shí)體可能指向同一個(gè)對(duì)象(結(jié)構(gòu)相似)。在此基礎(chǔ)上,為了解決大規(guī)模實(shí)體對(duì)齊存在的效率問(wèn)題,各種基于數(shù)據(jù)劃分或分割的算法被提出將實(shí)體分成一個(gè)個(gè)子集,在這些子集上使用基于更復(fù)雜的相似度計(jì)算的聚類并行地發(fā)現(xiàn)潛在相同的對(duì)象。另外,利用來(lái)自如LOD中已有的對(duì)齊標(biāo)注數(shù)據(jù)(使用owl:sameAs關(guān)聯(lián)兩個(gè)實(shí)體)作為訓(xùn)練數(shù)據(jù),然后結(jié)合相似度計(jì)算使用如標(biāo)簽傳遞(Label Propagation)等基于圖的半監(jiān)督學(xué)習(xí)算法發(fā)現(xiàn)更多相同的實(shí)體對(duì)。無(wú)論何種自動(dòng)化方法都無(wú)法保證100%的準(zhǔn)確率,所以這些方法的產(chǎn)出結(jié)果將作為候選供人工進(jìn)一步審核和過(guò)濾。

b) 知識(shí)圖譜schema構(gòu)建

在之前的技術(shù)點(diǎn)介紹中,大部分篇幅均在介紹知識(shí)圖譜中數(shù)據(jù)層(Data Level)的構(gòu)建,而沒(méi)有過(guò)多涉及模式層(Schema Level)。事實(shí)上,模式是對(duì)知識(shí)的提煉,而且遵循預(yù)先給定的schema有助于知識(shí)的標(biāo)準(zhǔn)化,更利于查詢等后續(xù)處理。為知識(shí)圖譜構(gòu)建schema相當(dāng)于為其建立本體(Ontology)。最基本的本體包括概念、概念層次、屬性、屬性值類型、關(guān)系、關(guān)系定義域(Domain)概念集以及關(guān)系值域(Range)概念集。在此基礎(chǔ)上,我們可以額外添加規(guī)則(Rules)或公理(Axioms)來(lái)表示模式層更復(fù)雜的約束關(guān)系。面對(duì)如此龐大且領(lǐng)域無(wú)關(guān)的知識(shí)庫(kù),即使是構(gòu)建最基本的本體,也是非常有挑戰(zhàn)的。Google等公司普遍采用的方法是自頂向下(Top-Down)和自底向上(Bottom-Up)相結(jié)合的方式。這里,自頂向下的方式是指通過(guò)本體編輯器(Ontology Editor)預(yù)先構(gòu)建本體。當(dāng)然這里的本體構(gòu)建不是從無(wú)到有的過(guò)程,而是依賴于從百科類和結(jié)構(gòu)化數(shù)據(jù)得到的高質(zhì)量知識(shí)中所提取的模式信息。更值得一提的是,Google知識(shí)圖譜的Schema是在其收購(gòu)的Freebase的schema基礎(chǔ)上修改而得。Freebase的模式定義了Domain(領(lǐng)域),Type(類別)和Topic(主題,即實(shí)體)。每個(gè)Domain有若干Types,每個(gè)Type包含多個(gè)Topics且和多個(gè)Properties關(guān)聯(lián),這些Properties規(guī)定了屬于當(dāng)前Type的那些Topics需要包含的屬性和關(guān)系。定義好的模式可被用于抽取屬于某個(gè)Type或滿足某個(gè)Property的新實(shí)體(或?qū)嶓w對(duì))。另一方面,自底向上的方式則通過(guò)上面介紹的各種抽取技術(shù),特別是通過(guò)搜索日志和Web Table抽取發(fā)現(xiàn)的類別、屬性和關(guān)系,并將這些置信度高的模式合并到知識(shí)圖譜中。合并過(guò)程將使用類似實(shí)體對(duì)齊的對(duì)齊算法。對(duì)于未能匹配原有知識(shí)圖譜中模式的類別、屬性和關(guān)系作為新的模式加入知識(shí)圖譜供人工過(guò)濾。自頂向下的方法有利于抽取新的實(shí)例,保證抽取質(zhì)量,而自底向上的方法則能發(fā)現(xiàn)新的模式。兩者是互補(bǔ)的。

c) 不一致性的解決

當(dāng)融合來(lái)自不同數(shù)據(jù)源的信息構(gòu)成知識(shí)圖譜時(shí),有一些實(shí)體會(huì)同時(shí)屬于兩個(gè)互斥的類別(如男女)或某個(gè)實(shí)體所對(duì)應(yīng)的一個(gè)Property[11] (如性別)對(duì)應(yīng)多個(gè)值。這樣就會(huì)出現(xiàn)不一致性。這些互斥的類別對(duì)以及Functional Properties可以看作是模式層的知識(shí),通常規(guī)模不是很大,可以通過(guò)手工指定規(guī)則來(lái)定義。而由于不一致性的檢測(cè)要面對(duì)大規(guī)模的實(shí)體及相關(guān)事實(shí),純手工的方法將不再可行。一個(gè)簡(jiǎn)單有效的方法充分考慮數(shù)據(jù)源的可靠性以及不同信息在各個(gè)數(shù)據(jù)源中出現(xiàn)的頻度等因素來(lái)決定最終選用哪個(gè)類別或哪個(gè)屬性值。也就是說(shuō),我們優(yōu)先采用那些可靠性高的數(shù)據(jù)源(如百科類或結(jié)構(gòu)化數(shù)據(jù))抽取得到的事實(shí)。另外,如果一個(gè)實(shí)體在多個(gè)數(shù)據(jù)源中都被識(shí)別為某個(gè)類別的實(shí)例,或?qū)嶓w某個(gè)functional property在多個(gè)數(shù)據(jù)源中都對(duì)應(yīng)相同的值,那么我們傾向于最終選擇該類別和該值。注:在統(tǒng)計(jì)某個(gè)類別在數(shù)據(jù)源中出現(xiàn)的頻率前需要完成類別對(duì)齊計(jì)算。類似地,對(duì)于數(shù)值型的屬性值我們還需要額外統(tǒng)一它們所使用的單位。

6. 知識(shí)圖譜上的挖掘

通過(guò)各種信息抽取和數(shù)據(jù)集成技術(shù)已經(jīng)可以構(gòu)建Web規(guī)模的知識(shí)圖譜。為了進(jìn)一步增加圖譜的知識(shí)覆蓋率,需要進(jìn)一步在知識(shí)圖譜上進(jìn)行挖掘。下面將介紹幾項(xiàng)重要的基于知識(shí)圖譜的挖掘技術(shù)。

a) 推理

推理(Reasoning或Inference)被廣泛用于發(fā)現(xiàn)隱含知識(shí)。推理功能一般通過(guò)可擴(kuò)展的規(guī)則引擎來(lái)完成。知識(shí)圖譜上的規(guī)則一般涉及兩大類。一類是針對(duì)屬性的,即通過(guò)數(shù)值計(jì)算來(lái)獲取其屬性值。例如:知識(shí)圖譜中包含某人的出生年月,我們可以通過(guò)當(dāng)前日期減去其出生年月獲取其年齡。這類規(guī)則對(duì)于那些屬性值隨時(shí)間或其他因素發(fā)生改變的情況特別有用。另一類是針對(duì)關(guān)系的,即通過(guò)(鏈?zhǔn)?規(guī)則發(fā)現(xiàn)實(shí)體間的隱含關(guān)系。例如,我們可以定義規(guī)定:岳父是妻子的父親。利用這條規(guī)則,當(dāng)已知姚明的妻子(葉莉)和葉莉的父親(葉發(fā))時(shí),可以推出姚明的岳父是葉發(fā)。

b) 實(shí)體重要性排序

搜索引擎識(shí)別用戶查詢中提到的實(shí)體,并通過(guò)知識(shí)卡片展現(xiàn)該實(shí)體的結(jié)構(gòu)化摘要。當(dāng)查詢涉及多個(gè)實(shí)體時(shí),搜索引擎將選擇與查詢更相關(guān)且更重要的實(shí)體來(lái)展示。實(shí)體的相關(guān)性度量需在查詢時(shí)在線計(jì)算,而實(shí)體重要性與查詢無(wú)關(guān)可離線計(jì)算。搜索引擎公司將PageRank算法[12] 應(yīng)用在知識(shí)圖譜上來(lái)計(jì)算實(shí)體的重要性。和傳統(tǒng)的Web Graph相比,知識(shí)圖譜中的節(jié)點(diǎn)從單一的網(wǎng)頁(yè)變成了各種類型的實(shí)體,而圖中的邊也由連接網(wǎng)頁(yè)的超鏈接(Hyperlink)變成豐富的各種語(yǔ)義關(guān)系。由于不同的實(shí)體和語(yǔ)義關(guān)系的流行程度以及抽取的置信度均不同,而這些因素將影響實(shí)體重要性的最終計(jì)算結(jié)果,因此,各大搜索引擎公司嵌入這些因素來(lái)刻畫實(shí)體和語(yǔ)義關(guān)系的初始重要性,從而使用帶偏的PageRank算法(Biased PageRank)。

c) 相關(guān)實(shí)體挖掘

在相同查詢中共現(xiàn)的實(shí)體,或在同一個(gè)查詢會(huì)話(Session)中被提到的其他實(shí)體稱為相關(guān)實(shí)體。一個(gè)常用的做法是將這些查詢或會(huì)話看作是虛擬文檔,將其中出現(xiàn)的實(shí)體看作是文檔中的詞條,使用主題模型(如LDA)發(fā)現(xiàn)虛擬文檔集中的主題分布。其中每個(gè)主題包含1個(gè)或多個(gè)實(shí)體,這些在同一個(gè)主題中的實(shí)體互為相關(guān)實(shí)體。當(dāng)用戶輸入查詢時(shí),搜索引擎分析查詢的主題分布并選出最相關(guān)的主題。同時(shí),搜索引擎將給出該主題中與知識(shí)卡片所展現(xiàn)的實(shí)體最相關(guān)的那些實(shí)體作為“其他人還搜了”的推薦結(jié)果。

7. 知識(shí)圖譜的更新和維護(hù)

a) Type和Collection的關(guān)系

知識(shí)圖譜的schema為了保證其質(zhì)量,由專業(yè)團(tuán)隊(duì)審核和維護(hù)。以Google知識(shí)圖譜為例,目前定義的Type數(shù)在103-104的數(shù)量級(jí)。為了提高知識(shí)圖譜的覆蓋率,搜索引擎公司還通過(guò)自動(dòng)化算法從各種數(shù)據(jù)源抽取新的類型信息(也包含關(guān)聯(lián)的Property信息),這些類型信息通過(guò)一個(gè)稱為Collection的數(shù)據(jù)結(jié)構(gòu)保存。它們不是馬上被加入到知識(shí)圖譜schema中。有些今天生成后第二天就被刪除了,有些則能長(zhǎng)期的保留在Collection中,如果Collection中的某一種類型能夠長(zhǎng)期的保留,發(fā)展到一定程度后,由專業(yè)的人員進(jìn)行決策和命名并最終成為一種新的Type。

b) 結(jié)構(gòu)化站點(diǎn)包裝器的維護(hù)

站點(diǎn)的更新常常會(huì)導(dǎo)致原有模式失效。搜索引擎會(huì)定期檢查站點(diǎn)是否存在更新。當(dāng)檢測(cè)到現(xiàn)有頁(yè)面(原先已爬取)發(fā)生了變化,搜索引擎會(huì)檢查這些頁(yè)面的變化量,同時(shí)使用最新的站點(diǎn)包裝器進(jìn)行AVP抽取。如果變化量超過(guò)事先設(shè)定的閾值且抽取結(jié)果與原先標(biāo)注的答案差別較大,則表明現(xiàn)有的站點(diǎn)包裝器失效了。在這種情況下,需要對(duì)最新的頁(yè)面進(jìn)行重新標(biāo)注并學(xué)習(xí)新的模式,從而構(gòu)建更新的包裝器。

c) 知識(shí)圖譜的更新頻率

加入到知識(shí)圖譜中的數(shù)據(jù)不是一成不變的。Type對(duì)應(yīng)的實(shí)例往往是動(dòng)態(tài)變化的。例如,美國(guó)總統(tǒng),隨著時(shí)間的推移,可能對(duì)應(yīng)不同的人。由于數(shù)據(jù)層的規(guī)模和更新頻度都遠(yuǎn)超schema層,搜索引擎公司利用其強(qiáng)大的計(jì)算保證圖譜每天的更新都能在3個(gè)小時(shí)內(nèi)完成,而實(shí)時(shí)的熱點(diǎn)也能保證在事件發(fā)生6個(gè)小時(shí)內(nèi)在搜索結(jié)果中反映出來(lái)。

d) 眾包(Crowdsourcing)反饋機(jī)制

除了搜索引擎公司內(nèi)部的專業(yè)團(tuán)隊(duì)對(duì)構(gòu)建的知識(shí)圖譜進(jìn)行審核和維護(hù),它們還依賴用戶來(lái)幫助改善圖譜。具體來(lái)說(shuō),用戶可以對(duì)搜索結(jié)果中展現(xiàn)的知識(shí)卡片所列出的實(shí)體相關(guān)的事實(shí)進(jìn)行糾錯(cuò)。當(dāng)很多用戶都指出某個(gè)錯(cuò)誤時(shí),搜索引擎將采納并修正。這種利用群體智慧的協(xié)同式知識(shí)編輯是對(duì)專業(yè)團(tuán)隊(duì)集中式管理的互補(bǔ)。

知識(shí)圖譜在搜索中的應(yīng)用

1. 查詢理解

搜索引擎借助知識(shí)圖譜來(lái)識(shí)別查詢中涉及到的實(shí)體(概念)及其屬性等,并根據(jù)實(shí)體的重要性展現(xiàn)相應(yīng)的知識(shí)卡片。搜索引擎并非展現(xiàn)實(shí)體的全部屬性,而是根據(jù)當(dāng)前輸入的查詢自動(dòng)選擇最相關(guān)的屬性及屬性值來(lái)顯示。此外,搜索引擎僅當(dāng)知識(shí)卡片所涉及的知識(shí)的正確性很高(通常超過(guò)95%,甚至達(dá)到99%)時(shí),才會(huì)展現(xiàn)。當(dāng)要展現(xiàn)的實(shí)體被選中之后,利用相關(guān)實(shí)體挖掘來(lái)推薦其他用戶可能感興趣的實(shí)體供進(jìn)一步瀏覽。

2. 問(wèn)題回答

除了展現(xiàn)與查詢相關(guān)的知識(shí)卡片,知識(shí)圖譜對(duì)于搜索所帶來(lái)的另一個(gè)革新是:直接返回答案,而不僅僅是排序的文檔列表。要實(shí)現(xiàn)自動(dòng)問(wèn)答系統(tǒng),搜索引擎不僅要理解查詢中涉及到的實(shí)體及其屬性,更需要理解查詢所對(duì)應(yīng)的語(yǔ)義信息。搜索引擎通過(guò)高效的圖搜索,在知識(shí)圖譜中查找連接這些實(shí)體及屬性的子圖并轉(zhuǎn)換為相應(yīng)的圖查詢(如SPARQL )。這些翻譯過(guò)的圖查詢被進(jìn)一步提交給圖數(shù)據(jù)庫(kù)進(jìn)行回答返回相應(yīng)的答案。

知識(shí)圖譜在互聯(lián)網(wǎng)金融中的應(yīng)用

反欺詐

反欺詐是風(fēng)控中非常重要的一道環(huán)節(jié)?;诖髷?shù)據(jù)的反欺詐的難點(diǎn)在于如何把不同來(lái)源的數(shù)據(jù)(結(jié)構(gòu)化,非結(jié)構(gòu))整合在一起,并構(gòu)建反欺詐引擎,從而有效地識(shí)別出欺詐案件(比如身份造假,團(tuán)體欺詐,代辦包裝等)。而且不少欺詐案件會(huì)涉及到復(fù)雜的關(guān)系網(wǎng)絡(luò),這也給欺詐審核帶來(lái)了新的挑戰(zhàn)。 知識(shí)圖譜,作為關(guān)系的直接表示方式,可以很好地解決這兩個(gè)問(wèn)題。 首先,知識(shí)圖譜提供非常便捷的方式來(lái)添加新的數(shù)據(jù)源,這一點(diǎn)在前面提到過(guò)。其次,知識(shí)圖譜本身就是用來(lái)表示關(guān)系的,這種直觀的表示方法可以幫助我們更有效地分析復(fù)雜關(guān)系中存在的特定的潛在風(fēng)險(xiǎn)。

反欺詐的核心是人,首先需要把與借款人相關(guān)的所有的數(shù)據(jù)源打通,并構(gòu)建包含多數(shù)據(jù)源的知識(shí)圖譜,從而整合成為一臺(tái)機(jī)器可以理解的結(jié)構(gòu)化的知識(shí)。在這里,我們不僅可以整合借款人的基本信息(比如申請(qǐng)時(shí)填寫的信息),還可以把借款人的消費(fèi)記錄、行為記錄、網(wǎng)上的瀏覽記錄等整合到整個(gè)知識(shí)圖譜里,從而進(jìn)行分析和預(yù)測(cè)。這里的一個(gè)難點(diǎn)是很多的數(shù)據(jù)都是從網(wǎng)絡(luò)上獲取的非結(jié)構(gòu)化數(shù)據(jù),需要利用機(jī)器學(xué)習(xí)、自然語(yǔ)言處理技術(shù)把這些數(shù)據(jù)變成結(jié)構(gòu)化的數(shù)據(jù)。

不一致性驗(yàn)證

不一致性驗(yàn)證可以用來(lái)判斷一個(gè)借款人的欺詐風(fēng)險(xiǎn),這個(gè)跟交叉驗(yàn)證類似。比如借款人張三和借款人李四填寫的是同一個(gè)公司電話,但張三填寫的公司和李四填寫的公司完全不一樣,這就成了一個(gè)風(fēng)險(xiǎn)點(diǎn),需要審核人員格外的注意。

再比如,借款人說(shuō)跟張三是朋友關(guān)系,跟李四是父子關(guān)系。當(dāng)我們?cè)噲D把借款人的信息添加到知識(shí)圖譜里的時(shí)候,“一致性驗(yàn)證”引擎會(huì)觸發(fā)。引擎首先會(huì)去讀取張三和李四的關(guān)系,從而去驗(yàn)證這個(gè)“三角關(guān)系”是否正確。很顯然,朋友的朋友不是父子關(guān)系,所以存在著明顯的不一致性。

不一致性驗(yàn)證涉及到知識(shí)的推理。通俗地講,知識(shí)的推理可以理解成“鏈接預(yù)測(cè)”,也就是從已有的關(guān)系圖譜里推導(dǎo)出新的關(guān)系或鏈接。 比如在上面的例子,假設(shè)張三和李四是朋友關(guān)系,而且張三和借款人也是朋友關(guān)系,那我們可以推理出借款人和李四也是朋友關(guān)系。

組團(tuán)欺詐

相比虛假身份的識(shí)別,組團(tuán)欺詐的挖掘難度更大。這種組織在非常復(fù)雜的關(guān)系網(wǎng)絡(luò)里隱藏著,不容易被發(fā)現(xiàn)。當(dāng)我們只有把其中隱含的關(guān)系網(wǎng)絡(luò)梳理清楚,才有可能去分析并發(fā)現(xiàn)其中潛在的風(fēng)險(xiǎn)。知識(shí)圖譜,作為天然的關(guān)系網(wǎng)絡(luò)的分析工具,可以幫助我們更容易地去識(shí)別這種潛在的風(fēng)險(xiǎn)。舉一個(gè)簡(jiǎn)單的例子,有些組團(tuán)欺詐的成員會(huì)用虛假的身份去申請(qǐng)貸款,但部分信息是共享的。下面的圖大概說(shuō)明了這種情形。從圖中可以看出張三、李四和王五之間沒(méi)有直接的關(guān)系,但通過(guò)關(guān)系網(wǎng)絡(luò)我們很容易看出這三者之間都共享著某一部分信息,這就讓我們馬上聯(lián)想到欺詐風(fēng)險(xiǎn)。雖然組團(tuán)欺詐的形式眾多,但有一點(diǎn)值得肯定的是知識(shí)圖譜一定會(huì)比其他任何的工具提供更佳便捷的分析手段。

異常分析(Anomaly Detection)

異常分析是數(shù)據(jù)挖掘研究領(lǐng)域里比較重要的課題。我們可以把它簡(jiǎn)單理解成從給定的數(shù)據(jù)中找出“異常”點(diǎn)。在我們的應(yīng)用中,這些”異常“點(diǎn)可能會(huì)關(guān)聯(lián)到欺詐。既然知識(shí)圖譜可以看做是一個(gè)圖 (Graph),知識(shí)圖譜的異常分析也大都是基于圖的結(jié)構(gòu)。由于知識(shí)圖譜里的實(shí)體類型、關(guān)系類型不同,異常分析也需要把這些額外的信息考慮進(jìn)去。大多數(shù)基于圖的異常分析的計(jì)算量比較大,可以選擇做離線計(jì)算。在我們的應(yīng)用框架中,可以把異常分析分為兩大類: 靜態(tài)分析和動(dòng)態(tài)分析,后面會(huì)逐一講到。

- 靜態(tài)分析

所謂的靜態(tài)分析指的是,給定一個(gè)圖形結(jié)構(gòu)和某個(gè)時(shí)間點(diǎn),從中去發(fā)現(xiàn)一些異常點(diǎn)(比如有異常的子圖)。下圖中我們可以很清楚地看到其中五個(gè)點(diǎn)的相互緊密度非常強(qiáng),可能是一個(gè)欺詐組織。所以針對(duì)這些異常的結(jié)構(gòu),我們可以做出進(jìn)一步的分析。

- 動(dòng)態(tài)分析

所謂的動(dòng)態(tài)分析指的是分析其結(jié)構(gòu)隨時(shí)間變化的趨勢(shì)。我們的假設(shè)是,在短時(shí)間內(nèi)知識(shí)圖譜結(jié)構(gòu)的變化不會(huì)太大,如果它的變化很大,就說(shuō)明可能存在異常,需要進(jìn)一步的關(guān)注。分析結(jié)構(gòu)隨時(shí)間的變化會(huì)涉及到時(shí)序分析技術(shù)和圖相似性計(jì)算技術(shù)。

失聯(lián)客戶管理

除了貸前的風(fēng)險(xiǎn)控制,知識(shí)圖譜也可以在貸后發(fā)揮其強(qiáng)大的作用。比如在貸后失聯(lián)客戶管理的問(wèn)題上,知識(shí)圖譜可以幫助我們挖掘出更多潛在的新的聯(lián)系人,從而提高催收的成功率。

現(xiàn)實(shí)中,不少借款人在借款成功后出現(xiàn)不還款現(xiàn)象,而且玩“捉迷藏”,聯(lián)系不上本人。即便試圖去聯(lián)系借款人曾經(jīng)提供過(guò)的其他聯(lián)系人,但還是沒(méi)有辦法聯(lián)系到本人。這就進(jìn)入了所謂的“失聯(lián)”狀態(tài),使得催收人員也無(wú)從下手。那接下來(lái)的問(wèn)題是,在失聯(lián)的情況下,我們有沒(méi)有辦法去挖掘跟借款人有關(guān)系的新的聯(lián)系人? 而且這部分人群并沒(méi)有以關(guān)聯(lián)聯(lián)系人的身份出現(xiàn)在我們的知識(shí)圖譜里。如果我們能夠挖掘出更多潛在的新的聯(lián)系人,就會(huì)大大地提高催收成功率。舉個(gè)例子,在下面的關(guān)系圖中,借款人跟李四有直接的關(guān)系,但我們卻聯(lián)系不上李四。那有沒(méi)有可能通過(guò)2度關(guān)系的分析,預(yù)測(cè)并判斷哪些李四的聯(lián)系人可能會(huì)認(rèn)識(shí)借款人。這就涉及到圖譜結(jié)構(gòu)的分析。

智能搜索及可視化展示

基于知識(shí)圖譜,我們也可以提供智能搜索和數(shù)據(jù)可視化的服務(wù)。智能搜索的功能類似于知識(shí)圖譜在Google, Baidu上的應(yīng)用。也就是說(shuō),對(duì)于每一個(gè)搜索的關(guān)鍵詞,我們可以通過(guò)知識(shí)圖譜來(lái)返回更豐富,更全面的信息。比如搜索一個(gè)人的身份證號(hào),我們的智能搜索引擎可以返回與這個(gè)人相關(guān)的所有歷史借款記錄、聯(lián)系人信息、行為特征和每一個(gè)實(shí)體的標(biāo)簽(比如黑名單,同業(yè)等)。另外,可視化的好處不言而喻,通過(guò)可視化把復(fù)雜的信息以非常直觀的方式呈現(xiàn)出來(lái), 使得我們對(duì)隱藏信息的來(lái)龍去脈一目了然。

精準(zhǔn)營(yíng)銷

一個(gè)聰明的企業(yè)可以比它的競(jìng)爭(zhēng)對(duì)手以更為有效的方式去挖掘其潛在的客戶。在互聯(lián)網(wǎng)時(shí)代,營(yíng)銷手段多種多樣,但不管有多少種方式,都離不開(kāi)一個(gè)核心 - 分析用戶和理解用戶。知識(shí)圖譜可以結(jié)合多種數(shù)據(jù)源去分析實(shí)體之間的關(guān)系,從而對(duì)用戶的行為有更好的理解。比如一個(gè)公司的市場(chǎng)經(jīng)理用知識(shí)圖譜來(lái)分析用戶之間的關(guān)系,去發(fā)現(xiàn)一個(gè)組織的共同喜好,從而可以有針對(duì)性的對(duì)某一類人群制定營(yíng)銷策略。只有我們能更好的、更深入的(Deep understanding)理解用戶的需求,我們才能更好地去做營(yíng)銷。

【本文為51CTO專欄作者“大數(shù)據(jù)和云計(jì)算”的原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)通過(guò)微信公眾號(hào)獲取聯(lián)系和授權(quán)】

戳這里,看該作者更多好文

責(zé)任編輯:武曉燕 來(lái)源: 51CTO專欄
相關(guān)推薦

2025-04-27 00:10:00

AI人工智能知識(shí)圖譜

2021-01-19 10:52:15

知識(shí)圖譜

2021-01-25 10:36:32

知識(shí)圖譜人工智能

2024-06-03 07:28:43

2025-06-06 01:00:00

AI人工智能知識(shí)圖譜

2024-10-08 10:37:12

語(yǔ)言數(shù)據(jù)自然語(yǔ)言

2025-06-05 02:00:00

人工智能知識(shí)圖譜AI

2025-06-09 09:10:26

2017-04-13 11:48:05

NLP知識(shí)圖譜

2017-05-04 13:18:18

深度學(xué)習(xí)知識(shí)圖譜

2019-05-07 10:01:49

Redis軟件開(kāi)發(fā)

2021-02-01 22:41:05

語(yǔ)義網(wǎng)知識(shí)圖譜

2021-01-18 10:50:29

知識(shí)圖譜人工智能深度學(xué)習(xí)

2025-06-03 15:00:04

2025-06-05 09:09:50

2025-06-03 06:03:06

2021-04-12 11:47:21

人工智能知識(shí)圖譜

2021-01-19 10:16:00

AI大數(shù)據(jù)知識(shí)圖譜

2023-09-27 09:00:00

大型語(yǔ)言模型自然語(yǔ)言處理

2025-06-09 03:00:00

人工智能AI知識(shí)圖譜
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 黑人粗黑大躁护士 | 天天综合永久入口 | 自拍偷拍第一页 | 99色在线| 婷婷久久综合 | 日韩精品一区二区三区在线播放 | 91黄在线观看 | 亚洲欧美日韩国产综合 | 伊人久操| 日韩欧美三区 | 四虎精品在线 | 日本亚洲欧美 | 午夜免费网站 | 欧美午夜影院 | 欧美一级视频在线观看 | 国产伦精品一区二区 | 精品美女在线观看视频在线观看 | 欧美日韩在线观看一区二区三区 | 成人福利在线观看 | 黄片毛片免费观看 | 日韩视频精品在线 | 欧美a区 | 另类专区成人 | 欧美黄色一区 | 欧美综合在线观看 | 国内精品视频在线观看 | 日本黄色高清视频 | 久久蜜桃资源一区二区老牛 | 国产精品一区二区久久 | 午夜在线电影网 | 91五月婷蜜桃综合 | 一区二区三区四区不卡视频 | av电影手机版 | 欧美一区二区三区四区五区无卡码 | 中文字幕乱码一区二区三区 | 亚洲视频中文字幕 | 亚洲欧美高清 | av在线视| 二区不卡 | 国产在线永久免费 | 成人婷婷|