成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人工智能和知識圖譜三:知識圖譜系統的基準與評估

人工智能
評估知識圖譜技術和算法需要標準化的基準和指標,這些基準和指標長期以來不斷發展。本文概述了用作基準的常見數據集、典型的評估指標,以及對知識圖譜進行基準測試所面臨的挑戰。

一、通用基準知識圖譜

一些大型知識庫已成為事實上的研究基準,通常用作鏈接預測、問答和實體分類等任務的數據來源。關鍵的基準包括:

Freebase:一個巨大的通用領域圖譜,前身是谷歌收購的開放數據庫,包含數百萬個實體的事實。雖然 Freebase 本身已停止服務,已遷移至 Wikidata,但它仍在基準測試中繼續存在。值得注意的是,Freebase 的子集在機器學習評估中被廣泛使用——FB15k及其精煉版本FB15k-237是鏈接預測的常用基準測試。它們包含 15,000 個實體和各種關系類型,這些關系類型的提取方式使得訓練及測試集的拆分能夠避免某些數據泄露問題,FB15k-237 移除了逆關系,以確保評估公平。Freebase 也是常見問答基準測試的基礎,例如 WebQuestions 和 SimpleQuestions,這些基準測試的任務是將自然語言問題映射到 Freebase 事實。然而,隨著 Freebase 的停用,社區正在逐漸遠離它。

DBpedia:一個早期且頗具影響力的知識圖譜,它提取自維基百科的信息框。DBpedia 代表維基百科實體的結構化信息,長期以來一直是開放領域知識的首選來源。它常用于知識圖譜問答 (KGQA)基準測試;例如,QALD(基于鏈接數據的問答)挑戰賽的前 9 屆都使用 DBpedia 作為基礎數據。DBpedia 覆蓋范圍廣泛,但已知存在一些噪聲提取,并且更新速度不如維基數據。研究人員過去曾使用 DBpedia 來評估 SPARQL 查詢性能和語義搜索系統,以及對子集進行鏈接預測。

Wikidata:維基百科社區精心策劃的知識圖譜,已發展成為最大的開放式知識圖譜之一,截至 2025 年擁有超過 1 億個條目。Wikidata 支持多種語言,持續更新,涵蓋大量主題并提供參考。近年來,它已成為許多任務的首選基準,使用率超過了 DBpedia 和 Freebase。例如,知識圖譜問答 (KGQA) 社區已開始使用基于 Wikidata 的問答數據集(如 LC-QuAD 2.0、KGraph-QA 等),并將舊基準從 DBpedia 遷移到 Wikidata。QALD-10 基準(2023 年)從 DBpedia 遷移到 Wikidata,并指出由于圖結構(如 Wikidata 對限定符的使用)和多語言方面的差異,遷移并非易事 。 Wikidata 也用于鏈接預測和知識圖譜補全任務:像WN18RR(WordNet 和 Wikidata)或Wikidata5M這樣的子集提供了易于管理的評估切片。Wikidata 作為基準的一個挑戰在于其復雜性——它是一個超關系圖(語句可以包含時間、位置、來源等限定詞),并且在長尾領域不完整,這可能會使評估變得復雜。

YAGO:最初結合了維基百科和WordNet的知識圖譜,旨在構建結構良好且精度高的本體。YAGO(Yet Another Great Ontology,又一個偉大的本體)擁有多個版本;YAGO3專注于多語言信息,并致力于提升分類學權重。它比Wikidata/DBpedia規模更小,但通常更簡潔。YAGO3-10是用于鏈接預測基準測試的子集,以其大量的關系類型和相當龐大的實體集而聞名。YAGO通常用于學術實驗,當更符合本體的知識圖譜(KG)更有利時,它具有與WordNet一致的類型層次結構。

WordNet:并非關于世界實體的知識圖譜,而是一個包含詞匯(名詞、動詞等)及其關系(同義詞、上位詞等)的詞匯語義網絡。它被用作知識圖譜的基準,尤其適用于鏈接預測,經典的詞匯關系數據集WN18和WN18RR。WordNet 可用于測試基于分層小世界概念網絡的算法。

行業基準:除了這些開放的知識圖譜 (KG) 之外,某些領域也有自己的基準:例如,在醫療保健領域,UMLS或Hetionet等生物醫學知識圖譜被用作藥物研發或基因-疾病關聯預測等任務的基準。開放生物鏈接 (OGB)計劃包含蛋白質-藥物-疾病知識圖譜等圖譜。開放圖譜基準 (OGB)是一項近期成果,包含一些面向知識的圖譜任務,例如ogbl-wikikg2,WikiKG 的一個子集,包含數百萬個用于關聯預測的節點和邊。這些標準化的劃分有助于比較在更大、更真實的圖譜上嵌入算法的優劣。

二、評估指標

評估方式取決于具體任務。常見指標包括:

鏈接預測指標:對于像知識圖譜補全(預測缺失關系)這樣的任務,排名指標是標準的。這些指標包括平均倒數排名 (MRR) ——第一個正確答案的倒數排名的平均值——以及Hits@N——正確實體在前 N 個預測中排名的測試查詢比例。例如,在 FB15k-237 上,一個算法可能達到 X% 的 Hits@10,這意味著它將正確的尾部實體放在前 10 個列表中的概率為 X%。對于基于排名的指標,例如平均排名或平均倒數排名(其中 MRR 越高越好),該指標越低越好。由于知識圖譜對一個查詢可能有多個正確答案(例如,一個人可能有多個職業),因此使用過濾指標(在排名評估中忽略其他正確答案)。這些指標強調了嵌入或模型在預測合理邊方面的準確性。

問答指標:對于 KGQA 基準(其任務是針對自然問題返回一個或多個實體或值),評估通常使用準確率、召回率和 F1(尤其是對于具有多個答案的列表問題)。例如,如果問題是“哪些演員主演了《盜夢空間》?”,則可能會根據系統是否返回所有正確的演員(真正例與假正例)來評估系統。QALD 和其他 QA 挑戰通常會測量每個查詢的 F1 分數并取平均值。如果答案是自然語言,有些人會使用 BLEU 或 ROUGE,但對于結構化答案,通常使用基于集合的準確率/召回率。一個有趣的復雜之處:將問題映射到 SPARQL 查詢 - 在那里,通過執行 SPARQL 并比較結果來衡量準確率。語言理解的復雜性通常導致這里的分數低于純鏈接預測。

本體對齊和模式匹配:在需要評估知識圖譜的模式或對齊情況(例如匹配兩個知識圖譜的本體)時,會使用諸如對齊對的準確率/召回率或基于嵌入的評估等指標。這是一個較為小眾的評估領域。

查詢性能指標:對于圖形數據庫,重要的評估方面不僅是準確性,還有性能(尤其是對于工業界而言)。諸如 LDBC 社交網絡基準測試(LDBC SNB)之類的基準測試為圖形數據庫提供了查詢工作負載,以測試復雜圖形查詢的吞吐量和延遲。典型指標包括各種負載下的每秒查詢次數、平均查詢延遲等。在語義網中,經典指標是BSBM(柏林 SPARQL 基準測試)或LUBM(利哈伊大學基準測試),它們生成合成數據和一套 SPARQL 查詢,以衡量三元組存儲回答查詢的速度(無論是否推理)。例如,LUBM 有關于大學的查詢,而三元組存儲的衡量標準是它們可以加載多少個三元組以及它們回答這些查詢的速度。這些指標對于擴展考慮至關重要 - 例如,一個系統在簡單查找中可能處理 1000 QPS,但在具有多個連接的繁重分析查詢中只能處理 5 QPS。

知識圖譜的準確性和完整性:除了模型性能之外,還可以討論知識圖譜內容本身的準確性(尤其是在自動構建的情況下)。這通常通過精確度/召回率來衡量,并以黃金標準為準:例如,如果一個系統從文本中提取了一個知識圖譜,我們可能會手動或通過已知數據來計算提取出的關系中有多少是正確的(精確度),以及有多少已知的真實關系被遺漏了(召回率)。完整性是一個棘手的指標——真正的知識圖譜是不完整的(并非所有真實事實都包含在內)。研究人員已經提出了一些指標或啟發式方法(例如,每種關系類型的完整性得分,例如,基于一個人在數據中與現實中平均有多少個配偶)。但完整性通常與領域相關。一些自動方法嘗試對其進行估計,例如使用 PSTAT 或其他統計估計來估計可能有多少缺失的鏈接。

推理/推理的質量:評估推理器時,可以檢查其健全性和完備性(它是否能推斷出所有有效結論,且沒有任何錯誤)。在實踐中,這可以是驗證推理后的知識圖譜是否符合本體的預期蘊涵(可以在已知閉包的精選本體上進行測試)。

三、基準測試中的挑戰

評估知識圖譜和基于 KG 的 AI 系統面臨著獨特的挑戰:

固有的不完整性:現實世界的知識圖譜(例如 Wikidata)從來都不是完整的——總有更多事實存在。這意味著,對于鏈接預測之類的任務,測試中的“假陰性”實際上可能是知識圖譜中缺失的真實事實。例如,一個模型可能預測某人贏得了某個獎項,但該獎項并未記錄在知識圖譜中;這可能是一個正確的事實,只是知識圖譜尚未更新。因此,傳統的指標可能會產生誤導——模型可能會因為預測了某個真實但缺失的事實而受到懲罰。研究人員通過使用篩選指標或專注于知識圖譜中精心策劃的部分來緩解這個問題,但這仍然是一個根本問題:封閉世界假設不成立——知識圖譜中缺少鏈接并不能證明其為假。

知識演進:像 Wikidata 這樣的知識圖譜 (KG) 瞬息萬變(新增實體、新增鏈接)。基準快照很快就會過時。例如,如果在 Wikidata 上評估 QA,如果之后添加了新的事實,答案可能會發生變化。這增加了可重復性的難度,并且需要仔細控制數據集的版本。將基準從一個知識圖譜版本遷移到另一個版本也需要大量人力(例如 QALD-10 遷移到 Wikidata的情況)。

模式與異構性:不同的知識圖譜 (KG) 擁有不同的模式(或者根本沒有模式)。Freebase、Wikidata 和 DBpedia 等不同知識圖譜對知識的編碼方式也各不相同(一個人的配偶在其中一個知識圖譜中可能是直接鏈接,在另一個知識圖譜中可能是帶有限定詞的空白節點,等等)。這使得很難找到一個適用于所有知識圖譜的單一評估協議。即使將 QA 基準從 DBpedia 遷移到 Wikidata,也會因為建模方式的差異(例如 Wikidata 的限定詞系統)而面臨問題。確保一個系統不會因特定知識圖譜的特性而過擬合是一項挑戰。

“知識質量”指標:量化知識圖譜本身的整體質量并非易事。我們可以測量特定任務的查詢答案準確性,但如何衡量知識圖譜 A 是否普遍優于知識圖譜 B?質量維度包括準確性(錯誤事實較少)、完整性、一致性(無邏輯矛盾)和時效性(更新程度)。評估通常側重于某個部分——例如,取 500 個已知的真/假事實,看看哪個知識圖譜是正確的。但考慮到知識的廣度,這種抽樣可能不具代表性。

基準測試落后于研究需求:研究人員有時會發現,現有基準測試未能捕捉到新興需求。例如,許多鏈接預測基準測試被發現存在“測試泄漏”或過于簡單(例如 WN18 和 FB15k 存在冗余,導致它們可以通過簡單的方法解決)。這導致了基準測試的修訂(WN18RR、FB15k-237)。同樣,早期的 QA 基準測試大多包含簡單問題;較新的基準測試則著眼于更復雜的查詢(多跳、聚合),以便更好地對系統進行壓力測試。創建優秀的基準測試是一項持續不斷的努力——例如, ISWC 2023 的LM-KBC 挑戰賽引入了語言模型必須協助知識庫構建的任務,反映了當前的研究前沿。

集成評估:當知識圖譜與機器學習集成時(例如,大型語言模型使用知識圖譜),我們如何評估這個組合系統?除非經過精心設計,否則傳統的指標可能無法體現知識圖譜使用的優勢。目前正在進行一些基準測試,專門測試基于知識的生成(例如,大型語言模型+知識圖譜的系統是否比單獨的大型語言模型更能避免事實錯誤?)。這些基準測試的設計很復雜,因為它們需要領域專家來判斷正確性,而且如果考慮多個知識源,結果可能會比較主觀。

總而言之,雖然知識圖譜存在各種基準測試(Freebase、DBpedia、Wikidata、YAGO 和特定領域基準測試)和指標(MRR、Hits@N、F1、查詢吞吐量等),但必須謹慎解讀結果。知識圖譜的不完整性和模式差異等因素可能會影響評估結果。目前正在持續完善基準測試,例如,從靜態評估轉向動態評估,也就是測試系統隨著知識圖譜的增長而更新的能力,或納入可解釋性指標,也就是系統是否提供了來自知識圖譜的論證。隨著知識圖譜與人工智能的聯系日益緊密,評估也將越來越多地考慮端到端的影響:例如,衡量添加知識圖譜對人工智能應用程序的實際性能或可信度的提升程度,這也可能涉及用戶研究以及技術指標。

責任編輯:龐桂玉 來源: 數據智能驅動
相關推薦

2025-06-03 06:03:06

2025-06-09 03:00:00

人工智能AI知識圖譜

2025-06-06 01:00:00

AI人工智能知識圖譜

2025-06-09 09:10:26

2025-06-05 09:09:50

2025-06-05 02:00:00

人工智能知識圖譜AI

2025-06-03 06:14:37

2020-12-18 11:59:21

人工智能知識圖譜

2021-01-19 10:52:15

知識圖譜

2025-04-27 00:10:00

AI人工智能知識圖譜

2017-03-06 16:48:56

知識圖譜構建存儲

2021-01-25 10:36:32

知識圖譜人工智能

2024-10-12 08:03:25

2017-04-13 11:48:05

NLP知識圖譜

2021-01-18 10:50:29

知識圖譜人工智能深度學習

2024-06-03 07:28:43

2017-10-11 15:00:44

2024-10-08 10:37:12

語言數據自然語言

2021-03-03 14:04:53

人工智能知識圖譜

2018-01-09 08:43:14

圖譜存儲系統
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美中文字幕一区二区 | 欧美电影在线 | 精品美女视频在线观看免费软件 | 五月婷婷色| 国产精品久久久久久久久久久久久 | 久久只有精品 | 奇色影视| 99re在线视频 | av在线播放不卡 | 欧美一区二区视频 | 97国产超碰 | 欧美激情第一区 | 精品一区二区三区四区在线 | 亚洲麻豆| 欧美国产日韩在线观看成人 | 国产一在线 | 偷牌自拍 | 欧美一区二区三区免费电影 | 久久精品一区二区三区四区 | www.一级片 | 男人阁久久 | 91看国产 | 欧美男人的天堂 | 亚洲中午字幕 | 日韩中文一区二区 | 毛色毛片免费看 | 亚洲成人综合社区 | 色欧美综合 | 欧美国产亚洲一区二区 | 日本精品久久久久久久 | 黄网站免费在线 | 亚洲人精品午夜 | 日韩中文欧美 | www.国产一区| 在线观看日韩av | 亚洲成人黄色 | 日韩在线播放第一页 | 成人网视频 | 99精品国产在热久久 | 日本天天操 | 在线播放国产一区二区三区 |