成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

中山大學(xué)發(fā)布無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集,論文登上頂刊TNNLS

新聞 人工智能
近期,中山大學(xué)發(fā)布了基于常識(shí)的無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集 (Knowledge-Routed Visual Question Reasoning,KRVQA)。

 近期,中山大學(xué)發(fā)布了基于常識(shí)的無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集 (Knowledge-Routed Visual Question Reasoning,KRVQA)。由于自然語(yǔ)言與標(biāo)注者中自然存在的偏差,現(xiàn)有的算法能夠通過(guò)擬合數(shù)據(jù)集內(nèi)的這些偏差達(dá)到很好的效果,而不需要理解對(duì)應(yīng)的文字和圖像信息。相關(guān)論文發(fā)表在國(guó)際知名頂級(jí)期刊 TNNLS 上。

在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)領(lǐng)域,已經(jīng)有工作開始探索基于常識(shí)的閱讀理解和視覺(jué)問(wèn)答問(wèn)題。這類問(wèn)題要求算法需要額外的常識(shí)才能給出答案。但現(xiàn)有的常識(shí)視覺(jué)問(wèn)答數(shù)據(jù)集大多是人工標(biāo)注的,并沒(méi)有基于合適的知識(shí)或情感表達(dá)進(jìn)行構(gòu)建。這不僅導(dǎo)致常識(shí)的分布相當(dāng)稀疏,容易產(chǎn)生解釋的二義性,同時(shí)還容易引入標(biāo)注者偏差,使得相關(guān)算法仍在關(guān)注于增加神經(jīng)網(wǎng)絡(luò)的表達(dá)能力以擬合問(wèn)題和答案之間的表面聯(lián)系。

針對(duì)此問(wèn)題,研究者提出了新的基于知識(shí)路由的視覺(jué)推理數(shù)據(jù)集 (Knowledge-Routed Visual Question Reasoning,KRVQA),該數(shù)據(jù)集基于現(xiàn)有的多個(gè)公開知識(shí) / 常識(shí)圖譜中與現(xiàn)有圖像場(chǎng)景圖 (scene graph) 相關(guān)的部分,通過(guò)預(yù)先定義的規(guī)則搜索圖譜中的推理路徑,并生成大規(guī)模無(wú)偏差的問(wèn)答和推理標(biāo)注。如圖 1 所示,該數(shù)據(jù)集避免現(xiàn)有數(shù)據(jù)驅(qū)動(dòng)的深度模型通過(guò)過(guò)擬合得到高準(zhǔn)確率,推動(dòng)視覺(jué)問(wèn)答模型正確感知圖像中的視覺(jué)對(duì)象,理解問(wèn)題并整合對(duì)象之間的關(guān)系和相應(yīng)常識(shí)回答問(wèn)題。

中山大學(xué)發(fā)布無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集,論文登上頂刊TNNLS

圖 1:KRVQA 測(cè)試基準(zhǔn)的樣例示意。

具體而言,基于通過(guò)生成推理路徑,從圖像場(chǎng)景圖或知識(shí)庫(kù)中選擇一個(gè)或兩個(gè)三元組進(jìn)行多步推理,并通過(guò)約束使用的三元組,將知識(shí)從其他偏差中分離出來(lái),并平衡答案的分布,避免答案歧義。兩個(gè)主要的約束為:

1. 一個(gè)問(wèn)題必須與知識(shí)庫(kù)中的多個(gè)三元組相關(guān),但僅有一個(gè)三元組與圖像相關(guān)。

2. 所有的問(wèn)題都基于不同的知識(shí)庫(kù)三元組,但訓(xùn)練集和測(cè)試集擁有相同的候選答案集合。

約束 1 能強(qiáng)制視覺(jué)問(wèn)答模型正確地感知圖像,而不能僅僅根據(jù)給定的問(wèn)題猜測(cè)知識(shí)。約束 2 則能避免現(xiàn)有方法通過(guò)訓(xùn)練集中的樣本來(lái)擬合知識(shí)庫(kù),強(qiáng)制模型通過(guò)外部知識(shí)來(lái)處理未見過(guò)的問(wèn)題,促進(jìn)模型在泛化性上的研究。

研究者對(duì)各種知識(shí)庫(kù)編碼方法和最新視覺(jué)問(wèn)答模型進(jìn)行了大量實(shí)驗(yàn),結(jié)果表明,在給定知識(shí)庫(kù)的情況下,是否給定問(wèn)題相關(guān)的三元組的兩張情況間仍然會(huì)存在較大的差距。這說(shuō)明提出的 KRVQA 數(shù)據(jù)集能很好體現(xiàn)現(xiàn)有深度模型在知識(shí)推理問(wèn)題上的不足。

KRVQA 數(shù)據(jù)集

該數(shù)據(jù)集基于從自然圖像場(chǎng)景圖和外部知識(shí)庫(kù)中提取的一個(gè)或兩個(gè)三元組,組成推理結(jié)構(gòu),并以該結(jié)構(gòu)為基礎(chǔ)通過(guò)模板構(gòu)建問(wèn)題答案對(duì)。

給定一個(gè)圖像,研究者首先合并其場(chǎng)景圖和外部知識(shí)庫(kù)以形成和圖像相關(guān)的知識(shí)圖。該數(shù)據(jù)集利用現(xiàn)有的公開標(biāo)注數(shù)據(jù)構(gòu)建數(shù)據(jù)集,包括使用 Visual Genome 數(shù)據(jù)集中圖像場(chǎng)景圖標(biāo)注以獲得圖像中的所有對(duì)象 / 關(guān)系三元組, 使用 WebChild、ConceptNet、DBpedia 等一般常識(shí)知識(shí)庫(kù)獲取圖像信息以外的常識(shí)三元組。場(chǎng)景圖和知識(shí)庫(kù)中的三元組都包含一個(gè)主語(yǔ)、一個(gè)關(guān)系和一個(gè)賓語(yǔ)共三個(gè)項(xiàng)。如果圖像場(chǎng)景圖中的物體和知識(shí)庫(kù)某個(gè)三元組中一項(xiàng)的名稱相同,這兩項(xiàng)就將合并。在合并所有名稱相同的項(xiàng)之后,可以得到一個(gè)與圖像相關(guān)的知識(shí)圖。研究者利用其中包含的三元組來(lái)生成復(fù)雜的問(wèn)題——答案對(duì)。

然后從圖中提取一條路徑并根據(jù)路徑提出一階或二階問(wèn)題。推理路徑的提取由一組層級(jí)化的基本查詢的構(gòu)建。一個(gè)基本查詢將告知模型在已知主語(yǔ) A,賓語(yǔ) B 和關(guān)系 R 中的其中兩個(gè)時(shí),需要去哪個(gè)信息源取出第三個(gè)信息。例如,表示需要模型從知識(shí)庫(kù)中找到包括主語(yǔ) A 和賓語(yǔ) B 的三元組,并將三元組的關(guān)系 R 取出作為輸出。有如下 6 個(gè)基本查詢:

中山大學(xué)發(fā)布無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集,論文登上頂刊TNNLS

:給定主語(yǔ) A 和賓語(yǔ) B,從圖像中獲得它們的關(guān)系 R。

中山大學(xué)發(fā)布無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集,論文登上頂刊TNNLS

:給定主語(yǔ) A 和關(guān)系 R,從圖像中獲得賓語(yǔ) B。

中山大學(xué)發(fā)布無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集,論文登上頂刊TNNLS

:給定賓語(yǔ) B 和關(guān)系 R,從圖像中獲得主語(yǔ) A。

中山大學(xué)發(fā)布無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集,論文登上頂刊TNNLS

:給定主語(yǔ) A 和賓語(yǔ) B,從知識(shí)庫(kù)中獲得它們的關(guān)系 R。

中山大學(xué)發(fā)布無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集,論文登上頂刊TNNLS

:給定主語(yǔ) A 和關(guān)系 R,從知識(shí)庫(kù)中獲得賓語(yǔ) B。

中山大學(xué)發(fā)布無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集,論文登上頂刊TNNLS

:給定賓語(yǔ) B 和關(guān)系 R,從知識(shí)庫(kù)中獲得主語(yǔ) A。

通過(guò)將每個(gè)基本查詢的輸出作為下個(gè)基本查詢的輸入,便可以組成問(wèn)題的層次化推理結(jié)構(gòu),并作為標(biāo)注信息。例如,“What is the object that is on the desk used for?”的需要從圖像中查詢得知是什么在桌子上,并在給定前一步查詢得到的物體 A 和關(guān)系 “UsedFor” 的情況下,從知識(shí)庫(kù)中得到桌子上的物體的用處。

最終,根據(jù)提取的三元組和模板,例如 “(man, holds, umbrella)” 和模板 “what is <A> <R>? <B>” 生成問(wèn)題答案對(duì)“what is the man holding?Umbrella”。

中山大學(xué)發(fā)布無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集,論文登上頂刊TNNLS

表 2 不同問(wèn)題類型及對(duì)應(yīng)模板實(shí)例

數(shù)據(jù)集的統(tǒng)計(jì)特性

數(shù)據(jù)集總共包括 32910 個(gè)圖像,193449 個(gè)知識(shí)三元組和 157201 個(gè)問(wèn)題答案對(duì)。其中包括 68448 個(gè)一步推理問(wèn)題和 88753 個(gè)二步推理問(wèn)題,以及 87193 個(gè)外部知識(shí)相關(guān)問(wèn)題和 70008 個(gè)外部知識(shí)無(wú)關(guān)問(wèn)題。

知識(shí)庫(kù)無(wú)關(guān)的問(wèn)題中,候選答案的數(shù)量為 2378。候選答案出現(xiàn)的頻次在數(shù)據(jù)集中表現(xiàn)出了長(zhǎng)尾分布。這使得模型必須準(zhǔn)確解析圖像,找出物體和它們的關(guān)系以正確處理圖像中顯著性不高的物體。知識(shí)庫(kù)相關(guān)的問(wèn)題中,候選答案的數(shù)量為 6536,研究者通過(guò)限制每個(gè)答案的最大出現(xiàn)次數(shù),使得知識(shí)庫(kù)相關(guān)的問(wèn)題的答案分布均勻,避免模型擬合知識(shí)庫(kù)。驗(yàn)證和測(cè)試集中 97% 的答案存在于訓(xùn)練集中,使得之前基于分類的視覺(jué)問(wèn)答方法也能應(yīng)用在該數(shù)據(jù)集上。

中山大學(xué)發(fā)布無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集,論文登上頂刊TNNLS

圖 2 知識(shí)相關(guān)問(wèn)題的答案分布

中山大學(xué)發(fā)布無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集,論文登上頂刊TNNLS

圖 3 知識(shí)無(wú)關(guān)問(wèn)題的答案分布

實(shí)驗(yàn)

研究者通過(guò)評(píng)估多個(gè)最新視覺(jué)問(wèn)答模型的性能以及包括知識(shí)圖嵌入和問(wèn)題編碼器預(yù)訓(xùn)練等各種知識(shí)嵌入方法,以檢驗(yàn)提出的 KRVQA 數(shù)據(jù)集的性質(zhì)。其中視覺(jué)問(wèn)答模型包括:

  • Q-type。對(duì)于每個(gè)問(wèn)題,使用其問(wèn)題類型中最頻繁的訓(xùn)練答案作為輸出答案。
  • LSTM。使用雙向 LSTM 對(duì)問(wèn)題進(jìn)行編碼。并僅用問(wèn)題編碼預(yù)測(cè)最終答案。
  • 推理路徑預(yù)測(cè)。使用雙向 LSTM 對(duì)問(wèn)題進(jìn)行編碼,并以全監(jiān)督方式訓(xùn)練和預(yù)測(cè)推理路徑和問(wèn)題類型,以此從場(chǎng)景圖和知識(shí)庫(kù)中檢索正確答案。
  • Bottom-up attention。該方法取得了 2017 年視覺(jué)問(wèn)答挑戰(zhàn)賽的第一名方法。具有視覺(jué)問(wèn)答模型的經(jīng)典架構(gòu)。
  • MCAN。模塊化共同注意網(wǎng)絡(luò)(MCAN)為目前在 VQAv2 數(shù)據(jù)集上不使用額外數(shù)據(jù)得到最高的性能的方法,同時(shí)具有與在各種視覺(jué)語(yǔ)言任務(wù)上預(yù)訓(xùn)練的最新模型相似的網(wǎng)絡(luò)架構(gòu)結(jié)構(gòu)。
中山大學(xué)發(fā)布無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集,論文登上頂刊TNNLS

表 2 不同視覺(jué)問(wèn)答方法在 KRVQA 上的準(zhǔn)確率

如表 2 所示,基線方法 「Q-type」和「LSTM」僅根據(jù)問(wèn)題預(yù)測(cè)答案,準(zhǔn)確率大幅低于其他方。所有的方法在兩步問(wèn)題上的表現(xiàn)都與一步問(wèn)題有較大差距,在知識(shí)相關(guān)問(wèn)題上的準(zhǔn)確率也更低。這些結(jié)果表明,KRVQA 數(shù)據(jù)集中的問(wèn)題需要結(jié)合圖像上下文和知識(shí)進(jìn)行推理回答,多跳推理對(duì)現(xiàn)有方法仍具有挑戰(zhàn)性。

知識(shí)編碼與預(yù)訓(xùn)練

通過(guò)在整個(gè)知識(shí)庫(kù)上訓(xùn)練,RotatE 可以對(duì)知識(shí)庫(kù)中所有的實(shí)體和關(guān)系進(jìn)行編碼,使得針對(duì)三元組有。研究者使用 RotatE 對(duì)知識(shí)庫(kù)三元組編碼,并與 VQAv2 數(shù)據(jù)集上的效果最好之一的 MCAN 基線模型融合,如圖 4 所示。

中山大學(xué)發(fā)布無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集,論文登上頂刊TNNLS

圖 4 嵌入知識(shí)庫(kù)編碼的 MCAN 模型

最近的研究表明,通過(guò)對(duì)大量文本的訓(xùn)練,語(yǔ)言模型可以在一定程度上對(duì)知識(shí)進(jìn)行編碼。受此啟發(fā),研究者同樣在知識(shí)文本上預(yù)訓(xùn)練問(wèn)題編碼器,對(duì)知識(shí)進(jìn)行隱式編碼。具體地說(shuō),MCAN 的自注意問(wèn)題編碼器將知識(shí)三元組的對(duì)應(yīng)文本作為輸入,然后如圖 5 所示預(yù)測(cè)被掩蓋的文本字符或相應(yīng)的知識(shí)三元組。

中山大學(xué)發(fā)布無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集,論文登上頂刊TNNLS

圖 5 用以隱式編碼知識(shí)庫(kù)的預(yù)訓(xùn)練任務(wù)示意

在表三上所示的 KRVQA 結(jié)果顯示,在給定標(biāo)定的三元組或查詢實(shí)體時(shí),模型能大幅提高在知識(shí)相關(guān)問(wèn)題上的結(jié)果。而在給定除查詢實(shí)體外的標(biāo)定三元組 “+knowledge inference” 時(shí),由于一副圖像可能對(duì)應(yīng)多個(gè)知識(shí)三元組,模型在推理圖像答案時(shí)僅僅取得了少量提高。兩個(gè)預(yù)訓(xùn)練任務(wù)則僅僅相對(duì)基線方法有稍微的提高。這顯示了 KRVQA 中知識(shí)庫(kù)的重要性,同時(shí)說(shuō)明當(dāng)前模型在正確感知圖像內(nèi)容以及編碼知識(shí)庫(kù)上的不足。

中山大學(xué)發(fā)布無(wú)偏視覺(jué)問(wèn)答數(shù)據(jù)集,論文登上頂刊TNNLS

表 3 不同知識(shí)庫(kù)編碼方法與 MCAN 基線方法的準(zhǔn)確率

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2024-04-11 07:09:43

大模型人工智能AI

2009-05-19 11:46:21

2020-11-05 16:21:15

中山大學(xué)

2015-07-28 17:30:20

徐亞波

2014-11-13 10:17:30

中山大學(xué)新炬網(wǎng)絡(luò)學(xué)院大數(shù)據(jù)技術(shù)

2021-11-16 15:37:43

AI 數(shù)據(jù)人工智能

2024-01-12 13:10:06

AI數(shù)據(jù)

2016-12-24 00:08:11

教育信息化

2016-07-15 09:53:27

太一星晨

2022-11-04 17:02:31

AI模型

2024-12-20 09:39:05

2024-01-29 06:40:00

AI模型

2015-11-18 17:12:25

太一星晨/應(yīng)用交付

2022-11-18 18:39:03

AI神經(jīng)網(wǎng)絡(luò)

2023-03-14 14:06:52

訓(xùn)練模型

2024-03-28 13:19:05

AI數(shù)據(jù)

2012-05-17 09:30:33

Power系統(tǒng)教育云Power Dream

2024-02-29 13:55:00

模型訓(xùn)練

2023-08-22 13:20:00

模型訓(xùn)練

2015-10-15 19:23:29

負(fù)載均衡應(yīng)用交付太一星晨
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 福利影院在线看 | 亚洲精品亚洲人成人网 | 亚洲一区二区免费视频 | 国产成人精品a视频 | 日日操夜夜操天天操 | www.亚洲| 91精品国产综合久久精品 | 午夜免费福利影院 | 久久久.com | 激情欧美一区二区三区中文字幕 | 亚州精品天堂中文字幕 | 一区二区三区四区在线免费观看 | 激情欧美一区二区三区中文字幕 | 久久精品亚洲精品国产欧美 | 欧美激情久久久 | 精品国产一区二区三区四区在线 | 久久久久无码国产精品一区 | 亚洲精品视频免费观看 | 91性高湖久久久久久久久_久久99 | av中文字幕在线播放 | 国产又爽又黄的视频 | 精品免费视频一区二区 | 久久国产一区二区 | 国产丝袜一区二区三区免费视频 | 亚洲三级国产 | 雨宫琴音一区二区在线 | 午夜免费| 久久99蜜桃综合影院免费观看 | 欧美在线色 | 91极品尤物在线播放国产 | 天天干夜夜操 | 美女一区 | 香蕉久久久久久 | 久久一| 一本色道精品久久一区二区三区 | 欧美精品一区二区三区四区 在线 | 欧美一区二区三区在线观看视频 | 成人精品一区亚洲午夜久久久 | 另类专区成人 | 欧美精品久久久久久 | 成人视屏在线观看 |