讓智能體像孩子一樣觀察別人學(xué)習(xí)動作,跨視角技能學(xué)習(xí)數(shù)據(jù)集EgoExoLearn來了
在探索人工智能邊界時,我們時常驚嘆于人類孩童的學(xué)習(xí)能力 —— 可以輕易地將他人的動作映射到自己的視角,進而模仿并創(chuàng)新。當(dāng)我們追求更高階的人工智能的時候,無非是希望賦予機器這種與生俱來的天賦。
由上海人工智能實驗室,南京大學(xué),中科院深圳先進技術(shù)研究院牽頭,聯(lián)合東京大學(xué),復(fù)旦大學(xué),浙江大學(xué),中國科學(xué)技術(shù)大學(xué)等高校的學(xué)生和研究者,共同公布了跨視角技能學(xué)習(xí)數(shù)據(jù)集EgoExoLearn,為機器人賦予了通過觀察他人學(xué)習(xí)新動作的能力。
- 論文鏈接:https://arxiv.org/abs/2403.16182
- 代碼與數(shù)據(jù)集鏈接:https://github.com/OpenGVLab/EgoExoLearn
EgoExoLearn 數(shù)據(jù)集獨辟蹊徑,采集了第一視角與第三視角的視頻素材。第一視角視頻捕捉了人們學(xué)習(xí)第三視角演示動作的全過程,這種視角的轉(zhuǎn)換與融合,為機器模擬人類學(xué)習(xí)模式提供了寶貴的數(shù)據(jù)資源。
數(shù)據(jù)集的構(gòu)建不僅涵蓋了日常生活的瑣碎場景,更延伸到了專業(yè)實驗室的復(fù)雜操作。EgoExoLearn 精心收錄了總計 120 小時的視角與示范視頻,旨在讓機器在多種環(huán)境下都能有效學(xué)習(xí)。
除視頻外,研究者還記錄了高質(zhì)量的注視數(shù)據(jù),并輔以詳盡的多模態(tài)標(biāo)注。這些數(shù)據(jù)與標(biāo)注的結(jié)合,構(gòu)建了一個全面模擬人類學(xué)習(xí)過程的平臺,有助于解決機器在不同視角下對異步動作過程的建模難題。
為了全面評估 EgoExoLearn 數(shù)據(jù)集的價值,研究者提出了一系列基準(zhǔn)測試,如跨視角關(guān)聯(lián)、跨視角行動規(guī)劃及跨視角參考技能評估等,并進行了深入的分析。展望未來,EgoExoLearn 將成為跨視角行動橋接的重要基石,為機器人無縫學(xué)習(xí)真實世界中的人類行為提供堅實支撐。
期待 EgoExoLearn 數(shù)據(jù)集能助力 AI 技術(shù)的進一步突破,推動機器人從單純的模仿走向真正的智能,實現(xiàn)與人類社會的和諧共存與共同發(fā)展。
研究背景
從孩童時期開始,人類就具備觀察他人行為并將其映射到自己視角的能力,這種能力在進行高試錯成本的實際操作(如危險化學(xué)實驗)時尤為有益。隨著人工智能系統(tǒng)的最新進展,下一代 AI 智能體將會在更通用的場景中執(zhí)行任務(wù)。
然而,與人類不同,訓(xùn)練這些 AI 智能體通常需要在類似環(huán)境中拍攝的演示視頻作為訓(xùn)練數(shù)據(jù),這些視頻的視角還必須與 AI 智能體一致(例如,第一視角)。盡管有很多工作嘗試了在不同場景中收集此類數(shù)據(jù),對于 AI 智能體來說,直接從不同地點和不同視角拍攝的演示視頻中學(xué)習(xí)仍然至關(guān)重要。實現(xiàn)這一能力可以充分利用大規(guī)模公開教學(xué)視頻數(shù)據(jù)的潛力,并且在人機合作場景中尤其是在新環(huán)境中有巨大作用。
目前朝這個目標(biāo)努力的工作大致可以分為兩個方向。一種是在模擬環(huán)境中學(xué)習(xí)模型,但這些模型在現(xiàn)實世界中的泛化仍然很困難。另一個方向是從現(xiàn)實世界中的人類活動中學(xué)習(xí)。然而,直接結(jié)合現(xiàn)有的多視角數(shù)據(jù)集的嘗試通常會產(chǎn)生質(zhì)量或規(guī)模較差的數(shù)據(jù)集。同時,目前這個方向的少數(shù)現(xiàn)有數(shù)據(jù)集只記錄了在同一環(huán)境和時間同步方式下拍攝的自我中心和外部中心視角視頻。在現(xiàn)實中,跟隨演示時,通常需要橋接在不同地點和不同時間執(zhí)行的一系列程序性動作。目前還沒有可用于探索如何在現(xiàn)實的自我中心和外部中心視角中橋接異步程序性活動的數(shù)據(jù)集。
為了解決數(shù)據(jù)集缺乏問題,研究者提出了 EgoExoLearn,這是一個大規(guī)模數(shù)據(jù)集,包含演示視頻和相應(yīng)的第一視角跟做視頻。其中攝像機佩戴者跟隨演示視頻中的動作,并在不同環(huán)境中執(zhí)行相同任務(wù)。針對日常生活輔助和專業(yè)技能輔助這兩個潛在應(yīng)用,EgoExoLearn 包含了 747 個視頻序列,總時長達 120 小時,涵蓋場景包括日常食物制作和專業(yè)實驗室實驗。值得注意的是,EgoExoLearn 中的第一視角視頻包含了顯示人類執(zhí)行任務(wù)時視覺注意力的眼動信號。這為更好地連接第一視角和第三視角中的行動提供了寶貴的線索。
更進一步,研究者分析了人類的跨視角理解能力,并相應(yīng)地引入了新的任務(wù)和基準(zhǔn),希望這些可以對開發(fā)具有類似能力的下一代具身 AI 智能體起到重要幫助。當(dāng)人類執(zhí)行一個動作時,他 / 她可以將自我中心視角中正在進行的動作與演示中相應(yīng)的動作聯(lián)系起來并進行描述。通過演示視頻中的知識,人類可以知道所需的動作步驟,并預(yù)測下一步應(yīng)該是什么。此外,通過與演示的比較,人類還可以評估自己的技能水平。
基于上述分析,研究者設(shè)計了以下新任務(wù):1) 跨視角關(guān)聯(lián),2) 跨視角動作理解,3) 跨視角參考技能評估,以及 4) 跨視角參考視頻字幕。每個基準(zhǔn)都經(jīng)過精心定義、標(biāo)注,并具體實現(xiàn)了相應(yīng)模型。此外,研究者還首次探索了眼動在這些任務(wù)中的作用。研究者希望這個數(shù)據(jù)集能夠為未來鏈接不同視角中的異步程序性動作的工作提供資源,從而激發(fā)設(shè)計擅長從現(xiàn)實世界人類演示中學(xué)習(xí)并將程序性動作映射到機器人中心視角的 AI 智能體。
數(shù)據(jù)集介紹
場景和任務(wù)
研究者考慮了程序性的目標(biāo)導(dǎo)向任務(wù),這些任務(wù)涵蓋了從日常的食物制作到專業(yè)的實驗室實驗。這種選擇基于它們所體現(xiàn)的兩個未來體現(xiàn)性 AI 代理需要能夠橋接自我 - 外部活動的潛在領(lǐng)域:日常生活輔助和專業(yè)支持。
具體來說,EgoExoLearn 包含了 5 種日常任務(wù)(例如烹飪)和 3 種專業(yè)實驗室任務(wù)(例如固相肽合成)。研究者在 4 個不同的廚房和 3 個不同的實驗室中錄制了自我中心視角的視頻。下表顯示了每個任務(wù)的視頻數(shù)量以及平均視頻長度。
數(shù)據(jù)收集流程
在每次收集開始之前,參與者需要完成一份問卷,收集基本的人口統(tǒng)計信息以及他們自我評估的執(zhí)行指定任務(wù)的專長。然后在每次錄制中,參與者將被要求從提供的列表中選擇一個或幾個外部中心視角的演示視頻,并仔細(xì)學(xué)習(xí)詳細(xì)的程序。一旦準(zhǔn)備好了,他們將戴上 Pupil Invisible Glasses,完成眼動校準(zhǔn),并開始復(fù)制演示視頻中執(zhí)行的任務(wù)。雖然不鼓勵,但參與者在錄制過程中被允許重新觀看演示視頻。在每次錄制之后,參與者被要求重新進行眼動校準(zhǔn),以確保眼動數(shù)據(jù)的準(zhǔn)確性。對于 5 個日常任務(wù),外部中心演示視頻是手動從 YouTube 等在線視頻平臺策劃的。對于實驗室實驗,外部中心演示視頻是由資深實驗室成員錄制的教程。
數(shù)據(jù)集標(biāo)注與統(tǒng)計
為了促進本文數(shù)據(jù)集在開發(fā)能夠有效彌合自我和外部視角之間差距的算法方面,研究者提供了詳細(xì)的多模態(tài)人類標(biāo)注。粗略級別的語言標(biāo)注、細(xì)致級別的語言標(biāo)注、翻譯與解析、技能水平標(biāo)注。據(jù)了解,目前還沒有與本文設(shè)置相同、可以直接比較的數(shù)據(jù)集。因此,研究者在下表中列舉了本文數(shù)據(jù)集的各個方面,并與相關(guān)數(shù)據(jù)集進行了比較分析。EgoExoLearn 以其「視覺演示跟隨」設(shè)置獨特地豐富了該領(lǐng)域。除了這一獨特設(shè)置之外,它還是第一個包括時間限定的語言字幕、標(biāo)注的跨視角關(guān)聯(lián)和多標(biāo)簽視頻片段的自我中心數(shù)據(jù)集。同其他第一視角視頻數(shù)據(jù)集的對比如下:
新基準(zhǔn) Benchmarks
為了評估連接異步的第一視角 - 第三視角程序性動作的能力,研究者引入了 4 個新的基準(zhǔn) benchmark,如下圖所示:
1) 跨視角關(guān)聯(lián) (cross-view association),探究模型有沒有將不同視角的相同動作聯(lián)系起來的能力,分為 Ego2Exo 和 Exo2Ego 兩個設(shè)定。在(ego2exo)的情況下,給定一個自我中心視頻,模型需要從一組候選的外部中心樣本中預(yù)測出執(zhí)行相同動作的相應(yīng)外部中心視頻。這里考驗了模型對單一視角動作的理解能力,還考驗了模型在跨視角情境下的泛化能力和預(yù)測準(zhǔn)確性。基線模型與結(jié)果如下:
2) 跨視角動作理解 (cross-view action understanding),細(xì)分為三個子任務(wù):跨視角動作預(yù)測、跨視角動作規(guī)劃和跨視角動作分割。此外,研究者還探索了注視點(gaze)在協(xié)助這些任務(wù)中的作用。下圖是四種訓(xùn)練設(shè)定與基線模型性能:
3) 跨視角參考技能評估 (cross-view referenced skill assessment) 主要目標(biāo)是評估第一視角操作者的技能水準(zhǔn)。研究者引入了第三視角的專家操作視頻作為參考,通過與參考視頻的對比,技能評估可以變得更加準(zhǔn)確。基線模型與結(jié)果如下圖所示:
4) 跨視角參考視頻描述 (cross-view referenced captioning)。使用另一個視角的視頻作為參考,此項任務(wù)旨在提高模型利用跨視角參考而更好的進行視頻描述的能力。模型設(shè)計和基線性能如下:
結(jié)論
對于下一代具身智能在現(xiàn)實世界中執(zhí)行復(fù)雜任務(wù)而言,能夠連接第一和第三視角中的異步程序性動作的能力是必不可少的。作為一個基礎(chǔ)步驟,EgoExoLearn 包含了豐富的第一視角視頻,其中每個視頻都是在跟隨第三視角演示視頻的程序時拍攝的。這種現(xiàn)實的設(shè)置,結(jié)合多模態(tài)人工高質(zhì)量標(biāo)注,能夠構(gòu)建 4 個新穎的基準(zhǔn)測試。而這些基準(zhǔn)作為一個多功能的平臺,可以被用于研究如何橋接跨視角的異步活動。EgoExoLearn 還可以促進新的研究方向,例如如何更好地利用注視和與手相關(guān)的標(biāo)注?;鶞?zhǔn)測試的結(jié)果表明,當(dāng)前模型在連接第一和第三視角的異步活動方面尚有不足,未來還有顯著的改進空間。