從視音角度看多模態學習的過去與未來
視覺和聽覺在人類的溝通和場景理解中至關重要。為了模仿人類的感知能力,旨在探索視音模態的視音學習在近些年來已成為一個蓬勃發展的領域。本文是對由中國人民大學高瓴人工智能學院GeWu-Lab聯合德克薩斯州大學達拉斯分校以及西北工業大學共同發布的最新視音學習綜述《Learning in Audio-visual Context: A Review, Analysis, and New Perspective》的解讀。
該綜述首先分析了視音模態的認知科學基礎,進而對近來的視音學習工作(近三百篇相關文獻)進行了系統性的分析總結。最后,為了縱觀當前的視音學習領域,該綜述從視音場景理解的角度重新回顧了近年的視音學習進展,并探討了該領域潛在的發展方向。
arXiv鏈接:https://arxiv.org/abs/2208.09579
項目主頁:https://gewu-lab.github.io/audio-visual-learning/
awesome-list鏈接:https://gewu-lab.github.io/awesome-audiovisual-learning/
1 引言
視覺和聽覺信息是人類感知外部世界的主要信息來源。人類的大腦通過整合異質的多模態的信息獲得對周遭環境的整體認知。例如,在具有多個說話人的雞尾酒會場景中,我們能夠借助唇形的變化加強接收到的感興趣的說話人的語音。因此,視音學習對于類人機器感知能力的探索是不可或缺的。相比于其他模態,視音模態的特性使其與眾不同:
1)認知基礎。作為研究最廣泛的兩種感官,視覺和聽覺的整合遍布在人類的神經系統中。一方面,這兩種感官在人類感知中的重要性為基于視音數據的機器感知研究提供了認知基礎,另一方面,視覺和聽覺在神經系統中的交互與整合能夠作為促進視音學習的依據。
2)多重一致性。在我們的日常生活中,視覺和聽覺緊密關聯。如圖1所示,狗的叫聲和它的外表都能讓我們與“狗”這一概念聯系起來(語義一致性)。同時,我們可以借助聽到的聲音或視覺來確定狗的確切空間位置(空間一致性)。而當聽到狗叫時,我們通常可以同時在視覺上看到狗(時序一致性)。視覺和聽覺之間的多重一致性是視音學習的研究基礎。
3)豐富的數據支持。移動終端和互聯網的快速發展促使越來越多的人在公共平臺上分享視頻,這使得收集視頻的成本降低。這些豐富的公開視頻緩解了數據獲取的障礙,為視音學習提供了數據支持。
視音模態的這些特點自然而然促使了視音學習領域的誕生。近年來,這一領域已經取得了蓬勃發展,研究者們已經不滿足于簡單地將額外模態引入原有的單模態任務,開始探索并解決新的問題和挑戰。
但是,現有的視音學習工作通常是任務導向的。在這些工作中,他們關注于特定的視音任務。當前仍然缺乏能夠系統性回顧和分析視音學習領域發展的綜述性工作。因此,該文章對目前的視音學習領域進行了總結,然后進一步展望了其潛在的發展方向。
由于視音學習和人類感知能力之間存在著緊密的聯系,該文章首先總結了視覺和聽覺模態的的認知基礎,進而在此基礎上,將現有的視音學習研究分為三類:
1)視音提升(Audio-visual Boosting)。視覺和音頻數據各自已經有很長的研究歷史和廣泛的應用。盡管這些單模態方法已經取得了相當有效的結果,但是他們僅僅利用了所關注事物的部分信息,單模態方法的表現是受限的,并且容易受到單模態噪聲的影響。因此,研究者們將額外模態引入這些音頻或視覺任務中,不僅通過整合互補信息提升了模型效果,而且促進了模型的魯棒性。
2)跨模態感知(Cross-modal Perception)。人類聽到聲音就能聯想到相關的畫面,看到畫面也可以想起與之匹配的聲音,這是因為視覺和聽覺信息具有一致性。該一致性為機器進行跨模態知識遷移或根據某一模態信息生成對應的另一模態數據提供了基礎。因此,很多研究致力于跨模態感知能力的探索,并取得了顯著成果。
3)視音協作(Audio-visual Collaboration)。除了融合不同模態的信號之外,在人腦的皮質區域存在更高級的模態間交互,以達到更深層次的場景理解。因此,類人感知能力需要對視音模態的協作進行探索。為了達到這一目標,近年來很多研究提出了更具挑戰性的場景理解問題,獲得了廣泛關注。
圖1:視音一致性與視音學習領域概覽
視音模態之間涵蓋語義,空間和時序的一致性為以上視音研究提供了可行性。因此,本文在總結了近來的視音研究之后,對視音的多重一致性進行了分析。此外,本文從視音場景理解的新視角,再次回顧了視音學習領域的進展。
2 視音認知基礎
視覺和聽覺是人類場景理解的兩個核心感官。這一章節總結了認知神經科學中視覺和聽覺感官的神經通路及視音模態的整合,為接下來對視音學習領域研究的討論奠定基礎。
2.1 視覺和聽覺的神經通路
視覺是研究最廣泛的感官,有些觀點甚至認為它主導了人類的感知。相應地,視覺的神經通路也比較復雜。來自物體的反射光包含視覺信息,它激活了視網膜上眾多的光感受器(約2.6億個)。光感受器的輸出被送到神經節細胞中(約200萬個)。這一過程壓縮了視覺信息。而后,經過外側膝狀核細胞的處理,視覺信息最終到達大腦皮層的視覺相關區域。視覺皮層是一個具有功能差異的不同區域的組合,其視覺神經元具有偏好性。例如,V4和V5的神經元分別對顏色和運動敏感。
除了視覺,聽覺也是觀察周圍環境的一個重要感官。它不僅能提醒人類規避風險(例如當聽到野獸的叫聲時,人類會主動采取行動),也是人們相互交流的基礎。聲波在耳膜上被轉化為神經元信號。然后,聽覺信息被輸送到腦干的下丘和耳蝸核。經過丘腦內側膝狀核的處理,聲音最終在初級聽覺皮層被編碼。大腦獲取聽覺信息,然后利用其中蘊含的聲音線索,如頻率和音色,來確定聲源的身份。同時,兩只耳朵之間的強度和聽覺間的時間差異為聲音的位置提供線索,這被稱為雙耳效應。在實踐中,人類的感知可以結合多種感官,尤其是聽覺和視覺,這被稱為多通道知覺。
2.2 認知神經科學中的視音整合
每種感官都提供關于周圍環境的獨特信息。盡管多種感官接收的信息是不同的,但由此產生的環境表征是統一的體驗,而非互不相干的感覺。
一個代表性的例子是麥格克效應:語義不同的視覺信號和聽覺信號得到了單一語義的信息。這些現象表明在人類的感知中,來自多種感官的信號通常被整合。其中,聽覺和視覺的神經通路的交叉結合了人類兩種重要感官的信息,促進了知覺的敏感性和準確性,例如,與聲音有關的視覺信息能夠提高聽覺空間的搜索效率。
這些結合多種感官信息的感知現象在認知神經科學領域引起了人們的關注。人類的神經系統中一個被充分研究的多通道感知區域是上丘。上丘的許多神經元具有多感官特性,可以被來自視覺、聽覺、甚至觸覺的信息激活。這種多感官反應往往比單一的反應更強。皮質中的顳上溝是另一個代表性區域。
根據對猴子的研究,它被觀察到與多種感官的連接,包括視覺、聽覺和體感。更多的大腦區域,包括頂葉、額葉和海馬體,都表現出類似的多通道知覺現象。根據對于多通道知覺現象的研究,我們可以觀察到幾個關鍵發現:
1)多模態提升。如上所述,許多神經元可以對多種感官的融合信號作出反應,當單一感官的刺激較弱時,這種增強的反應比單模態的反應更可靠。
2)跨模態可塑性。這種現象是指剝奪一種感官能夠影響其對應的皮質區域的發展。例如,聾人的聽覺相關皮層有可能被視覺刺激所激活。
3)多模態協作。不同感官的信號在皮層區域有更復雜的整合。研究人員發現,大腦皮層存在具有以協作方式整合多感官信息能力的模塊,以建立意識和認知。
受人類認知的啟發,研究人員已經開始研究如何實現類人的視音感知能力,更多的視音研究在近些年逐漸涌現。
3 視音提升
盡管各個模態本身已經有較為充分的可供學習的信息,并且已經存在許多基于單模態數據的任務,但是單模態數據只提供了局部信息,并且對單模態噪聲較為敏感(例如,視覺信息受光照,視角等因素影響)。因此,受人類認知中多模態提升現象的啟發,一些研究者在原有的單模態任務中引入額外的視覺(或音頻)數據,以增進任務表現。我們將相關任務分為識別和增強兩大部分。
單模態識別任務在過去已經被廣泛研究,例如基于音頻的語音識別以及基于視覺的動作識別。但是,單模態數據只觀察到了事物的部分信息,并且易受單模態噪聲影響。因而,整合多模態數據以促進模型的能力和魯棒性的視音識別任務在近年來引起了關注,并涵蓋了語音識別、說話人識別、動作識別和情感識別等多個方面。
視音模態的一致性不僅為多模態識別任務提供了基礎,還使得用借助某一模態增強另一模態信號成為可能。例如,多個說話人在視覺上是分離的,因此說話人的視覺信息可以用于輔助語音分離。此外,音頻信息能夠為重建被遮蓋或缺失的說話人面部信息提供性別、年齡等身份信息。這些現象已經啟發研究者借助其他模態的信息進行去噪或增強,例如語音增強,聲源分離及面部超分重建。
圖2:視音提升任務
4 跨模態感知
認知神經科學中的跨模態可塑性現象以及視音模態之間的一致性促進了跨模態感知的研究,其目的在于學習并建立音頻和視覺模態之間的關聯,促使了跨模態生成、遷移和檢索等任務的產生。
人類具有在已知模態的指導下預測另一種模態對應的信息的能力。例如,在聽不到聲音的情況下,只要看到嘴唇運動的視覺信息,我們就能大致推斷出這個人在說什么。音頻和視覺之間在語義,空間和時序多方面的一致性為機器擁有類人的跨模態生成能力提供了可能。跨模態生成任務目前已經涵蓋了包括單通道音頻生成、立體聲生成、視頻/圖像生成以及深度估計在內的多個方面。
除跨模態生成以外,視音之間在語義上的一致性表明,一種模態的學習有望得到來自另一模態的語義信息的幫助。這也是視音遷移任務的目標。另外,視音的語義一致性也促進了跨模態信息檢索任務發展。
圖3:跨模態感知相關任務
5 視音協作
人腦會對接收到的場景的視聽信息進行整合,使之相互協作、互為補充,從而提升對場景的理解能力。因此,機器有必要通過探索視聽協作來追求類似人類的感知,而不僅僅是融合或預測多模態信息。為了這一目標,研究者們在視音學習領域引入了包括視音成分分析和視音推理在內的多種新的挑戰。
在進行視音協作之初,如何在沒有人類注釋的情況下有效地從視音模態中提取表征,是一個重要的課題。這是因為高質量的表征可以為各種下游任務做出貢獻。對于視聽數據來說,它們之間在語義,空間以及時序上的一致性,為以自監督方式學習視音表征提供了天然的信號。
除了表征學習外,視音模態之間的協作主要聚焦在場景理解方面。一些研究者聚焦于對場景中視音成分的解析與定位,包括聲源定位,視音顯著性檢測,視音導航等。這類任務建立了細粒度的視音模態之間的聯系。
除此之外,在許多視音任務中,我們往往假定整個視頻中的視音內容在時間上一直是匹配的,也就是說,在視頻的每個時刻,畫面和聲音均具有一致性。但實際上,這一假設并非能夠時刻成立。例如,在“打籃球”的樣本中,攝像機有時會拍攝觀眾席等和“打籃球”這一標簽無關的場景。因此,視音事件定位與解析這一類任務被提出以在時序上進一步對場景中的視音成分進行剝離。
人類在視音場景中能夠在感知之外進一步進行推斷。雖然以上的視音協作任務逐步達到了對視音場景細粒度的理解,卻并未進行對視音成分的進行推理分析。近來,隨著視音學習領域的發展,一些研究者開始進一步關注視音推理,例如視音問答和對話任務。這些任務旨在通過對視音場景進行跨模態時空推理,回答與場景有關的問題,或者就所觀察到的視音場景生成對話。
圖4:視音協作相關任務
6 代表性數據集
本部分梳理討論了視音學習領域的一些具有代表性的數據集。
7 趨勢和新視角
7.1 語義,空間和時序一致性
盡管視音模態具有異質的數據形式,它們的內在一致性涵蓋了語義,空間和時序多個方面,為視音研究奠定了基礎。
首先,視覺和音頻模態從不同的角度描繪了所關注的事物。因此,視音數據的語義被認為是語義一致的。在視音學習中,語義一致性在大多數任務中起著重要作用。例如,這種一致性使得結合視音信息以獲得更好的視音識別和單模態增強效果成為可能。此外,視音模態之間的語義一致性在跨模態檢索和遷移學習中也起著重要作用。
其次,視覺和音頻都可以幫助確定發聲對象的確切空間位置。這種空間上的對應關系也有廣泛的應用。例如,在聲源定位任務中,這種一致性被用來在輸入音頻的指導下確定發聲物體的視覺位置。在立體聲情況下,能夠基于雙耳音頻估計視覺深度信息或利用視覺信息為輔助生成立體聲音頻。
最后,視覺內容和其產生的聲音通常在時序上是一致的。這種一致性在大多數視音學習研究中也被廣泛利用,比如在視音識別或生成任務中融合或預測多模態信息。
在實踐中,這些不同的視音一致性不是孤立的,而是經常共同出現在視音場景中。因此,它們往往在相關任務中被共同利用。語義和時序一致性的結合是最常見的情況。
在簡單場景下,處于相同時間戳的視音片段被認為在語義和時序上都是一致的。然而,這種較強的假設可能會失敗,例如,視頻畫面和同一時間戳的背景音并非語義一致。這些假陽性對訓練帶來了干擾。
最近,研究人員已經開始關注這些情況以提高場景理解的質量。此外,語義和空間一致性的結合也很常見。例如,視頻中聲源定位的成功依賴于語義一致性以根據輸入的聲音探索對應的視覺上的空間位置。此外,在視音導航任務的早期階段,發聲目標會產生一個穩定的重復的聲音。雖然空間一致性得到了滿足,但視覺和音頻中的語義內容是不相關的。隨后,聲音和發聲位置的語義一致性被引入,以提高視音導航的質量。
總的來說,視音模態的語義,空間以及時序上的一致性足為視音學習的研究提供了堅實的支撐。對這些一致性的分析和利用不僅提高了現有視音任務的性能,并且有助于更好地理解視音場景。
7.2 關于場景理解的新視角
本文總結了視音模態的認知基礎,并分析了人類的多通道感知的現象,在此基礎上,將目前的視音學習研究分為三類:視音提升(Audio-visual Boosting)、跨模態感知(Cross-modal Perception)和視音協作(Audio-visual Collaboration)。為了從更宏觀的角度回顧目前視音學習領域的發展,文章進一步提出了關于視音場景理解的新視角:
1)基礎場景理解(Basic Scene Understanding)。視音提升和跨模態感知的任務通常側重于融合或預測一致的視音信息。這些任務的核心是對視音場景的基礎理解(例如,對輸入視頻的進行動作分類。)或對跨模態信息進行預測(例如,基于無聲視頻生成對應的音頻。) 然而,自然場景中的視頻通常包含多種多樣的視音成分,超出了這些基礎場景理解任務的范疇。
2)細粒度場景理解(Fine-grained Scene Understanding)。如上所述,視音場景通常具有豐富的不同模態的成分。因此,研究者們提出了一些剝離目標成分的任務。例如,聲源定位任務旨在標記出視覺中的目標發聲物體所在的區域。視音事件定位與解析任務則在時序上確定目標可聽事件或可見事件。這些任務將視音成分剝離出來,對視音場景進行解耦,與上一階段相比,對場景有更細粒度的理解。
3)因果交互場景理解(Causal Scene Understanding)。 在視音場景中,人類不僅能感知周圍感興趣的事物,還能推斷出它們之間的交互。這一階段場景理解的目標更接近于追求類人感知。目前,只有很少的任務在這一階段進行探索。視音問答和對話任務是代表性的工作。這些任務試圖探索視頻中視音成分的關聯,并進行時空推理。
總的來說,對這三個階段的探索是不平衡的。從基礎場景理解到因果交互場景理解,相關研究的多樣性和豐富性逐漸降低,特別是因果交互場景理解仍然處于起步階段。這暗示了視音學習存在的一些潛在發展方向:
1)任務整合。視音領域的大多數研究是任務導向的。這些單獨的任務只模擬和學習視音場景的特定方面。然而,視音場景的理解和感知并不是孤立的。例如,聲源定位任務強調視覺中與聲音相關的對象,而事件定位和解析任務則在時序上確定目標事件。這兩個任務有望被整合以促進對視音場景的精細化理解。多個視音學習任務的整合是在未來值得探索的方向。
2)更深入的因果交互場景理解。目前,對涉及推理的場景理解的研究的多樣性仍然有限。現有的任務,包括視音問答和對話,大多集中在基于視頻中的事件進行對話。更深入的推理類型,如根據預覽的場景預測接下來可能發生的音頻或視覺事件,值得在未來進一步研究。?
為了更好地呈現文章內容,該綜述同時配備了持續更新的項目主頁,以圖片、視頻等更多形式展示了不同視音任務的目標與發展,供讀者快速了解視音學習領域。