再也不怕「視頻會(huì)議」尬住了！谷歌CHI頂會(huì)發(fā)布新神器Visual Captions：讓圖片做你的字幕助手

作者：新智元 2023-06-12 15:38:13

一圖勝千言，再也不怕視頻會(huì)議說不明白了！

最近幾年，「視頻會(huì)議」在工作中的占比逐漸增加，廠商也開發(fā)了各種諸如實(shí)時(shí)字幕等技術(shù)以方便會(huì)議中不同語言的人之間交流。

但還有一個(gè)痛點(diǎn)，要是對話中提到了一些對方很陌生的名詞，并且很難用語言描述出來，比如食物「壽喜燒」，或是說「上周去了某個(gè)公園度假」，很難用語言給對方描述出的美景；甚至是指出「東京位于日本關(guān)東地區(qū)」，需要一張地圖來展示等，如果只用語言可能會(huì)讓對方越來越迷茫。

最近，谷歌在人機(jī)交互頂級會(huì)議ACM CHI（Conference on Human Factors in Computing Systems）上展示了一個(gè)系統(tǒng)Visual Captions，介紹了遠(yuǎn)程會(huì)議中的一個(gè)全新視覺解決方案，可以在對話背景中生成或檢索圖片以提高對方對復(fù)雜或陌生概念的了解。

論文鏈接：https://research.google/pubs/pub52074/

代碼鏈接：https://github.com/google/archat

Visual Captions系統(tǒng)基于一個(gè)微調(diào)后的大型語言模型，可以在開放詞匯的對話中主動(dòng)推薦相關(guān)的視覺元素，并已融入開源項(xiàng)目ARChat中。

在用戶調(diào)研中，研究人員邀請了實(shí)驗(yàn)室內(nèi)的26位參與者，與實(shí)驗(yàn)室外的10位參與者對系統(tǒng)進(jìn)行評估，超過80%的用戶基本都認(rèn)同Video Captions可以在各種場景下能提供有用、有意義的視覺推薦，并可以提升交流體驗(yàn)。

設(shè)計(jì)思路

在開發(fā)之前，研究人員首先邀請了10位內(nèi)部參與者，包括軟件工程師、研究人員、UX設(shè)計(jì)師、視覺藝術(shù)家、學(xué)生等技術(shù)與非技術(shù)背景的從業(yè)者，討論對實(shí)時(shí)視覺增強(qiáng)服務(wù)的特定需求和期望。

兩次會(huì)議后，根據(jù)現(xiàn)有的文本轉(zhuǎn)圖像系統(tǒng)，確立了預(yù)期原型系統(tǒng)的基本設(shè)計(jì)，主要包括八個(gè)維度（記為D1至D8）。

D1：時(shí)序，視覺增強(qiáng)系統(tǒng)可與對話同步或異步展現(xiàn)

D2：主題，可用于表達(dá)和理解語音內(nèi)容

D3：視覺，可使用廣泛的視覺內(nèi)容、視覺類型和視覺源

D4：規(guī)模，根據(jù)會(huì)議規(guī)模的不同，視覺增強(qiáng)效果可能有所不同

D5：空間，視頻會(huì)議是在同一地點(diǎn)還是在遠(yuǎn)程設(shè)置中

D6：隱私，這些因素還影響視覺效果是否應(yīng)該私下顯示、在參與者之間共享或向所有人公開

D7：初始狀態(tài)，參與者還確定了他們希望在進(jìn)行對話時(shí)與系統(tǒng)交互的不同方式，例如，不同級別的「主動(dòng)性」，即用戶可以自主確定系統(tǒng)何時(shí)介入聊天D8：交互，參與者設(shè)想了不同的交互方法，例如，使用語音或手勢進(jìn)行輸入

用動(dòng)態(tài)的視覺效果增強(qiáng)語言交流的設(shè)計(jì)空間

根據(jù)初步反饋，研究人員設(shè)計(jì)了Video Caption系統(tǒng)，專注于生成語義相關(guān)的視覺內(nèi)容、類型和來源的同步視覺效果。

雖然在探索性會(huì)議中的想法大多關(guān)注于一對一遠(yuǎn)程對話的形式，Video Caption同樣也可以用于一對多的（例如，向觀眾進(jìn)行演示）和多對多場景（多人會(huì)議討論）的部署。

除此之外，最能補(bǔ)充對話的視覺效果在很大程度上取決于討論的上下文，所以需要一個(gè)專門制作的訓(xùn)練集。

研究人員收集了1595個(gè)四元組，包括語言、視覺內(nèi)容、類型、來源，涵蓋了各種上下文場景，包括日常對話、講座、旅行指南等。

比如用戶說「我很想看看！」（I would love to see it!）對應(yīng)于「面部微笑」（face smiling）的視覺內(nèi)容、「表情符號」（emoji）的視覺類型和「公共搜索」（public search）的視覺源。

「她有沒有告訴你我們?nèi)ツ鞲绲氖拢俊箤?yīng)于「來自墨西哥之旅的照片」的視覺內(nèi)容、「照片」的視覺類型以及「個(gè)人相冊」的視覺源。

該數(shù)據(jù)集VC 1.5K目前已開源。

數(shù)據(jù)鏈接：https://github.com/google/archat/tree/main/dataset

視覺意圖預(yù)測模型

為了預(yù)測哪些視覺效果可以補(bǔ)充對話，研究人員使用VC1.5K數(shù)據(jù)集基于大型語言模型訓(xùn)練了一個(gè)視覺意圖預(yù)測模型。

在訓(xùn)練階段，每個(gè)視覺意圖解析為「 <Visual Type> of <Visual Content> from <Visual Source> 」的格式。

基于該格式，系統(tǒng)可以處理開放詞匯會(huì)話和上下文預(yù)測視覺內(nèi)容、視覺源和視覺類型。

這種方法在實(shí)踐中也優(yōu)于基于關(guān)鍵詞的方法，因?yàn)楹笳邿o法處理開放式詞匯的例子，比如用戶可能會(huì)說「你的艾米阿姨將在這個(gè)星期六來訪」，沒有匹配到關(guān)鍵詞，也就無法推薦相關(guān)的視覺類型或視覺來源。

研究人員使用VC1.5K數(shù)據(jù)集中的1276個(gè)（80%）樣本來微調(diào)大型語言模型，其余319個(gè)（20%）示例作為測試數(shù)據(jù)，并使用token準(zhǔn)確率指標(biāo)來度量微調(diào)模型的性能，即模型正確預(yù)測的樣本中token正確的百分比。

最終模型可以實(shí)現(xiàn)97%的訓(xùn)練token準(zhǔn)確率和87%的驗(yàn)證token準(zhǔn)確率。

實(shí)用性調(diào)研

為了評估訓(xùn)練的視覺字幕模型的實(shí)用性，研究團(tuán)隊(duì)邀請了89名參與者執(zhí)行846項(xiàng)任務(wù)，要求對效果進(jìn)行打分，1為非常不同意（strongly disagree）、7為非常同意（strongly agree）。

實(shí)驗(yàn)結(jié)果顯示，大多數(shù)參與者更喜歡在對話中看到視覺效果（Q1），83% 給出了5-有些同意（somewhat agree）以上的評價(jià)。

此外，參與者認(rèn)為顯示的視覺效果是有用的且信息豐富的（Q2），82%給出了高于5分的評價(jià)；高質(zhì)量的（Q3），82%給出了高于5分的評價(jià)；并與原始語音相關(guān)（Q4，84%）。

參與者還發(fā)現(xiàn)預(yù)測的視覺類型（Q5，87%）和視覺來源（Q6，86%）在相應(yīng)對話的背景下是準(zhǔn)確的。

研究參與者對可視化預(yù)測模型的技術(shù)評價(jià)結(jié)果進(jìn)行評分

基于該微調(diào)的視覺意圖預(yù)測模型，研究人員在ARChat平臺上開發(fā)了Visual Captions，可以直接在視頻會(huì)議平臺（如Google Meet）的攝像頭流上添加新的交互式小部件。

在系統(tǒng)工作流程中，Video Captions可以自動(dòng)捕獲用戶的語音、檢索最后的句子、每隔100毫秒將數(shù)據(jù)輸入到視覺意圖預(yù)測模型中、檢索相關(guān)視覺效果，然后提供推薦的視覺效果。

Visual Captions的系統(tǒng)工作流

Visual Captions在推薦視覺效果時(shí)提供三個(gè)級別的可選主動(dòng)性：

自動(dòng)顯示（高主動(dòng)性）：系統(tǒng)自主搜索并向所有會(huì)議參與者公開顯示視覺效果，無需用戶交互。

自動(dòng)推薦（中等主動(dòng)性）：推薦的視覺效果顯示在私人滾動(dòng)視圖中，然后用戶點(diǎn)擊一個(gè)視覺對象可以進(jìn)行公開展示；在這種模式下，系統(tǒng)會(huì)主動(dòng)推薦視覺效果，但用戶決定何時(shí)顯示以及顯示什么。

按需建議（低主動(dòng)性）：用戶按下空格鍵后，系統(tǒng)才會(huì)推薦視覺效果。

研究人員在對照實(shí)驗(yàn)室研究（n = 26）和測試階段部署研究（n = 10）中評估了Visual Captions系統(tǒng)，參與者發(fā)現(xiàn)，實(shí)時(shí)視覺效果有助于解釋不熟悉的概念、解決語言歧義，并使對話更具吸引力，從而促進(jìn)了現(xiàn)場對話。