成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

再也不怕「視頻會(huì)議」尬住了!谷歌CHI頂會(huì)發(fā)布新神器Visual Captions:讓圖片做你的字幕助手

人工智能 新聞
一圖勝千言,再也不怕視頻會(huì)議說不明白了!

最近幾年,「視頻會(huì)議」在工作中的占比逐漸增加,廠商也開發(fā)了各種諸如實(shí)時(shí)字幕等技術(shù)以方便會(huì)議中不同語言的人之間交流。

但還有一個(gè)痛點(diǎn),要是對話中提到了一些對方很陌生的名詞,并且很難用語言描述出來,比如食物「壽喜燒」,或是說「上周去了某個(gè)公園度假」,很難用語言給對方描述出的美景;甚至是指出「東京位于日本關(guān)東地區(qū)」,需要一張地圖來展示等,如果只用語言可能會(huì)讓對方越來越迷茫。

圖片

最近,谷歌在人機(jī)交互頂級會(huì)議ACM CHI(Conference on Human Factors in Computing Systems)上展示了一個(gè)系統(tǒng)Visual Captions,介紹了遠(yuǎn)程會(huì)議中的一個(gè)全新視覺解決方案,可以在對話背景中生成或檢索圖片以提高對方對復(fù)雜或陌生概念的了解。

圖片

論文鏈接:https://research.google/pubs/pub52074/

代碼鏈接:https://github.com/google/archat

Visual Captions系統(tǒng)基于一個(gè)微調(diào)后的大型語言模型,可以在開放詞匯的對話中主動(dòng)推薦相關(guān)的視覺元素,并已融入開源項(xiàng)目ARChat中。

圖片

在用戶調(diào)研中,研究人員邀請了實(shí)驗(yàn)室內(nèi)的26位參與者,與實(shí)驗(yàn)室外的10位參與者對系統(tǒng)進(jìn)行評估,超過80%的用戶基本都認(rèn)同Video Captions可以在各種場景下能提供有用、有意義的視覺推薦,并可以提升交流體驗(yàn)。

設(shè)計(jì)思路

在開發(fā)之前,研究人員首先邀請了10位內(nèi)部參與者,包括軟件工程師、研究人員、UX設(shè)計(jì)師、視覺藝術(shù)家、學(xué)生等技術(shù)與非技術(shù)背景的從業(yè)者,討論對實(shí)時(shí)視覺增強(qiáng)服務(wù)的特定需求和期望。

兩次會(huì)議后,根據(jù)現(xiàn)有的文本轉(zhuǎn)圖像系統(tǒng),確立了預(yù)期原型系統(tǒng)的基本設(shè)計(jì),主要包括八個(gè)維度(記為D1至D8)。

D1:時(shí)序,視覺增強(qiáng)系統(tǒng)可與對話同步或異步展現(xiàn)

D2:主題,可用于表達(dá)和理解語音內(nèi)容

D3:視覺,可使用廣泛的視覺內(nèi)容、視覺類型和視覺源

D4:規(guī)模,根據(jù)會(huì)議規(guī)模的不同,視覺增強(qiáng)效果可能有所不同

D5:空間,視頻會(huì)議是在同一地點(diǎn)還是在遠(yuǎn)程設(shè)置中

D6:隱私,這些因素還影響視覺效果是否應(yīng)該私下顯示、在參與者之間共享或向所有人公開

D7:初始狀態(tài),參與者還確定了他們希望在進(jìn)行對話時(shí)與系統(tǒng)交互的不同方式,例如,不同級別的「主動(dòng)性」,即用戶可以自主確定系統(tǒng)何時(shí)介入聊天D8:交互,參與者設(shè)想了不同的交互方法,例如,使用語音或手勢進(jìn)行輸入

圖片

用動(dòng)態(tài)的視覺效果增強(qiáng)語言交流的設(shè)計(jì)空間

根據(jù)初步反饋,研究人員設(shè)計(jì)了Video Caption系統(tǒng),專注于生成語義相關(guān)的視覺內(nèi)容、類型和來源的同步視覺效果。

雖然在探索性會(huì)議中的想法大多關(guān)注于一對一遠(yuǎn)程對話的形式,Video Caption同樣也可以用于一對多的(例如,向觀眾進(jìn)行演示)和多對多場景(多人會(huì)議討論)的部署。

除此之外,最能補(bǔ)充對話的視覺效果在很大程度上取決于討論的上下文,所以需要一個(gè)專門制作的訓(xùn)練集。

研究人員收集了1595個(gè)四元組,包括語言、視覺內(nèi)容、類型、來源,涵蓋了各種上下文場景,包括日常對話、講座、旅行指南等。

比如用戶說「我很想看看!」(I would love to see it!)對應(yīng)于「面部微笑」(face smiling)的視覺內(nèi)容、「表情符號」(emoji)的視覺類型和「公共搜索」(public search)的視覺源。

「她有沒有告訴你我們?nèi)ツ鞲绲氖拢俊箤?yīng)于「來自墨西哥之旅的照片」的視覺內(nèi)容、「照片」的視覺類型以及「個(gè)人相冊」的視覺源。

該數(shù)據(jù)集VC 1.5K目前已開源。

圖片

數(shù)據(jù)鏈接:https://github.com/google/archat/tree/main/dataset

視覺意圖預(yù)測模型

為了預(yù)測哪些視覺效果可以補(bǔ)充對話,研究人員使用VC1.5K數(shù)據(jù)集基于大型語言模型訓(xùn)練了一個(gè)視覺意圖預(yù)測模型。

在訓(xùn)練階段,每個(gè)視覺意圖解析為「 <Visual Type> of <Visual Content> from <Visual Source> 」的格式。

圖片

基于該格式,系統(tǒng)可以處理開放詞匯會(huì)話和上下文預(yù)測視覺內(nèi)容、視覺源和視覺類型。

圖片

這種方法在實(shí)踐中也優(yōu)于基于關(guān)鍵詞的方法,因?yàn)楹笳邿o法處理開放式詞匯的例子,比如用戶可能會(huì)說「你的艾米阿姨將在這個(gè)星期六來訪」,沒有匹配到關(guān)鍵詞,也就無法推薦相關(guān)的視覺類型或視覺來源。

研究人員使用VC1.5K數(shù)據(jù)集中的1276個(gè)(80%)樣本來微調(diào)大型語言模型,其余319個(gè)(20%)示例作為測試數(shù)據(jù),并使用token準(zhǔn)確率指標(biāo)來度量微調(diào)模型的性能,即模型正確預(yù)測的樣本中token正確的百分比。

最終模型可以實(shí)現(xiàn)97%的訓(xùn)練token準(zhǔn)確率和87%的驗(yàn)證token準(zhǔn)確率。

實(shí)用性調(diào)研

為了評估訓(xùn)練的視覺字幕模型的實(shí)用性,研究團(tuán)隊(duì)邀請了89名參與者執(zhí)行846項(xiàng)任務(wù),要求對效果進(jìn)行打分,1為非常不同意(strongly disagree)、7為非常同意(strongly agree)。

實(shí)驗(yàn)結(jié)果顯示,大多數(shù)參與者更喜歡在對話中看到視覺效果(Q1),83% 給出了5-有些同意(somewhat agree)以上的評價(jià)。

此外,參與者認(rèn)為顯示的視覺效果是有用的且信息豐富的(Q2),82%給出了高于5分的評價(jià);高質(zhì)量的(Q3),82%給出了高于5分的評價(jià);并與原始語音相關(guān)(Q4,84%)。

參與者還發(fā)現(xiàn)預(yù)測的視覺類型(Q5,87%)和視覺來源(Q6,86%)在相應(yīng)對話的背景下是準(zhǔn)確的。

圖片

研究參與者對可視化預(yù)測模型的技術(shù)評價(jià)結(jié)果進(jìn)行評分

基于該微調(diào)的視覺意圖預(yù)測模型,研究人員在ARChat平臺上開發(fā)了Visual Captions,可以直接在視頻會(huì)議平臺(如Google Meet)的攝像頭流上添加新的交互式小部件。

在系統(tǒng)工作流程中,Video Captions可以自動(dòng)捕獲用戶的語音、檢索最后的句子、每隔100毫秒將數(shù)據(jù)輸入到視覺意圖預(yù)測模型中、檢索相關(guān)視覺效果,然后提供推薦的視覺效果。

圖片

Visual Captions的系統(tǒng)工作流

Visual Captions在推薦視覺效果時(shí)提供三個(gè)級別的可選主動(dòng)性:

自動(dòng)顯示(高主動(dòng)性):系統(tǒng)自主搜索并向所有會(huì)議參與者公開顯示視覺效果,無需用戶交互。

自動(dòng)推薦(中等主動(dòng)性):推薦的視覺效果顯示在私人滾動(dòng)視圖中,然后用戶點(diǎn)擊一個(gè)視覺對象可以進(jìn)行公開展示;在這種模式下,系統(tǒng)會(huì)主動(dòng)推薦視覺效果,但用戶決定何時(shí)顯示以及顯示什么。

按需建議(低主動(dòng)性):用戶按下空格鍵后,系統(tǒng)才會(huì)推薦視覺效果。

研究人員在對照實(shí)驗(yàn)室研究(n = 26)和測試階段部署研究(n = 10)中評估了Visual Captions系統(tǒng),參與者發(fā)現(xiàn),實(shí)時(shí)視覺效果有助于解釋不熟悉的概念、解決語言歧義,并使對話更具吸引力,從而促進(jìn)了現(xiàn)場對話。

圖片

參與者的task load指數(shù)和Likert scale評級,包括無VC、以及三個(gè)不同主動(dòng)性的VC

與會(huì)者還報(bào)告了在現(xiàn)場進(jìn)行交互中的不同的系統(tǒng)偏好,即在不同的會(huì)議場景中使用不同程度的VC主動(dòng)性

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2021-03-19 09:55:15

Linuxshell命令

2020-05-07 16:08:28

Linuxshell命令

2023-02-19 12:43:20

Linux視頻

2020-07-17 11:26:17

視頻會(huì)議數(shù)字化網(wǎng)絡(luò)

2019-12-26 09:38:57

GitHub工具 wxpy

2014-12-17 11:19:09

H.264

2022-05-17 11:48:06

谷歌賬號安全

2020-04-20 15:00:22

DevOps工具代碼

2011-06-28 12:56:06

2011-07-29 14:51:40

2009-09-18 20:36:32

視頻會(huì)議系統(tǒng)視頻輸入設(shè)備紅杉樹

2013-01-09 16:44:53

2011-05-06 20:32:12

飛魚星視頻會(huì)議飛視美

2022-04-14 10:22:30

NginxLinux

2018-05-18 14:39:46

華為 華為云

2020-05-07 09:05:22

電腦Python代碼

2014-07-18 15:54:04

goTenna:隨身無

2021-08-12 11:05:07

C++語言內(nèi)存泄露

2009-03-25 09:57:00

視頻會(huì)議視頻通信會(huì)議系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产欧美一区二区精品忘忧草 | 日韩国产在线观看 | 日本精品一区二区三区在线观看视频 | 狠狠干美女 | 久久精品国产亚洲一区二区三区 | 国产在线拍偷自揄拍视频 | 亚洲精品日韩在线观看 | 欧美亚洲视频 | 欧美激情在线精品一区二区三区 | 精品丝袜在线 | 亚洲成人av在线播放 | 欧美国产视频 | 91精品国产91久久久 | 久久精品国产一区二区三区 | 国产精品久久国产精品 | 亚洲综合视频 | 久久久久久国产精品免费免费狐狸 | 国产精品不卡一区 | 国产乱肥老妇国产一区二 | 久久久精品网站 | 天天草视频 | 正在播放国产精品 | 久久狠狠 | 久久伊人操 | 亚洲 中文 欧美 日韩 在线观看 | 看片地址| 91资源在线 | 亚洲综合中文字幕在线观看 | 99久久精品国产毛片 | 在线免费观看黄色av | 中文字幕日韩一区 | 天堂在线中文 | 亚洲电影第三页 | 亚洲精品久久久久久久久久吃药 | 亚洲午夜久久久 | 午夜影视 | 麻豆91精品91久久久 | 成人午夜影院 | h视频在线免费观看 | 作爱视频免费看 | 欧美一区二区免费 |