uSens馬賡宇：當(dāng)人工智能遇上虛擬現(xiàn)實(shí)

作者：劉晶晶 2017-07-21 13:37:10

7月21日下午WOTI2017主會(huì)場(chǎng)，uSens 凌感技術(shù)研發(fā)副總裁馬賡宇進(jìn)行了主題為《當(dāng)人工智能遇上虛擬現(xiàn)實(shí)》的精彩演講。以下是演講實(shí)錄，讓我們先睹為快！

【51CTO.com原創(chuàng)稿件】2017年7月21日-22日，由51CTO主辦的以人工智能為主題的WOTI2017全球創(chuàng)新技術(shù)峰會(huì)在北京富力萬(wàn)麗酒店隆重舉行。峰會(huì)期間，30+AI明星，數(shù)十場(chǎng)圍繞人工智能主題的精彩演講與圓桌論壇緩緩揭開(kāi)面紗。除了場(chǎng)內(nèi)的精彩演講，場(chǎng)外還有專門(mén)為AI愛(ài)好者搭建的動(dòng)手實(shí)驗(yàn)室和科技體驗(yàn)區(qū)，這一切都讓本次大會(huì)亮點(diǎn)十足。

7月21日下午WOTI2017主會(huì)場(chǎng)，uSens 技術(shù)研發(fā)副總裁馬賡宇進(jìn)行了主題為《當(dāng)人工智能遇上虛擬現(xiàn)實(shí)》的精彩演講。以下是演講實(shí)錄，讓我們先睹為快!

[[197664]]

大家好!我們公司凌感科技，英文名字叫uSens。我們公司專注在VR/AR三維人機(jī)交互核心技術(shù)，提供解決方案，并不開(kāi)發(fā)VR眼鏡、頭盔等產(chǎn)品，但以后大家買的ARVR產(chǎn)品中里面可能會(huì)有我們的技術(shù)。

我先簡(jiǎn)單介紹一下我們對(duì)VRAR行業(yè)的理解，VR/AR中的核心技術(shù)首先是沉浸感，VR可以給用戶帶來(lái)和手機(jī)不一樣的體驗(yàn)，就是沉浸感。首先要交互，在VR里邊，交互技術(shù)不需要鼠標(biāo)鍵盤(pán)，大部分使用手柄交互，但是手柄不是最自然的交互方式，未來(lái)可能想直接用手抓取，所以現(xiàn)在有裸手手勢(shì)交互方案提供商。

還有位置跟蹤，一些高檔的VR設(shè)備可以提供位置跟蹤，但是這些成本都比較高，而且都需要連接電腦或者主機(jī)才能實(shí)現(xiàn)。另外一個(gè)VR里邊比較重要的是顯示，當(dāng)然我們公司不做顯示方面的產(chǎn)品，顯示技術(shù)不是我們擅長(zhǎng)的。所以說(shuō)我們主要集中在交互技術(shù)。另外一個(gè)重要的沉浸感就是移動(dòng)性，不需要額外再接到什么設(shè)備上，否則它只能在小范圍移動(dòng)。移動(dòng)性就是最好把一體機(jī)或者頭盔戴在頭上，大家就可以體驗(yàn)VR效果。

大眾化最后一個(gè)特點(diǎn)是價(jià)格要低，比較好普及，可以吸引更多用戶來(lái)使用它。我們公司主要做的是VR/AR技術(shù)，其中HCI是人機(jī)交互界面，我們主要提供有手勢(shì)識(shí)別，還有頭的轉(zhuǎn)向跟蹤，還有頭的位置跟蹤，后兩點(diǎn)可以結(jié)合在一起。右邊是顯示技術(shù)，VR/AR顯示技術(shù)不同，但交互技術(shù)可以通用，都是手勢(shì)和位置跟蹤。

未來(lái)VR/AR需要解決三個(gè)問(wèn)題，一個(gè)是產(chǎn)品的碎片化，一個(gè)新的硬件，或者一個(gè)新的產(chǎn)品出來(lái)，早期總是會(huì)產(chǎn)生很多碎片，比如現(xiàn)在的AR產(chǎn)品，每個(gè)公司想搶占市場(chǎng)都會(huì)發(fā)布自己的產(chǎn)品，但又不想別的產(chǎn)品進(jìn)來(lái)，封閉的環(huán)境，只能玩自己的游戲。還有內(nèi)容的缺乏，手機(jī)端的VR內(nèi)容都是比較單一的，而且體驗(yàn)比較差，還有待技術(shù)的進(jìn)步。

去年、前年大家都說(shuō)是VR元年，但那個(gè)時(shí)候VR/AR產(chǎn)品都是頭盔，把手機(jī)插在頭盔里可以簡(jiǎn)單體驗(yàn)VR效果，但實(shí)際用戶可能就體驗(yàn)一下覺(jué)得沒(méi)什么意思，這是最初級(jí)的VR體驗(yàn)。現(xiàn)在一些大廠商都是在進(jìn)一步研發(fā)能帶來(lái)更好沉浸感效果的VR技術(shù)，下一輪VR產(chǎn)品可能會(huì)給大家?guī)?lái)更好的用戶體驗(yàn)。先說(shuō)顯示技術(shù)，這個(gè)略微帶過(guò)一下，因?yàn)椴皇俏覀児狙芯康闹攸c(diǎn)。

顯示技術(shù)里邊比較核心的指標(biāo)是FOV，就是視角。AR顯示大家最詬病的就是視角很小，但是像人眼的視角，如果不考慮余光，實(shí)際上可能有180度，但至少要達(dá)到100度才能感到比較好的沉浸效果。像這三款都是AR眼鏡，還有工業(yè)眼鏡，都是AR的，他們主要的指標(biāo)是FOV、分辨率和硬件尺寸。AR頭盔尺寸比較大，因?yàn)槔锩嬉蟹糯蟮娘@示屏，但VR頭盔以后可能會(huì)做的很小。下面介紹我們的技術(shù)的重點(diǎn)。

交互技術(shù)，現(xiàn)在把手勢(shì)分成三類：第一種是符號(hào)型的手勢(shì)進(jìn)行交互，比如這個(gè)人做了一個(gè)OK的手勢(shì)，可以通過(guò)圖像或者什么方式識(shí)別出來(lái)，進(jìn)行交互;第二種是拿著工具，比如這里拿錘子砸釘子，用手柄可以很好的模擬;第三種是用手直接和物體進(jìn)行交互，這個(gè)就需要對(duì)手的三維模型進(jìn)行精確的識(shí)別。

第一種硬件游戲手柄，是游戲機(jī)上最常用的，這三種都實(shí)現(xiàn)不了。第二類，現(xiàn)在VR里常用的是游戲手柄，比較適合拿著一個(gè)物體進(jìn)行交互，比較自然。但是第一種和第三種，手勢(shì)直接交互都是不能實(shí)現(xiàn)。如果要實(shí)現(xiàn)這三種，必須把手的形狀都識(shí)別出來(lái)才可以。像hololens，可以識(shí)別兩種手勢(shì)，一種是點(diǎn)擊，一種是手張開(kāi)可以出現(xiàn)菜單，它就是用了符號(hào)手勢(shì)進(jìn)行交互。但是它沒(méi)有后面兩個(gè)功能，不能用手精確操作物體，不能用手抓一個(gè)物體。我們公司的產(chǎn)品可以實(shí)現(xiàn)這三種功能。

手的交互技術(shù)應(yīng)用場(chǎng)景非常廣泛，不光是在AR場(chǎng)景，比如游戲里可以用手勢(shì)交互，第二是3D UI，第三是駕駛，虛擬點(diǎn)擊命令。在一些公共場(chǎng)合的顯示環(huán)境下，比如用戶從衛(wèi)生角度考慮，不想直接用手去碰按鈕，這個(gè)時(shí)候有手勢(shì)識(shí)別;還有手術(shù)環(huán)節(jié)，醫(yī)療手術(shù)里醫(yī)生不能拿鍵盤(pán)拿鼠標(biāo)進(jìn)行交互，因?yàn)橄镜脑?還有在家里廚房做菜的時(shí)候也沒(méi)法點(diǎn)屏幕翻菜單。

下面這是我們手勢(shì)識(shí)別在AR上的demo，通過(guò)AR眼鏡，這個(gè)手勢(shì)是虛擬的，其他的場(chǎng)景都是真實(shí)場(chǎng)景，通過(guò)AR的方式顯示出來(lái)，這個(gè)數(shù)字是提供手勢(shì)的，可以識(shí)別手勢(shì)，通過(guò)指尖和其他東西進(jìn)行交互，把指尖和整個(gè)手的骨架都識(shí)別出來(lái)了，這只是一個(gè)技術(shù)演示，是我們?nèi)ツ臧l(fā)布會(huì)上的demo。手勢(shì)識(shí)別和位置跟蹤，右下角是真實(shí)的場(chǎng)景，他在頭盔里看到的是AR場(chǎng)景，手勢(shì)交互我們?cè)缙谝查_(kāi)發(fā)了一些算法，這是早期的一些視頻。

(播放視頻)

這是我們最早開(kāi)發(fā)的第一個(gè)版本，用指尖交互，那個(gè)時(shí)候只能識(shí)別手指指尖，可以用指尖在空中進(jìn)行點(diǎn)和畫(huà)畫(huà)。第二個(gè)版本是識(shí)別手的輪廓了，相機(jī)看到的手的圖像，可以3D把輪廓識(shí)別出來(lái)。而且，可以識(shí)別比較快的運(yùn)動(dòng)，不光是指尖，任何位置都可以進(jìn)行3D交互。

大概2014年開(kāi)始，我們用深度學(xué)習(xí)算法來(lái)解決手的識(shí)別問(wèn)題，實(shí)際上手勢(shì)識(shí)別雖然研究這個(gè)的人不多，但它也屬于圖像識(shí)別問(wèn)題，跟人臉識(shí)別、圖像識(shí)別一樣，都可以用深度學(xué)習(xí)來(lái)做。這也有一個(gè)視頻，這是我們用深度學(xué)習(xí)開(kāi)發(fā)出來(lái)的26自由度手勢(shì)識(shí)別算法，用深度學(xué)習(xí)算法我們可以從圖像里邊自動(dòng)把手的關(guān)節(jié)點(diǎn)和關(guān)節(jié)點(diǎn)角度與位置自動(dòng)識(shí)別出來(lái)。

我們公司還做了兩方面技術(shù)，手勢(shì)識(shí)別和運(yùn)動(dòng)跟蹤。運(yùn)動(dòng)跟蹤研究很長(zhǎng)時(shí)間了，最早是在軍事上使用，比如導(dǎo)彈、飛機(jī)，需要空中定位位置，優(yōu)化以后用在智能機(jī)器人、無(wú)人車和掃地機(jī)器人上。VR/AR也是需要用空間定位技術(shù)，研發(fā)和掌握這些空間定位技術(shù)的是這些公司，比如Google Tango，幾年前出的Tango平板，還有Microsoft hololens，高通，一些硬件廠商已經(jīng)拿到他們的參考設(shè)計(jì)進(jìn)行適用，效果很好。前段時(shí)間apple發(fā)布的ARKit，類似的技術(shù)還有Facebook，Snapchat，也想做相關(guān)應(yīng)用。我們公司也完成了AR技術(shù)，空間定位技術(shù)，我們昨天剛發(fā)布了第一版，昨天也看到聯(lián)想發(fā)布了他們的頭盔，里邊也集成了他們自己的技術(shù)，有機(jī)會(huì)大家可以去試一試。

空間定位技術(shù)，比較技術(shù)，簡(jiǎn)單科普一下。空間定位技術(shù)需要結(jié)合視覺(jué)和傳感器兩方面信息，視覺(jué)特征，這個(gè)模型大概是這樣的，一個(gè)相機(jī)的成像，通過(guò)相機(jī)觀測(cè)一個(gè)3D點(diǎn)，可以得到圖像，3D點(diǎn)和圖像滿足下邊投影方程，左邊列了三個(gè)比較常用的問(wèn)題。第一個(gè)是3D點(diǎn)的位置和3D點(diǎn)的投影，需要解相機(jī)的R、T，都在下面的方程里。XYZ是未知的，其他是已知的，要同時(shí)解空間定位和三角化的問(wèn)題，已知的只有2D的投影U、V，同樣是這個(gè)范圍之內(nèi)。

空間定位技術(shù)簡(jiǎn)單列舉了分類方法，SLAM方法包含兩個(gè)模塊，一個(gè)是Tracking，已知3D點(diǎn)位置;一個(gè)是Mapping，更新3D點(diǎn)的位置。兩種視覺(jué)特征，一種是基于圖像特征點(diǎn)的方法，另外是比較經(jīng)典的開(kāi)源代碼，最近幾年是采用直接法，比較像素灰度差。下面是兩種求解方法，剛才的方程用什么方法求解，一種是濾波的算法，另外一種是基于優(yōu)化的算法，直接優(yōu)化方程解一個(gè)方程組。這些方法目前沒(méi)有說(shuō)哪個(gè)好哪個(gè)不好，在實(shí)際系統(tǒng)里邊用各種方法都可以達(dá)到類似的效果。

剛才說(shuō)的是視覺(jué)方法，實(shí)際上近年這個(gè)方法已達(dá)到實(shí)用的程度，因?yàn)閭鞲衅鞯倪M(jìn)步以及傳感器信號(hào)融合到算法里邊，使得系統(tǒng)得到提升。陀螺儀，左邊這個(gè)圖，中間如果高速旋轉(zhuǎn)的話，整個(gè)設(shè)備旋轉(zhuǎn)，但中間轉(zhuǎn)子的方向是不變的，這樣可以得到設(shè)備的旋轉(zhuǎn)方向。但是這種方式可能早期幾百年前的輪船里邊會(huì)用，但現(xiàn)在高精度的陀螺儀都是用激光的方式，用激光陀螺儀，比如導(dǎo)彈在空中飛行幾個(gè)小時(shí)，但誤差只有幾百米，或者100米之內(nèi)。

這種激光方式中間有個(gè)激光源，它會(huì)向兩個(gè)方向發(fā)射激光。如果這個(gè)物體靜止不動(dòng)的話，這兩條光線的長(zhǎng)度一樣，比較這兩條光線的相差就是0，如果這個(gè)物體旋轉(zhuǎn)的話，這兩個(gè)光路就會(huì)有稍微特別小的變化，中間產(chǎn)生的相差就會(huì)有，通過(guò)識(shí)別相差就能知道整個(gè)設(shè)備旋轉(zhuǎn)速度。這里有兩個(gè)扇片，物體旋轉(zhuǎn)的時(shí)候不動(dòng)，通過(guò)識(shí)別角度就可以知道它的旋轉(zhuǎn)速度。這種微型化的陀螺儀精度會(huì)比激光差很多，如果單獨(dú)用它的話是沒(méi)法達(dá)到結(jié)果，所以必須要結(jié)合陀螺儀和視覺(jué)信息一起進(jìn)行。

IMU中的陀螺儀輸出的是相鄰相機(jī)的旋轉(zhuǎn)角度。左邊的圖里邊顯示的是有四個(gè)時(shí)段相機(jī)，每?jī)蓚€(gè)相機(jī)之間通過(guò)IMU得到它們的旋轉(zhuǎn)角度以及加速度的值，實(shí)際加速度的值不能直接用來(lái)估計(jì)它的位置，只能用來(lái)估計(jì)速度，所以下面的公式有三個(gè)方程，這三個(gè)方程包含角度、速度和位置。第一個(gè)方程，下一個(gè)時(shí)刻的角度等于上一個(gè)時(shí)刻的角度乘上IMU估計(jì)出來(lái)的角度，這里面還包含了一些IMU的漂移以及噪聲;第二個(gè)方程是速度，上一時(shí)刻速度加上重力產(chǎn)生的速度，以及IMU讀出來(lái)的加速度;最下面的方程是位置的方程，加上速度產(chǎn)生的位移以及加速度產(chǎn)生的位移，加速度產(chǎn)生的位移就是二分之一立方，中學(xué)物理學(xué)學(xué)過(guò)的。所以說(shuō)，IMU的約束在這個(gè)方程里邊都表示了，剛才介紹的是圖像產(chǎn)生的數(shù)，把這些約束都加一起就是IMU和圖像融合得到的一個(gè)系統(tǒng)的方程。

實(shí)際傳感器是有一些問(wèn)題的。第一個(gè)，傳感器的采樣是離散的，而且有漂移，比如圖里邊連續(xù)的線是實(shí)際的加速度，但是IMU采樣是離散的，所以并沒(méi)有采樣到，所以結(jié)果是有誤差的;第二個(gè)，IMU得到加速度它是包含重力的，實(shí)際上重力產(chǎn)生的加速度是遠(yuǎn)大于一般的移動(dòng)時(shí)候產(chǎn)生的加速度的，所以說(shuō)要去掉重力就需要精確估計(jì)朝向;第三個(gè)，IMU的位置和相機(jī)的位置肯定是不在一起的，它們之間有相對(duì)位移，而且由于工業(yè)生產(chǎn)的原因，它們倆之間會(huì)相差一個(gè)很小的角度，一些研究發(fā)現(xiàn)，即使角度差一度，對(duì)最后整個(gè)系統(tǒng)的精度影響也會(huì)很大，所以在線標(biāo)定他們之間的角度和位移;第四個(gè)，相機(jī)采樣頻率大概是60、30，但I(xiàn)MU采樣頻率很高，一般都是500、800、1000，采樣頻率、采樣時(shí)間也是不一樣的。

解決這些問(wèn)題的方法，IMU采樣率比圖像高很多。2016年有人發(fā)表了一篇文章，預(yù)積分的方法，把圖像之間IMU信息都集中起來(lái)，當(dāng)成一個(gè)量，這樣就不用細(xì)化每個(gè)幀IMU，據(jù)我所知，這個(gè)在所有系統(tǒng)中都在用;第二個(gè)，這個(gè)需要精確的標(biāo)定，如果差很多的話，整個(gè)系統(tǒng)就完全崩潰了，不能工作了;最后一個(gè)技術(shù)也很重要，ATW，人運(yùn)動(dòng)時(shí)候開(kāi)始，到他看到合成的虛擬場(chǎng)景真的產(chǎn)生運(yùn)動(dòng)，這個(gè)時(shí)間要少于20毫秒，人的運(yùn)動(dòng)開(kāi)始，你看到的光線產(chǎn)生變化，這個(gè)時(shí)間要小于20毫秒，這樣的話VR運(yùn)用中用戶才不會(huì)感到暈。

但是像我們整個(gè)過(guò)程，包括很多運(yùn)算，第一個(gè)是圖像獲取的時(shí)間，算法處理的時(shí)間，還有渲染的時(shí)間，渲染的結(jié)果到最后顯示的時(shí)間。這些里面有些是可以預(yù)測(cè)的，有些是可以通過(guò)IMU數(shù)據(jù)得到的，有些是只能經(jīng)過(guò)預(yù)測(cè)的。像這里面第一個(gè)圈是圖像，算法處理完之后，第二個(gè)時(shí)刻只能得到前面那個(gè)圈時(shí)刻的信息，但實(shí)際上后面這一段是有IMU數(shù)據(jù)的，可以把IMU數(shù)據(jù)集成到這里。所以說(shuō)在第二個(gè)圈那個(gè)地方它得到的位置相對(duì)來(lái)說(shuō)比較精確，但后面渲染的時(shí)候，渲染時(shí)間和顯示時(shí)間，這個(gè)時(shí)候完全沒(méi)有IMU信息，所以只能通過(guò)前面的模型把后半段預(yù)測(cè)出來(lái)，后面這部分誤差比較大，但是通過(guò)這種技術(shù)還是可以明顯的減小延遲，現(xiàn)在商用的VR產(chǎn)品里邊都是用的這種技術(shù)。

我們的產(chǎn)品硬件也經(jīng)過(guò)了幾次迭代，從尺寸上和功耗上都比之前小很多，但它的外型都是雙攝像頭，這是一些指標(biāo)，紅線標(biāo)出來(lái)的是效果影響比較大的。第一個(gè)是分辨率，必須是全局曝光的，手機(jī)里的攝像頭都是快門(mén)，曝光時(shí)間不一樣，會(huì)影響精度;第二個(gè)是硬件同步，我們是雙系統(tǒng)，所以左右相機(jī)要同時(shí)采圖，而不是分別采圖。

采樣率，我們的產(chǎn)品會(huì)達(dá)到60幀到120幀，快門(mén)時(shí)間是0.01到10毫秒。我們這個(gè)產(chǎn)品目標(biāo)是做一個(gè)智能視覺(jué)系統(tǒng)，現(xiàn)在我們的應(yīng)用在VR/AR場(chǎng)景應(yīng)用，但實(shí)際上它的應(yīng)用可以在下面列舉的一些未來(lái)的應(yīng)用，第一個(gè)是在廣告機(jī)上做手勢(shì)識(shí)別，第二個(gè)是車載手勢(shì)識(shí)別以及機(jī)器人和無(wú)人機(jī)上也可以用來(lái)做空間定位。大概就這些，謝謝大家!

51CTO記者將持續(xù)為您帶來(lái)WOTI2017全球創(chuàng)新技術(shù)峰會(huì)前方精彩報(bào)道，敬請(qǐng)期待!

【51CTO原創(chuàng)稿件，合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】

責(zé)任編輯：杜寧來(lái)源： 51CTO