揭秘格靈深瞳:計(jì)算機(jī)如何看懂我們的世界?
發(fā)現(xiàn)雪白桌面上一張同樣雪白的 A4 紙?提前一秒預(yù)知你的動(dòng)作是否存在威脅?出現(xiàn)危險(xiǎn)情況時(shí),對(duì)著鏡頭做「SOS」的手勢(shì)警察就會(huì)來(lái)幫助你?
這些太像科幻片?格靈深瞳都做得到。
比爾蓋茨聽(tīng)罷產(chǎn)品介紹直呼「This is very cool」,紐約警察局(NYPD)前來(lái)尋找解決方案,英偉達(dá)將其列為與小米同等重要的客戶(hù)……
一家 2013 年創(chuàng)立的國(guó)內(nèi)公司,憑什么如此「高調(diào)」?
格靈深瞳正在制造能看懂現(xiàn)實(shí)的計(jì)算機(jī)之眼,邁出的***步是保護(hù)我們的安全。
從安防監(jiān)控開(kāi)始
2012 年夏天的圖書(shū)館,我將書(shū)包存于寄包柜,借書(shū)完畢發(fā)現(xiàn)錢(qián)包不翼而飛。報(bào)警、調(diào)監(jiān)控錄像、確認(rèn)有人從柜子中拿走我的書(shū)包取出錢(qián)包又大搖大擺的放回,可直到畢業(yè)錢(qián)包依舊杳無(wú)音信。
聽(tīng)說(shuō)這是個(gè)慣犯,校方多次查找都沒(méi)能捉到。如果攝像頭能夠識(shí)別這個(gè)人、識(shí)別、自動(dòng)報(bào)警,也許一切就會(huì)不一樣。
安防監(jiān)控一直被認(rèn)為替代了大量人工,延長(zhǎng)人眼觀察距離,又能在惡劣環(huán)境下工作。但實(shí)際上它們還只是用光纖、同軸電纜或微波在閉合環(huán)路內(nèi)傳輸視頻信號(hào)的系統(tǒng),雖能實(shí)時(shí)播放記錄圖像,但面對(duì)威脅時(shí)仍需要觸發(fā)現(xiàn)場(chǎng)的報(bào)警系統(tǒng)才能引起警覺(jué)。
如果沒(méi)有人觀看,這些實(shí)時(shí)傳輸?shù)膱D像就毫無(wú)意義。即便是為了尋找證據(jù),事后查找也需要回溯錄像,在模糊的視頻中尋找線索,是一項(xiàng)極其繁重的工作。
能不能讓這些攝像頭就像我們的眼睛一樣看懂這個(gè)世界,自己發(fā)現(xiàn)危險(xiǎn)和異常?
人們用兩只眼睛獲得原始的三維數(shù)據(jù),再由大腦處理信息做出適當(dāng)?shù)姆磻?yīng)。而在過(guò)去的十幾年中研究者們一直相信光學(xué)鏡頭+計(jì)算機(jī)算法就能看懂我們的世界,但光學(xué)鏡頭丟失了三維世界的重要信息——深度。
格靈深瞳使用的設(shè)備
格靈深瞳的設(shè)備看上去和普通的安防監(jiān)控設(shè)備不太一樣。與一般球狀單攝像頭相比并列采用了三枚攝像頭:左側(cè)是與普通安防攝像頭一樣的 RGB 攝像頭,另兩個(gè)是激光發(fā)射器和接收器,外形與微軟 Kinect 非常相似。
通過(guò)它真的能看懂我們的世界么?
格靈深瞳CTO趙勇還在谷歌時(shí)就相信想要讓計(jì)算機(jī)要看懂圖像,必須通過(guò)三維這條路。通過(guò)激光發(fā)射器的發(fā)射與接收,以結(jié)構(gòu)光源實(shí)現(xiàn)深度的方式讓攝像頭對(duì)三維的空間變化有了感知能力。但這只是***步,通過(guò)人眼接收光線僅僅是提供了信息。真正要「看懂」圖像,還需要大腦將光信號(hào)轉(zhuǎn)換成神經(jīng)信號(hào)。
一整套將三維世界原始數(shù)據(jù)轉(zhuǎn)換為最原始、電腦能看懂的數(shù)據(jù)的系統(tǒng),才是格靈深瞳的核心所在。
讓機(jī)器看懂世界
「格靈深瞳可以做到兩件事:***個(gè)是以人為單位,十幾、二十幾個(gè)人在屋子里互相交錯(cuò),比如地鐵,我們會(huì)對(duì)行人的軌跡和速度進(jìn)行非常精確的跟蹤。另一個(gè)是在中遠(yuǎn)距離對(duì)人的肢體行為,近距離對(duì)人手的行為都可以識(shí)別。」格靈深瞳 CEO 何搏飛告訴極客公園。
格靈深瞳 CEO 何搏飛為極客公園解釋設(shè)備原理
明明光沿直線傳播,格靈深瞳的設(shè)備如何做到人與人之間的遮蔽不會(huì)影響系統(tǒng)判斷?因?yàn)槿耸沁B續(xù)的——既不可能憑空出現(xiàn),也不可能憑空消失,這也是格靈深瞳算法的前提。遮蔽情況出現(xiàn)時(shí),系統(tǒng)會(huì)一直跟蹤到「失蹤」的人再次出現(xiàn)。
那么格靈深瞳如何提前預(yù)知犯罪?將所有的不正常(推搡、撞擊)行為都模型化后再匹配?不用這么復(fù)雜。以暴力行為為例,空間中的人動(dòng)作的速度、幅度以及強(qiáng)度經(jīng)過(guò)衡量,暴力動(dòng)作與正常的動(dòng)作相比強(qiáng)度非常不同。通過(guò)肢體的動(dòng)作幅度對(duì)異常舉動(dòng)進(jìn)行分析和判斷,這個(gè)人的動(dòng)作幅度超出安全值,格靈深瞳可以實(shí)現(xiàn)再行為發(fā)生前 0.5 秒或 1 秒報(bào)警。
目前銀行、特別是 ATM 自助銀行是格靈深瞳最主要的應(yīng)用場(chǎng)景。具有學(xué)習(xí)能力的系統(tǒng)放在 ATM 機(jī)環(huán)境下,在一個(gè)月時(shí)間左右系統(tǒng)可以學(xué)習(xí)到大部分人都是一樣的進(jìn)門(mén)、排隊(duì)、走到機(jī)器面前、插卡、按鍵盤(pán)、等一會(huì)兒取錢(qián)離開(kāi),并認(rèn)為這樣的流程是正常行為。如果晚上 10 點(diǎn)有人進(jìn)入一個(gè)北京城鄉(xiāng)結(jié)合部的營(yíng)業(yè)廳,沒(méi)有取錢(qián)而是蹲在墻角,系統(tǒng)就會(huì)認(rèn)為這是異常情況進(jìn)行上報(bào)。或者有人在插卡口處做出大量動(dòng)作,可能在安裝讀卡器、或者薄膜鍵盤(pán),這時(shí)系統(tǒng)也會(huì)提示異常。
雖然產(chǎn)品叫做無(wú)人安防監(jiān)控系統(tǒng),格靈深瞳無(wú)意以此代替所有的監(jiān)控人力。人類(lèi)的世界太復(fù)雜,機(jī)器會(huì)幫助人類(lèi)從重復(fù)性的工作中解放出來(lái),但***的決定還是需要人來(lái)做出。格靈深瞳系統(tǒng)的存在是為安保人員提供極大的效率的提升,告訴他們「嘿,這里有點(diǎn)不太對(duì)勁,看看是不是有什么問(wèn)題?」而不是取代他們。
三維的數(shù)據(jù)會(huì)不會(huì)大很多?傳統(tǒng)計(jì)算機(jī)真的能處理這些數(shù)據(jù)嗎?
沒(méi)錯(cuò)三維的數(shù)據(jù)總量要比二維數(shù)據(jù)大得多,因此格靈深瞳選擇全部數(shù)據(jù)在本地進(jìn)行結(jié)構(gòu)化處理,再上傳云端。對(duì)帶寬的占用和現(xiàn)階段二維的安防監(jiān)控沒(méi)有質(zhì)的區(qū)別,至于現(xiàn)有計(jì)算機(jī)能不能處理,那就要看 GPU 了——這也是英偉達(dá)看重格靈深瞳的原因。
一家計(jì)算機(jī)視覺(jué)+人工智能公司
2013 年 4 月,格靈深瞳成立三個(gè)月就拿到真格基金和聯(lián)創(chuàng)策源的聯(lián)合天使投資,今年 6 月,格靈深瞳又拿到紅杉資本 A 輪高達(dá)數(shù)千萬(wàn)美元的投資。
乘上樓電梯、ATM 機(jī)取現(xiàn)、超市購(gòu)物,監(jiān)控我們攝像頭無(wú)所不在。你猜北京 T3 航站樓正在盯著我們的「眼睛」有沒(méi)有一萬(wàn)個(gè)?答案是五倍——五萬(wàn)個(gè)。
在 CEO 何搏飛看來(lái),安防監(jiān)控?fù)碛斜戎悄苁謾C(jī)更龐大的市場(chǎng),銀行僅僅是其中的一部分。通過(guò)這些項(xiàng)目梳理全流程的格靈深瞳,平行進(jìn)入其他行業(yè)也是順其自然的事。
但讓一個(gè)團(tuán)隊(duì)、一家公司改變?nèi)袠I(yè)是不可能的事,格靈深瞳常說(shuō)自己是一家「一家計(jì)算機(jī)視覺(jué)+人工智能公司」。他們更希望在安防監(jiān)控這個(gè)「驗(yàn)證點(diǎn)」成功之后,能以計(jì)算機(jī)視覺(jué)為基礎(chǔ)提供一個(gè)平臺(tái),讓更多行業(yè)的人接入其中,體驗(yàn)到這項(xiàng)技術(shù)所能帶來(lái)的、***的力量。
比如運(yùn)用到醫(yī)療領(lǐng)域,現(xiàn)階段心臟手術(shù)需要人為讓心臟暫停跳動(dòng)轉(zhuǎn)向體外循環(huán),計(jì)算機(jī)視覺(jué)則可以讓手術(shù)刀與心臟跳動(dòng)同步運(yùn)動(dòng),實(shí)現(xiàn)相對(duì)靜止的心臟手術(shù)。這種應(yīng)用正處在試驗(yàn)階段,也許不遠(yuǎn)的將來(lái)每個(gè)人都可以從中獲益。
或者在空巢老人家中感知老人的意外情況及時(shí)提醒家人、課堂上通過(guò)學(xué)生的表情感知學(xué)習(xí)效果改善教學(xué)計(jì)劃……擁有感知能力的計(jì)算機(jī)視覺(jué)在這個(gè)世界里,可以有更多想像。
在格靈深瞳會(huì)議室天花板上有一個(gè)大大的X,代表著未知
格靈深瞳希望自己的未來(lái)是個(gè)人工智能公司,「在那個(gè)階段我希望能把計(jì)算機(jī)的認(rèn)知能力,感知能力結(jié)合起來(lái),去做一些非常有意思的事情」。
如果你覺(jué)得格靈深瞳被「神化」,那說(shuō)明 CV 領(lǐng)域需要更多關(guān)注、更多參與。與短平快的 to C 項(xiàng)目相比,人工智能領(lǐng)域充滿(mǎn)太多變數(shù),因此注定更加荊棘密布也孕育著更多可能。
極客是意識(shí)到趨勢(shì),然后埋頭去做的人——何搏飛如是解讀「極客」精神。格靈深瞳也在根據(jù)現(xiàn)實(shí)不斷調(diào)整自己的步伐和方向,每一次的拜訪,都有新變化。
當(dāng)互聯(lián)網(wǎng)和云成為基礎(chǔ),機(jī)器學(xué)習(xí)、大數(shù)據(jù)成為常態(tài),你猜下一個(gè)風(fēng)口,是不是人工智能?