成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何理解生物視覺和計(jì)算機(jī)視覺的區(qū)別

譯文
人工智能
從人工智能技術(shù)的早期開發(fā)開始,科學(xué)家就在夢(mèng)想能夠創(chuàng)造出可以“看到”外部世界的計(jì)算機(jī)。由于視覺這一功能對(duì)于人們的工作和生活起著至關(guān)重要的作用,因此破解計(jì)算機(jī)視覺的密碼成為了開發(fā)通用人工智能的主要步驟之一。

【51CTO.com快譯】從人工智能技術(shù)的早期開發(fā)開始,科學(xué)家就在夢(mèng)想能夠創(chuàng)造出可以“看到”外部世界的計(jì)算機(jī)。由于視覺這一功能對(duì)于人們的工作和生活起著至關(guān)重要的作用,因此破解計(jì)算機(jī)視覺的密碼成為了開發(fā)通用人工智能的主要步驟之一。

但是,就像人工智能中需要實(shí)現(xiàn)的許多目標(biāo)一樣,計(jì)算機(jī)視覺的實(shí)現(xiàn)說起來容易做起來難。麻省理工學(xué)院的科學(xué)家在1966年的夏季啟動(dòng)了一個(gè)“夏季視覺計(jì)劃”, 旨在創(chuàng)建一個(gè)能夠識(shí)別圖像中物體和背景區(qū)域的計(jì)算機(jī)系統(tǒng),計(jì)劃在兩個(gè)月的時(shí)間完成,但要實(shí)現(xiàn)這些目標(biāo),需要的時(shí)間遠(yuǎn)遠(yuǎn)不止兩個(gè)月。事實(shí)上,直到2010年以后,圖像分類器和對(duì)象檢測器才變得足夠靈活和可靠,可以在主流應(yīng)用中使用。

在過去的幾十年中,機(jī)器學(xué)習(xí)和神經(jīng)科學(xué)的發(fā)展幫助計(jì)算機(jī)視覺取得了長足的進(jìn)步。但是要?jiǎng)?chuàng)建一個(gè)像人類一樣觀察世界的人工智能系統(tǒng),還有很長的路要走。

哈佛醫(yī)學(xué)院教授Gabriel Kreiman在其所著的《生物和計(jì)算機(jī)視覺》一書描述了人類和動(dòng)物如何處理視覺數(shù)據(jù)以及在計(jì)算機(jī)上復(fù)制這些功能方面取得的進(jìn)展。

Kreiman編著的這本書有助于理解生物學(xué)和計(jì)算機(jī)視覺之間的差異。該書詳細(xì)介紹了數(shù)十億年的演變?nèi)绾螢槿祟惡蛣?dòng)物提供了復(fù)雜的視覺處理系統(tǒng),以及如何研究它開發(fā)更好的計(jì)算機(jī)視覺算法。此外,還討論了現(xiàn)代計(jì)算機(jī)視覺系統(tǒng)與生物視覺系統(tǒng)的區(qū)別。

在此簡要列出這本著作的一些主要內(nèi)容。

硬件差異

[[400237]]

生物視覺運(yùn)行在有機(jī)經(jīng)元和皮層細(xì)胞上,而計(jì)算機(jī)視覺運(yùn)行在晶體管和電子電路上

在《生物和計(jì)算機(jī)視覺》一書的簡介中,Kreiman寫道:“我對(duì)生物神經(jīng)與計(jì)算電路之間的聯(lián)系感到特別興奮。生物視覺是數(shù)百萬年進(jìn)化的產(chǎn)物。而研究人員開發(fā)計(jì)算模型時(shí),可以從生物學(xué)中學(xué)習(xí)和了解如何解決視覺問題,并將這些解決方案作為建立更好算法的靈感。”

事實(shí)上,對(duì)視覺皮層的研究一直是計(jì)算機(jī)視覺和人工智能的靈感源泉。但在實(shí)現(xiàn)視覺的數(shù)字化功能之前,科學(xué)家必須克服生物視覺和計(jì)算機(jī)視覺之間巨大的硬件鴻溝。生物視覺在皮層細(xì)胞和有機(jī)神經(jīng)元相互連接的網(wǎng)絡(luò)上運(yùn)行。而在另一方面,計(jì)算機(jī)視覺運(yùn)行在由晶體管組成的電子芯片上。

因此,視覺理論的定義必須在計(jì)算機(jī)中能夠以一種類似于生物水平的方式實(shí)現(xiàn)。Kreiman將其稱之為“Goldilocks 解決方案”,這種抽象理念既不詳細(xì)也不簡化。

例如,在計(jì)算機(jī)視覺的早期嘗試中,試圖以一種非常抽象的方式來處理計(jì)算機(jī)視覺,這種方式忽略了人腦和動(dòng)物大腦如何識(shí)別視覺模式。事實(shí)證明,這些方法非常脆弱且效率低下。另一方面,在分子水平上研究和模擬大腦也被證明計(jì)算效率低下。

Kreiman說:“我并不是所謂的‘復(fù)制生物學(xué)’的忠實(shí)擁護(hù)者。生物學(xué)的許多方面可以而且應(yīng)該被抽象出來。我們可能不需要開發(fā)2萬種蛋白質(zhì)、細(xì)胞質(zhì)和復(fù)雜樹突狀幾何結(jié)構(gòu)的單元,這具有太多的生物學(xué)細(xì)節(jié)。另一方面,我們不能只研究不夠詳細(xì)的行為。”

Kreiman在《生物和計(jì)算機(jī)視覺》一書中指出,神經(jīng)科學(xué)和醫(yī)學(xué)技術(shù)的進(jìn)步使得研究單個(gè)神經(jīng)元毫秒級(jí)的活動(dòng)成為可能。

這些研究的結(jié)果幫助開發(fā)了不同類型的人工神經(jīng)網(wǎng)絡(luò),這是一種人工智能算法,可以輕松地模擬哺乳動(dòng)物的大腦皮層區(qū)域的運(yùn)作。近年來,神經(jīng)網(wǎng)絡(luò)已被證明是視覺數(shù)據(jù)中模式識(shí)別的最有效算法,并且已經(jīng)成為許多計(jì)算機(jī)視覺應(yīng)用程序的關(guān)鍵組件。

架構(gòu)差異

最近幾十年來,深度學(xué)習(xí)領(lǐng)域開展了大量的創(chuàng)新工作,這幫助計(jì)算機(jī)模仿了生物視覺的某些功能。受到動(dòng)物視覺皮層研究的啟發(fā),卷積層在查找視覺數(shù)據(jù)中的模式方面非常有效。池化層有助于概括卷積層的輸出,并使其對(duì)視覺圖案的位移不太敏感。卷積層和池化層堆疊在一起,可以從發(fā)現(xiàn)微小圖案(物體的棱角和邊緣等)到復(fù)雜的對(duì)象(面部、椅子、汽車等)。

但是,人工神經(jīng)網(wǎng)絡(luò)的高級(jí)架構(gòu)與人們對(duì)哺乳動(dòng)物視覺皮層的了解之間仍然存在不匹配。

Kreiman說:“不幸的是,層這個(gè)術(shù)語有點(diǎn)含糊。在計(jì)算機(jī)科學(xué)中,人們使用層來表示不同的處理階段(層主要類似于大腦區(qū)域)。在生物學(xué)中,每個(gè)大腦區(qū)域包含六個(gè)皮質(zhì)層。我認(rèn)為六層結(jié)構(gòu)(其連通性與微電路類似)非常關(guān)鍵。人們還不清楚應(yīng)該在神經(jīng)網(wǎng)絡(luò)中包含該電路的哪些方面。”

此外,正如Kreiman在《生物學(xué)和計(jì)算機(jī)視覺》一書中強(qiáng)調(diào)的那樣,大腦中的信息向多個(gè)方向移動(dòng)。光信號(hào)從視網(wǎng)膜移到下顳葉皮層,再移到視覺皮層的V1、V2和其他層。但每一層也向它的上一層提供反饋。在每一層中,神經(jīng)元彼此交互并傳遞信息。所有的相互作用和相互聯(lián)系都有助于大腦填補(bǔ)視覺輸入的空白,并在信息不完整時(shí)進(jìn)行推斷。

相比之下,在人工神經(jīng)網(wǎng)絡(luò)中,數(shù)據(jù)通常是單向移動(dòng)的。卷積神經(jīng)網(wǎng)絡(luò)是一種“前饋網(wǎng)絡(luò)”,這意味著信息只從輸入層傳遞到更高層和輸出層。

還有一種叫做“反向傳播”的反饋機(jī)制,可以幫助糾正錯(cuò)誤和調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)。但反向傳播算法計(jì)算量大,并且僅用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。目前還不清楚反向傳播是否直接對(duì)應(yīng)于皮質(zhì)層的反饋機(jī)制。

另一方面,將較高層的輸出與前一層的輸入相結(jié)合的遞歸神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺中的應(yīng)用還很有限。

[[400238]]

在視覺皮層(圖右)中,信息沿多個(gè)方向移動(dòng)。而在神經(jīng)網(wǎng)絡(luò)(圖左)中,信息只能向一個(gè)方向移動(dòng)

Kreiman指出,橫向移動(dòng)和自上而下的信息流對(duì)于將人工神經(jīng)網(wǎng)絡(luò)引入其生物學(xué)對(duì)應(yīng)物至關(guān)重要。

他說:“水平連接(即同一層內(nèi)單元的連接)對(duì)于某些計(jì)算可能至關(guān)重要。自上而下的連接(即從一個(gè)層中的單元到下面一個(gè)層中的單元的連接)對(duì)于做出預(yù)測,引起關(guān)注,合并上下文信息等可能至關(guān)重要。”

他還指出,神經(jīng)元具有當(dāng)前神經(jīng)網(wǎng)絡(luò)中所缺少的復(fù)雜的時(shí)間整合特性。

目標(biāo)差異

人類功能的進(jìn)化成功地開發(fā)了可以完成許多任務(wù)的神經(jīng)架構(gòu)。多項(xiàng)研究表明,人們的視覺系統(tǒng)可以根據(jù)想要實(shí)現(xiàn)的目標(biāo)動(dòng)態(tài)調(diào)整其敏感度。然而,對(duì)于希望創(chuàng)造具有這種靈活性的計(jì)算機(jī)視覺系統(tǒng)來說仍然是一個(gè)重大挑戰(zhàn)。

當(dāng)前的計(jì)算機(jī)視覺系統(tǒng)是為完成單項(xiàng)任務(wù)而設(shè)計(jì)的。例如有神經(jīng)網(wǎng)絡(luò)可以分類對(duì)象、定位對(duì)象,將圖像分割成不同的對(duì)象、描述圖像、生成圖像等。但是每個(gè)神經(jīng)網(wǎng)絡(luò)都只能單獨(dú)完成一個(gè)任務(wù)。

Gabriel Kreiman編著的《生物和計(jì)算機(jī)視覺》

Kreiman說,“一個(gè)核心問題是理解‘視覺慣例’,人類怎么樣才能以任務(wù)相關(guān)的方式靈活地傳遞視覺信息呢?基本上可以在一張圖片上回答更多的問題。不只是標(biāo)記對(duì)象,還可以計(jì)算對(duì)象,可以描述它們的顏色、相互作用、大小等等。我們可以建立神經(jīng)網(wǎng)絡(luò)來做這些事情,但是并不能建立同時(shí)做這些事情的神經(jīng)網(wǎng)絡(luò)。有一些有趣的方法可以通過問答系統(tǒng)來實(shí)現(xiàn)這一點(diǎn),但這些算法雖然令人興奮,但仍然相當(dāng)原始,尤其是與人類的表現(xiàn)相比。”

整合差異

對(duì)于人類和動(dòng)物來說,視覺與嗅覺、觸覺和聽覺密切相關(guān)。視覺皮層、聽覺皮層、體感皮層、嗅覺皮層相互作用,并從彼此那里獲取線索,以調(diào)整它們對(duì)世界的推斷。在而另一方面,在人工智能系統(tǒng)中,每種事物都是獨(dú)立存在的。

那么,科學(xué)家是否需要這種集成來制作更好的計(jì)算機(jī)視覺系統(tǒng)?Kreiman 說:“作為科學(xué)家,通常經(jīng)常喜歡將問題進(jìn)行分解并逐一解決。我個(gè)人認(rèn)為這是一個(gè)合理的起點(diǎn),可以看到更清楚,雖然不能嗅到也不能聽見。這就像看一部卓別林所演的無聲電影(沒有聲音和文字),但人們也可以了解很多事情。如果一個(gè)人天生聾啞,他們?nèi)匀荒芸吹煤芮宄?。?dāng)然,還有很多例子涉及各種模式之間有趣的交互,但是我認(rèn)為,通過這種簡化,可以取得很大的進(jìn)步。”

然而,更復(fù)雜的一個(gè)問題是視覺與大腦更復(fù)雜區(qū)域的整合。人類的視覺與其他大腦功能如邏輯、推理、語言和常識(shí)等緊密結(jié)合。

Kreiman說:“解決某些視覺問題可能會(huì)花費(fèi)'更多的時(shí)間,并且需要將視覺輸入與有關(guān)世界的現(xiàn)有知識(shí)相結(jié)合。”

他以美國前總統(tǒng)巴拉克·奧巴馬的照片為例。要了解這張照片到底發(fā)生了什么,就需要具備一些世界知識(shí)、社會(huì)知識(shí)和常識(shí)。

[[400240]]

例如,人工智能系統(tǒng)需要知道體重秤上的人在做什么,奧巴馬在做什么,誰在笑,他們?yōu)槭裁磿?huì)笑等各種細(xì)節(jié)。回答這些問題需要處理大量信息,其中包括生活知識(shí)(體重秤測量體重)、物理知識(shí)(奧巴馬的腳會(huì)施加力)、心理知識(shí)(許多人對(duì)體重有自己的估測,如果他們的體重遠(yuǎn)高于平常的體重會(huì)感到驚訝),社交理解(有些人認(rèn)為是在開玩笑,有些人則不是)。

Kreiman說,“當(dāng)前的人工智能架構(gòu)無法做到這一點(diǎn)。所有這些都將需要?jiǎng)討B(tài)(人們并沒有立即意識(shí)到這一切,并且通常使用更多功能來理解圖像)和自上而下的信號(hào)的整合。”

語言和常識(shí)等領(lǐng)域本身對(duì)于人工智能社區(qū)是一些巨大挑戰(zhàn)。但這些問題能否單獨(dú)解決,并與愿景一起整合,還是整合本身才是解決所有問題的關(guān)鍵,這還有待觀察。

Kreiman說:“在某個(gè)時(shí)候,我們需要深入到認(rèn)知的其他方面,很難想象如果不涉及語言和邏輯,如何整合認(rèn)知。我希望在未來的幾年,將更多的語言和邏輯融入到視覺模型中(或者反過來也將視覺融入到語言模型中),這將會(huì)有令人興奮的重大進(jìn)展。”

原文標(biāo)題:Understanding the differences between biological and computer vision,作者:Ben Dickson

【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2023-07-07 10:53:08

2023-11-20 22:14:16

計(jì)算機(jī)視覺人工智能

2020-08-04 10:24:50

計(jì)算機(jī)視覺人工智能AI

2020-11-05 13:50:23

計(jì)算機(jī)視覺

2023-04-04 08:25:31

計(jì)算機(jī)視覺圖片

2020-08-20 10:41:12

人工智能檢查圖像分割

2021-08-31 10:02:17

人工智能AI計(jì)算機(jī)視覺

2020-06-26 08:32:55

計(jì)算機(jī)視覺人工智能智能

2024-09-12 17:19:43

YOLO目標(biāo)檢測深度學(xué)習(xí)

2024-03-01 10:08:43

計(jì)算機(jī)視覺工具開源

2023-06-26 10:44:42

2023-09-04 15:15:17

計(jì)算機(jī)視覺人工智能

2020-05-13 20:35:05

物聯(lián)網(wǎng)安全技術(shù)

2023-03-06 10:30:27

零售業(yè)人工智能

2025-05-26 08:36:25

Gemini模型聊天機(jī)器人Gemini

2020-12-24 13:44:14

計(jì)算機(jī)互聯(lián)網(wǎng) 技術(shù)

2022-05-16 13:46:30

計(jì)算機(jī)視覺人工智能機(jī)器學(xué)習(xí)

2021-01-14 21:40:40

機(jī)器學(xué)習(xí)計(jì)算機(jī)視覺圖像數(shù)據(jù)集

2019-10-31 16:14:28

物聯(lián)網(wǎng)機(jī)器學(xué)習(xí)AI

2023-06-30 14:01:00

增強(qiáng)現(xiàn)實(shí)AR和VR
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 91看国产 | 久久蜜桃资源一区二区老牛 | 午夜天堂精品久久久久 | 国产一级视频免费播放 | 97caoporn国产免费人人 | 国产成人午夜精品影院游乐网 | 亚洲日本一区二区三区四区 | 成人午夜免费网站 | 中文在线一区二区 | 国产精品99久久久久久动医院 | 在线观看国产视频 | 欧美性生活视频 | 日日骚视频 | 成人久久18免费网站麻豆 | 国产成人精品久久二区二区 | 日本不卡一区二区三区在线观看 | 国产精品18hdxxxⅹ在线 | 日韩一区二区三区av | 国产二区在线播放 | 久久精品一区二区 | 国产精品入口久久 | 日韩在线一区二区三区 | 免费国产一区 | 在线视频一区二区三区 | 久久久久久国产精品免费免费 | 成人免费观看男女羞羞视频 | 国产一在线 | 另类视频在线 | 高清欧美性猛交 | 久久网站黄 | 一区二区不卡 | 99亚洲精品| 久久伊人一区 | 亚洲视频在线播放 | 日本特黄a级高清免费大片 特黄色一级毛片 | 五月天激情综合网 | 成人二区三区 | 影音先锋欧美资源 | 免费xxxx大片国产在线 | 国产欧美一区二区三区在线播放 | 久久美女网 |