成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

年齡兩歲,教齡一年半:嬰兒AI訓練師登上Science

人工智能 新聞
只用 61 個小時的數據:人們終于證明了,利用當代 AI 工具,實現「真正的語言學習」是可行的。

在公開采訪中,圖靈獎得主 Yann LeCun 多次提到,現在的 AI 模型和人類嬰兒相比,學習效率實在是太低了。那么,如果讓一個 AI 模型去學習嬰兒頭戴攝像頭拍到的東西,它能學到什么?

最近,Science 雜志上的一篇論文進行了初步嘗試。研究發現,即使數據有限,AI 模型也能從 10 到 100 個例子中學到單詞 - 視覺所指對象之間的映射,而且能夠零樣本地泛化到新的視覺數據集,并實現多模態對齊。這說明,利用當今的人工智能工具,從嬰兒的視角進行真正的語言學習是可能的。

圖片

年齡兩歲,教齡 1 年半

Sam 是怎么教 AI 學習的?

這一次,人工智能通過嬰兒的視角看世界來學習語言。

圖片

神經網絡通過人類嬰兒的視覺經驗,自行學會了識別物體,這為人類學習提供了新的見解。

圖片

AI 通過 Sam 佩戴的頭盔式攝像機所拍攝的音視頻學習。

當嬰兒聽到「球」這個詞時,他們是如何將這個詞的語義與圓形、有彈性的物體(即正確的視覺所指對象)聯系起來的呢?哲學家和認知科學家都認為,嬰兒在學習新詞時,需要從眾多候選意項中挑出正確的那一個。

嬰兒非常擅長學習詞匯。在 6 到 9 個月大的時候,他們開始將單詞與眼前的物體建立起音形義的聯系。到 18 到 24 個月大的時候,他們已經能理解約 300 個單詞。

那么,孩子們是如何快速學會眼前物體的名稱的呢?他們又是如何建立起物體的意義和其視覺之間的聯系呢?這些問題都需要進一步的探索和研究。

此前,已有一些相關理論在實驗中得到了驗證。有學者認為單詞學習是由簡單的、能串聯起各領域的聯想學習機制驅動的。但是這些理論通常是在嬰兒不同的成長時間段測量的,不能揭示某種促進單詞學習因素的相對重要性,也不能從中構建計算模型、為計算機模型能獲得像人一樣的學習能力提供指導。

如果一個模型能夠通過孩子的眼睛和耳朵感知世界,那么它是否像解釋人類詞匯學習能力的聯想學習理論一樣,能夠僅通過基于物體表征的聯想學習,理解并整合物體的形體和語義呢?或者,它是否需要借助其他的認知能力,比如歸納偏置(inductive biases),來啟動這種能力呢?

為了得到這些問題的答案,來自紐約大學的研究者們對最簡單的詞匯學習理論進行了前所未有的測試:他們給一個嬰兒戴上了頭戴式攝像機,并檢查模型是否能夠從這部攝像機的視頻記錄中學習到單詞與其視覺所指對象之間的映射關系。

戴上攝像機的是來自澳大利亞的 Sam,從 6 個月大到大約 2 歲,他每周頭戴攝像機兩小時(約占清醒時間的 1%)。

研究團隊根據  Sam 的視頻建立了 SAYCam-S 數據集。他們從中選取了 61 個小時的錄像,其中包含 60 萬張視頻幀與 3.75 萬段經過轉寫的錄音,記錄了大約 25 萬個單詞實例以及對應的圖像。這些圖像是 Sam 在玩耍、閱讀和進食等活動期間拍攝的。

研究團隊根據這些數據來訓練神經網絡,并得到了兒童視角對比學習模型 CVCL。CVCL 采用了對比學習的技術,以學習哪些圖像和文本經常一起出現,哪些不會,從而獲得預測某些詞匯(如 “球” 和 “碗”)所指代圖像的能力。

研究發現,CVCL 可以從一個孩子有限的經驗片段中充分學習多模態表示。CVCL 能夠將一系列日常詞匯與分類任務中相應的視覺所指對象匹配起來,大規模對齊視覺和語言概念,并將此能力泛化到訓練中未見過的新例子中。該研究表明,多模態表征學習與領域通用的聯想學習機制相結合,能夠為計算機學習單詞帶來突破

圖片

具體來說,研究者根據多模態模型研究的最新進展設計了 CVCL。CVCL 整合了表示學習和聯想學習,用一個對比目標來協調視覺編碼器和語言編碼器兩個神經網絡。

如圖 1 所示,對比目標以自我監督的方式進行訓練(即只使用兒童視角的記錄,不使用外部標注),模型將目標在視頻幀和語言片段共同出現的情況轉化為向量提取出來,將其視為正面例子,同時將不共同出現的轉化成向量分離出來,視為隱含的負面例子。

提取到正面例子后,CVCL 將這些時間向量轉換為學習和調整多模態表征的學習信號。這種方法既不需要對詞義進行限制,也不需要預先列出可能的視覺所指對象,能從嬰兒記錄的視頻中恢復許多基本的單詞與其視覺所指對象的組合。

評估 CVCL 獲得的詞匯

對應視覺所指對象的結果

訓練完成后,研究團隊評估了 CVCL 以及各種類似的模型學習到的單詞 - 視覺所指對象組合的質量。根據一種針對兒童的常見測試,研究團隊向模型提示了一個目標類別標簽,讓模型根據四個候選圖像與標簽的余弦相似度中選擇相應的視覺所指對象。

圖片

圖 2A 顯示了標簽 S 的測試結果,總體而言,CVCL 的分類準確率為 61.6%。圖 2D 顯示了模型在不同標簽中的具體結果,在 22 個概念中,CVCL 對 11 個概念的判斷與 CLIP 相差不到 5%。但 CLIP 訓練所用的數據量(互聯網的 4 億個圖像文本對)遠超于 CVCL。為了解決分類重疊等潛在問題,研究團隊還手動篩選出了子集進行了后續評估。

為了確定 CVCL 捕捉單詞含義能力的上限和下限,研究團隊還將其與類似模型進行了實驗。為了測試模型將語言和視覺信息對應起來的能力,研究團隊將原數據集中共同出現目標物體的視頻幀和錄音打亂,重新訓練了一個模型的變體 CVCL-Shuffled。被打亂后的模型表現不佳,這顯示了視覺和語言信息共現對模型學習的關鍵作用

為了測試視覺嵌入的有效性,研究者在訓練過程中隨機凍結了 CVCL 的視覺編碼器。盡管模型掌握了如 「沙子 」和 「汽車 」等少數概念,但如圖 2D 處所示,模型的成績再次大幅下降(M = 38.0%)。

研究者比較了 CVCL 與基于其他數據或 Oracle 訓練數據的 AI 模型,其他模型的訓練數據超出了兒童詞匯的范圍。CLIP 的準確率達 66.7%,比 CVCL 高出 5.1%,這得益于 CLIP 更理解少數單詞的含義如「廚房」、「玩具」和「籃子」。

通過以上測試,可見當在一定范圍內測試時,CVCL 的性能可以與基于互聯網規模數據訓練的模型相當。

此外,研究者測試了模型是否能獨立對單詞進行分類,而不是根據某些引導兒童的句子得出了判斷。他們在初始化的預訓練編碼器上對線性分類器進行擬合得到了一個 Linear Probe 模型,新模型準確率達 81.6% ,說明 CVCL 具有獨立判斷能力。

研究團隊量化了在對話中自然出現的單詞相對直接標記示例對模型訓練的價值。如圖 2B 所示,他們使用更少的人工標注數據(使用打過標簽數據的 10% 和 1%)訓練了兩個 Linear Probe 模型,測試結果如下表所示。

圖片

減少了人工標注數據的 Linear Probe 模型,分類準確度分別下降到了 77.2% 和 65.9%。使用了 1% 的標注示例的模型性能略好于 CVCL。通過比較,可以保守估計一個人工標注的至少相當于來自自然語言的七個示例。不過,來自自然語言的數據能更加靈活、更準確地表示兒童學習的內容,并且它可以容納無限數量的視覺概念。

為了研究是否有其他因素影響了單詞 - 視覺所指對象組合的可學習性,研究團隊還訓練了 CVCL 模型的其他變體以作評估。他們改變了模型結構或訓練過程的各個方面,但沒有一個變體的表現優于 CVCL 本身。

綜上所述,研究結果表明,人類最初習得的的單詞-視覺所指對象組合可以從 10 到 100 個自然出現的單詞-視覺所指對象組合中獲得

泛化至全新的視覺實例

為了測試 CVCL 的泛化能力,研究團隊在 Konkle Objects 數據集上進行了實驗。

圖片

從研究嬰兒語言學習的實驗中獲得了靈感,研究團隊為 CVCL 提供了 64 個額外的在白色背景上的單個物體圖像,其對應的單詞都在 CVCL 的詞匯表中。這個實驗使得研究團隊能夠檢查 CVCL 學習的單詞是否能成功泛化到未見過的物體中。

如圖 3A 所示,CVCL 具有一定的泛化能力,在 64 個物體中有 16 個得分高于 50%(正確),另外 42 個概念得分高于 25%(偶然),整體準確率為 34.7%。

此外,兩個 CVCL 的模型變體都接近偶然準確率(CVCL-Shuffled 和 CVCL-Random Features 模型的準確率分別為 25.6% 和 23.4%),而其最佳表現都接近目前 SOTA 方法(CLIP 和 Linear Probe 模型的準確率分別為 99.4% 和 90.7%)。

圖片

這些結果表明了 CVCL 的多模態表征如何允許分布之外的泛化 —— 與該能力其他更大規模的演示一致。為了說明這次評估所需的視覺泛化的程度,圖 3B 展示了嵌入在話語中的單詞的一些自然訓練實例(從孩子的視角),與用于評估的新穎測試圖像相匹配(以及它們的分類準確度)。此外,這次評估與經典嬰兒詞匯學習實驗中呈現的刺激類型非常相似,這表明在實驗室外獲得的表現足以解釋嬰兒如何將實驗室內的視覺刺激泛化到新的視覺刺激。

多模態表征的組織結構

最后,研究者介紹了 CVCL 中學習到的多模態表征結構的三個分析家族。

首先探索的問題是,CVCL 的視覺和語言概念系統在多大程度上是一致的。例如,如果「汽車」的視覺和詞嵌入都獨立地更類似于「道路」而不是「球」,將表明良好的多模態對齊。

使用 Labeled-S 中的 22 個概念,研究者通過隨機抽取 100 個注釋幀,提取其圖像嵌入并跨幀平均計算每個概念的視覺原型。他們還檢索了每個概念相應的詞嵌入。接下來,計算這些嵌入之間的所有余弦相似度(包括模態內和模態間)并使用 t - 分布隨機鄰居嵌入(t-SNE)可視化它們之間的關系,如圖 4A 和 B 所示。在圖 4A 中,虛線表示每個概念相應的視覺質心和詞嵌入之間的距離。

圖片

由于這些跨模態距離中的許多都很小,研究者檢查了概念之間的模態內相似性(通過余弦)是否與視覺和語言相關,發現了概念對齊的顯著程度(相關系數 r = 0.37,p < 0.001)。

這些關系不適用于 CVCL 的兩個下界中的任何一個(圖 S4)。此外,對齊距離也與分類性能呈強烈負相關(r = -0.65,p = 0.001),一些最不準確的類別表現出各自視覺原型和詞嵌入之間的最大距離。圖 4B 展示了每個概念的帶標簽圖像嵌入的子集,強調不同的視覺概念在示例的緊密聚類程度方面存在差異。通過將視覺變化視為概念視覺嵌入與其視覺原型之間的平均歐幾里得距離,研究者還發現與分類性能的強烈負相關(r = -0.48,p = 0.025),這表明 CVCL 在處理「手」和「玩具」等單詞參照映射時的難度與它們的視覺變化有關,與緊密聚類的概念如「汽車」和「嬰兒床」相比。

接下來,研究者可視化了在 CVCL 中不同的詞嵌入如何與圖像嵌入相互作用(圖 4C)。檢查三個不同的概念,他們觀察到模型預測與特定詞嵌入最相似的圖像(以綠色顯示)與每個類別的真實標注圖像集(以藍色顯示)非常接近,完整概念集顯示在圖 S6 中。研究者發現 CVCL 學習將不同視覺相似的項目集合表示為一個概念的不同子簇,盡管每個詞只使用一個向量。例如,「樓梯」的詞嵌入最強烈地激活兩個獨立的集群,分別代表室內和室外樓梯,而「拼圖」產生另外兩個集群,代表字母和動物拼圖。以前的概念學習心理理論通常需要明確、內置的機制來捕捉概念內部的子結構,但在 CVCL 中,我們發現多簇表示通過對比學習隱式地出現。

研究者還定性檢查了 CVCL 定位指代的能力。對于給定的圖像,通過應用 Grad-CAM 獲得一個注意力圖,通過計算最終卷積層特征圖的加權和(使用基于圖像文本余弦相似度梯度相對于特征圖的空域平均值的權重),突出顯示與目標類別最相關的圖像區域。研究者可以將此注意力圖疊加在圖像上,并檢查指代的位置與注意力圖之間的任何對應關系。

圖 5 展示了四個概念中多個注意力圖的示例。對于某些類別,CVCL 的注意力圖提供了物體定位的證據:注意力圖中最高激活的區域緊密跟蹤指代的定位。

圖片

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2011-02-21 10:26:41

人才

2012-07-18 15:09:54

OpenStack開源云計算

2022-05-13 23:06:13

人工智能機器學習數據

2023-03-28 23:32:38

2009-02-06 09:47:42

蘋果iPhone中國移動

2012-03-17 19:41:08

蘋果

2024-12-02 10:00:00

ChatGPTAI

2015-08-19 09:43:47

WEB前端經驗之

2013-07-18 17:20:01

Windows 8操作系統

2011-08-03 10:41:06

Web

2023-12-01 11:05:36

2021-07-14 15:58:10

數據Facebook偷窺

2022-11-09 20:56:01

前端Rome

2021-05-07 10:20:11

前端開發技術

2010-02-04 17:18:15

MVP微軟

2024-04-15 12:53:00

模型訓練

2009-07-01 21:13:49

2021-08-24 09:42:51

AI 數據人工智能

2024-05-13 13:37:10

模型數據

2016-06-17 17:56:22

騰訊
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 可以免费看的毛片 | 97色在线视频 | 欧美成人精品在线 | 亚洲美女一区 | 中文字幕视频免费 | 欧美 日韩 国产 一区 | 成人国产在线观看 | 日韩欧美综合 | 中文字幕在线视频精品 | 红桃视频一区二区三区免费 | 久久99国产精品久久99果冻传媒 | 亚洲欧美中文日韩在线v日本 | 亚洲精品9999 | 成人在线h | 国产欧美一区二区三区在线看 | 懂色一区二区三区免费观看 | 黄色网络在线观看 | 一区二区三区欧美 | 国产成人艳妇aa视频在线 | 日日天天 | 成人欧美日韩一区二区三区 | 亚洲三区在线观看 | 国产91亚洲精品 | 久久九精品 | av在线天堂网 | 亚洲欧洲成人在线 | 国产精品美女久久久免费 | 欧美精品久久久久 | 欧美视频免费在线观看 | 国产精品欧美一区二区 | 中文字幕在线精品 | 亚洲欧洲日韩精品 中文字幕 | 一本一道久久a久久精品蜜桃 | 亚洲精品女优 | 国产传媒在线播放 | 狠狠操狠狠干 | av在线播放一区二区 | 国产精产国品一二三产区视频 | 日日夜夜天天综合 | 一级免费黄色 | 国产精品久久a |