像嬰兒一樣學習，DeepMind新模型28小時學會物理世界規(guī)則

作者：小舟、陳萍編譯 2022-07-12 16:46:45

從 AlphaFold? 到數(shù)學推理，DeepMind 一直在嘗試將 AI 和基礎科學結(jié)合。現(xiàn)在，DeepMind 又創(chuàng)建了一個可以學習簡單物理規(guī)則的新模型。

?Deepmind 旨在建立一個能夠?qū)W習直觀物理學的模型，并剖析模型實現(xiàn)這種能力的原因。

發(fā)育心理學家測試分析了嬰兒如何通過目光來跟隨物體的運動。例如，當播放視頻中有一個球突然消失時，孩子們會表現(xiàn)出驚訝。

DeepMind 的計算機科學家 Luis Piloto 及其同事希望為人工智能 (AI) 開發(fā)類似的測試。該團隊使用立方體和球等簡單物體的動畫視頻訓練了一個神經(jīng)網(wǎng)絡，該模型通過從大量數(shù)據(jù)中發(fā)現(xiàn)模式來學習。研究論文于 7 月 11 日發(fā)表在《Nature Human Behaviour》上。

論文地址：https://www.nature.com/articles/s41562-022-01394-8
數(shù)據(jù)集地址：https://github.com/deepmind/physical_concepts

該模型通過自動編碼和跟蹤對象進行物理學習，因此命名為 PLATO (Physics Learning through Auto-encoding and Tracking Objects)。PLATO 接收來自視頻的原始圖像和突出顯示場景中每個對象目標的圖像版本。PLATO 旨在開發(fā)對象物理特性的內(nèi)部表征，例如它們的位置和速度。

該系統(tǒng)接受了大約 30 個小時的視頻訓練，這些視頻展示了簡單的運動機制（例如一個球從斜坡上滾下來），并開發(fā)了預測這些對象在不同情況下行為的能力。特別地，PLATO 學習了連續(xù)性和穩(wěn)固性，保證目標的軌跡是不間斷的，物體形狀是持久的。隨著視頻的播放，模型的預測會變得更加準確。

當播放帶有「不可能」事件的視頻時，例如一個物體突然消失，PLATO 可以度量視頻和它自己的預測之間的差異，從而提供一種「驚訝」的衡量標準。

Piloto 說：「PLATO 并非設計為嬰兒行為模型，但它可以測試關于人類嬰兒如何學習的假設。我們希望認知科學家最終可以使用它來模擬嬰兒的行為。」

英屬哥倫比亞大學的計算機科學家 Jeff Clune 表示，「將 AI 與人類嬰兒的學習方式進行比較是一個重要的研究方向。PLATO 的研究者手工設計了許多賦予人工智能模型優(yōu)勢的先驗知識。」Clune 等研究人員正試圖讓程序開發(fā)自己的算法來理解物理世界。

運用發(fā)展心理學的知識

為了在 AI 系統(tǒng)中追求更豐富的物理直覺，DeepMind 的研究團隊從發(fā)展心理學中汲取靈感。研究團隊構(gòu)建了一個深度學習系統(tǒng)，該系統(tǒng)整合了發(fā)展心理學的核心見解，即物理學是在離散對象及其相互作用的層面上理解的。

直覺物理學的核心依賴于一組離散的概念（例如，對象的持久性、穩(wěn)固性、連續(xù)性等），可以區(qū)分、操作和單獨探測。傳統(tǒng)的 AI 學習直觀物理的標準方法通過視頻或狀態(tài)預測指標、二元結(jié)果預測、問答性能或強化學習任務來學習物理世界。這些方法似乎需要理解直覺物理學的某些方面，但并沒有明確地操作或戰(zhàn)略性地探索一組明確的概念。

另一方面，發(fā)展心理學認為一個物理概念對應于一組未來如何展開的期望。例如人們期望物體不會神奇地從一個地方突然傳送到另一個地方，而是通過時間和空間追蹤連續(xù)的路徑，這就有了連續(xù)性的概念。因此，有一種測量特定物理概念知識的方法：違反期望 (VoE) 范式。

使用 VoE 范式探索特定概念時，研究人員向嬰兒展示視覺上相似的陣列（稱為探測（probe）），這些陣列與物理概念一致（物理上可能）或不一致（物理上不可能）。在這個范式中，「驚訝」是通過凝視持續(xù)時間來衡量的。

方法介紹

首先，DeepMind 提出了一個非常豐富的視頻語料庫 ——Physical Concepts 數(shù)據(jù)集。該數(shù)據(jù)集包含 VoE 探測視頻，針對五個重要的物理概念，這些概念在發(fā)展心理學中被視為核心要素，包括連續(xù)性、目標持久性和穩(wěn)固性。第四種是不可變性，用于捕捉某些目標屬性 (例如形狀) 不會改變的概念；第五個概念是方向慣性，涉及到運動物體在與慣性原理一致的方向上發(fā)生變化的期望。

最重要的是 Physical Concepts 數(shù)據(jù)集還包括一個單獨的視頻語料庫作為訓練數(shù)據(jù)。這些視頻展示了各種程序生成的物理事件。

圖 2：用于訓練模型的視頻數(shù)據(jù)集示例

PLATO 模型架構(gòu)

Deepmind 旨在建立一個能夠?qū)W習直觀物理學的模型，并剖析模型實現(xiàn)這種能力的原因。PLATO 模型中實例化了 AI 領域一些先進的系統(tǒng)。

首先是目標個性化過程。目標個性化過程將視覺的連續(xù)感知輸入切割成一組離散的實體，其中每個實體都有一組對應的屬性。在 PLATO 中，每個分段的視頻幀通過感知模塊分解為一組目標代碼（圖 3a-c），從而實現(xiàn)從視覺輸入到個體目標的映射。PLATO 沒有學習分割場景，但給定一個分割目標，其學習一個壓縮表示。

其次，目標跟蹤（或目標索引）為每個目標分配一個索引，從而實現(xiàn)跨時間目標感知和動態(tài)屬性計算之間的對應關系（圖 3b，c）。在 PLATO 中，目標代碼在目標緩沖區(qū)中的幀上累積和跟蹤（圖 3d）。

最后一個組件是這些被跟蹤目標的關系處理，這一過程受到發(fā)展心理學中提出的「物理推理系統(tǒng)」的啟發(fā)，該系統(tǒng)可以動態(tài)地處理物體的表征，產(chǎn)生新的表征，這些表征會受到物體與其他物體之間關系和互動的影響。

PLATO 學習目標內(nèi)存和目標感知歷史之間的交互作用（圖 3d），以生成針對下一個目標的預測視頻幀并更新基于目標的內(nèi)存。

圖 3：PLATO 包括兩個組件：感知模塊（左）和動態(tài)預測（右）

實驗結(jié)果

在測試時，當使用五種不同的隨機種子進行訓練時，PLATO 在所有五個探測類別中都顯示出強大的 VoE 效果。

圖 5：PLATO 在 Physical Concepts 數(shù)據(jù)集的探測中顯示出穩(wěn)健的效果。

Physical Concepts 數(shù)據(jù)集中的訓練語料庫共包含 300000 個視頻。用保守計算方法，大約需要 52 天的持續(xù)視覺體驗。從 AI 和開發(fā)的角度來看，這存在一個問題，即在測試中產(chǎn)生 VoE 效果實際上需要多少訓練數(shù)據(jù)。為了評估這一點，Deepmind 在大小逐漸減小的數(shù)據(jù)集上訓練了三個 PLATO 動態(tài)預測器的隨機種子（圖 6），計算了所有五個探測類別的 VoE 效應的總平均值。

在僅對 50000 個示例進行訓練后，研究結(jié)果表明，在使用少至 50000 個示例（相當于 28 小時的視覺體驗）進行訓練后，Deepmind 的模型中出現(xiàn)了穩(wěn)健的 VoE 效果。

圖 6：PLATO 只需短短 28 小時的視覺體驗就能顯示出強大的效果。

泛化測試：Deepmind 采用 ADEPT 數(shù)據(jù)集，該數(shù)據(jù)集旨在探索直觀的物理知識。如圖 7 所示，PLATO 對所有三個探測類別都顯示出清晰的 VoE 效果。

圖 7：PLATO 展示了在不可見目標和動態(tài)上的魯棒效果，而無需任何重新訓練。

更多內(nèi)容，請查看原論文。?

責任編輯：未麗燕來源：機器之心

DeepMind AI AlphaFold?

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

像嬰兒一樣學習，DeepMind新模型28小時學會物理世界規(guī)則

運用發(fā)展心理學的知識

方法介紹

PLATO 模型架構(gòu)

實驗結(jié)果