Sora核心作者掌舵,谷歌世界模型新團隊全球招募:百萬底薪起步
最新消息,Sora核心作者,將領導谷歌世界模型團隊!
Tim Brooks——帶隊Sora研究的兩位負責人之一,也是DALL-E 3作者之一,剛剛發布了一條熱情四溢的推特,廣納天下英才:
DeepMind有雄心勃勃的計劃,要制作大量世界模型。
向著這個使命,我開始招募一個新團隊。快來加入我們吧!
Brooks是AI圈子里十分耀眼的新秀,2023年剛剛從UC博客里博士畢業。
2023年1月起,Brooks開始帶隊研究Sora;2024年2月,Sora初亮相。
但在去年10月,Brooks突然官宣離開OpenAI,跳槽谷歌DeepMind。
當時,谷歌DeepMind的CEO Demis Hassabis就在該推文下回復表示,Brooks將幫助“將世界模擬器這一長期夢想變為現實”。
現在,Brooks真的要帶隊谷歌的世界模型團隊了,并且是從頭開始一手招募籌建。
并且,有人抓住了官宣推文中的華點:
Models,這意味著谷歌要制作的世界模型不是一個,而是很多個!
而官宣推文下面,幾乎都是網友的祝福之語:
谷歌組建世界模型新團隊
目前,Tim Brooks的領英和推特自我簡介都顯示為:
- video gen + world sim at DeepMind
- ex-OpenAI Sora Lead
關于“video gen”,Brooks加入谷歌DeepMind的時間,在廣受好評的Veo 2.0發布之前。
a16z的投資人曾對著Veo 2.0驚嘆,難以置信不到一年的時間里,視頻模型進展如此神速。
目前,Veo 2已經登錄VideoFX,預計明年它將進軍YouTube Shorts等平臺,為內容創作者開啟全新的可能性。
而“world sim”,應該就是目前正在招募的新團隊的肩上重擔了。
根據Brooks鏈接的招聘頁面,新團隊會和谷歌旗下Gemini、Veo和Genie等團隊合作,并在此基礎上解決關鍵的新問題,將世界模型擴展到最高計算水平。
團隊將致力于在構建的世界模型之上開發“實時交互生成”工具;并研究如何將世界模型們與現有的多模態模型,如Gemini等集成。
官方顯示,谷歌世界模型團隊主要招納兩種人才,均要求碩士或博士學位:
- 研究科學家:(美國)全職底薪范圍在136,000美元~245,000美元之間,加獎金、股權和福利。
- 研究工程師:(美國)全職底薪范圍在136,000美元~245,000美元之間,加獎金、股權和福利。
(注:申請崗位時可附上目標地點的具體薪資范圍)
△科學家要求(左圖)和工程師要求(右圖)
谷歌還表示,他們相信,在視頻和多模態數據上擴展預訓練(劃重點)是實現AGI的關鍵路徑。
而世界模型將推動眾多領域,如視覺推理和模擬、具身智能體的規劃以及實時交互娛樂。
谷歌對世界模型的(現階段)理解是什么?
看看去年年底發布的Genie 2,或許可以管窺一二。
24年12月5日,谷歌發布了Genie 2,它是一種自回歸潛空間擴散模型,在大型視頻數據集上訓練。
Genie 2可以實現一張圖生成無限多樣的3D游戲世界,生成的3D世界可響應鍵鼠操作,可玩、可控制。
與此前研究相比,Genie 2擁有長期記憶,即使玩家把視角轉開,再回來時也可穩定渲染世界中已存在的部分;游戲世界中還可以有其他AI NPC存在,與玩家控制的角色進行復雜交互。
但最重要的目標,不是拿來玩——
Genie 2可用于訓練和評估具身智能體,通過創建豐富多樣的環境,可以生成AI在訓練期間沒見過的評估任務。
盡管這項研究仍處于早期階段,在智能體和環境生成能力方面仍有大量改進空間,但谷歌表示:
我們相信Genie 2是解決在安全訓練具身智能體的同時,滿足實現通往AGI所需的廣度和通用性要求。
△Genie 2能通過prompt訓練Agent打開正確的門
世界模型,下一個角逐賽點?
2024年,AI技術在多元方向持續突破,視頻生成、世界模型、具身智能和空間智能等技術推動了人類對AGI的探索。
尤其在世界模型領域,許多初創公司和大型科技公司正在追逐世界模型。
也難怪乎網友在看到Tim Brooks廣發英雄貼后,在reddit上發出這樣的感慨:
令人驚訝的是,如果這條新聞出現在五年前,我們會驚掉下巴。
但現在,我們就像對待一個普通的星期二一樣對待它。
事實上,世界模型反映了長久以來許多AI研究人員對model-based RL工作的無奈和期待:
模型不夠準確,那么完全在模型里訓練的強化學習效果就不好。
如果能獲得準確的世界模型,就能在世界模型中反復試錯,找到現實的最優決策。
據量子位智庫《2024年度AI十大趨勢報告》,在世界模型領域,研究者們致力于開發能夠模擬和理解真實世界的模型,核心在于通過學習大量數據,使模型能夠自然涌現新的行為和決策能力。
Techcrunch則盤點到,在追逐世界模型的諸多玩家中,除了谷歌這樣的科技巨頭,還有不少耀眼的初創玩家。
譬如李飛飛的World Labs(雖然現在大家更多將它的目標定位于空間智能),以及Decart、 Odyssey等公司。
該領域普遍認為,世界模型可能能用來創建交互式媒體,如視頻游戲和電影;以及運行現實模擬,如機器人/具身智能的訓練環境。
目前,除了技術尚未達到心目中的理想水平,還有幾道坎擺在世界模型前進之路上。
一個是版權,一些世界模型似乎是在游戲游玩剪輯片段上訓練的。
那咱就不得不提谷歌世界模型新團隊的最大優勢了——是誰擁有Youtube里上億小時的游戲視頻數據,我不說。
另一個是相關內容創作從業者的反對。
不過值得一提的是,其中一些初創玩家,如Odyssey,承諾將與3D內容領域的創意從業者合作作,而非取代他們。
暫不知道谷歌會怎么做。
One More Thing
最后,提一個網友們從谷歌世界模型新團隊JD細則里發現的華點。
谷歌DeepMind寫道:
We believe scaling pretraining on video and multimodal data is on the critical path to artificial general intelligence.
劃重點, scaling pretraining。
而早些時候,在NeurIPS上,Ilya公開宣判:
預訓練時代即將終結!
雖然也可以理解為,Ilya特指的是大語言模型的預訓練時代,谷歌DeepMind特指的是世界模型的預訓練。
但……誰知道呢,你說是不(手動狗頭)。
參考鏈接:
[1]https://techcrunch.com/2025/01/06/google-is-forming-a-new-team-to-build-ai-that-can-simulate-the-physical-world/
[2]https://techcrunch.com/2024/10/03/a-co-lead-on-sora-openais-video-generator-has-left-for-google/
[3]https://www.linkedin.com/in/timothyebrooks/
[4]https://x.com/_tim_brooks/status/1876327325916447140
[5]https://www.reddit.com/r/singularity/comments/1hvbzyp/google_is_forming_a_new_team_to_build_ai_that_can/。