Gemini負責人爆料！多模態統一token表示，視覺至關重要

2025-07-04 08:43:00

人工智能新聞

就在剛剛，Gemini模型行為產品負責人Ani Baddepudi在谷歌自家的開發者頻道開啟了爆料模式。

一次性揭秘Gemini多模態技術！

就在剛剛，Gemini模型行為產品負責人Ani Baddepudi在谷歌自家的開發者頻道開啟了爆料模式。

他和OpenAI前員工、現谷歌AI Studio產品負責人（Logan Kilpatrick，右）探討了諸多眾人好奇已久的問題：

為啥Gemini一開始就被設計為原生多模態？
將圖像和視頻轉化為token時，是否會存在壓縮損失或信息丟失？
Gemini 2.5為何在視頻理解方面表現出色？
多模態框架下，一個能力的提升是否會帶動其他能力的整體提升？
……

一言以蔽之，整個談話幾乎都圍繞著Gemini多模態展開，包括其背后設計理念、當前應用以及未來發展方向。

之所以這場談話值得關注，實在是因為Gemini多模態過于響當當和重要了。

2023年12月，谷歌原生多模態Gemini 1.0模型正式上線，一舉將AI競賽由ChatGPT主導的文本領域帶入多模態領域。

而最新的Gemini 2.5 Pro（0605），不僅在代碼、推理等任務上更上一層樓，而且還拿下視覺能力第一，可以說夯實了谷歌在多模態領域的領先地位。

此時回看Gemini當時的一些設計理念，會發現其前瞻性與創新性不僅為后續的發展奠定了堅實基礎，而且對未來仍具有指導意義。

敲黑板，整場談話干貨滿滿，咱們這就開始~

為啥Gemini一開始就被設計為多模態？

一個智能體的世界如果只有文字，能讀懂莎士比亞、能編寫代碼，甚至可以和你進行深入的哲學對話，但它看不到屏幕上跳動的圖標、認不出廚房正在烹飪的食材、不能理解一幅畫或者一段視頻的意境。

這樣的智能體完整嗎？

谷歌的Gemini模型給出了一個響亮的答案：不，不完整。

而這，就是Gemini在誕生之初就被設計為多模態的根本原因。

訪談一開始，Logan Kilpatrick就問了這個根源性的問題：

為什么Gemini從一開始就被設計為多模態模型？

Ani Baddepudi強調，如果想要構建通用人工智能（AGI）和強大的AI系統，那么多模態的能力必不可少。

最初的目標是為了讓模型能夠像人類一樣看世界，而視覺是人類感知世界的核心組成部分，許多領域（如醫學、金融）的任務都有很大的視覺成分，因此多模態設計至關重要。

Gemini作為一個原生的多模態模型，這意味著它并非將不同的單一模態模型拼湊起來。

而是從零開始，將文本、圖像、視頻和音頻等所有模態都轉化為統一的“token表示”，并在這些信息上進行協同訓練。

既然提到了信息“token化”，Logan Kilpatrick繼續尋求爆料：

將圖像、視頻轉化為token表示時，是否存在信息損失？模型是如何處理的？

在這個問題上，Ani Baddepudi承認，將圖像、視頻轉化為token表示時會有一些固有的信息損失，如何使特征表示的損失更小是一個需要持續研究的問題。

但令人驚訝的是，模型看到足夠多的圖像和視頻后，即使采樣率較低，比如以每秒一幀（1FPS）的速度采樣，模型依然能呈現良好的泛化能力。

Gemini 2.5在視頻理解上“令人驚嘆”

接下來Logan Kilpatrick還特意cue到了Gemini 2.5系列模型。

在他之前的一篇推文中，Gemini 2.5 Pro在視頻理解方面的SOTA成績令人印象深刻。

而對于這一亮點，Ani Baddepudi也補充了更多細節。

不過在展開前，他也再次感嘆：

Gemini 2.5在視頻理解方面相當令人驚嘆!

第一，它解決了之前模型在魯棒性方面的問題。

舉個例子，之前給模型輸入1小時視頻，通常它只會關注前5~10分鐘，然后對視頻其余部分的關注就逐漸減弱，所以團隊針對長上下文視頻進行了改進。

第二，它意味著，團隊將核心視覺能力的改進泛化到了視頻。

簡單而言，Gemini 2.5真正解鎖了視頻作為信息媒介的能力，能夠完成將視頻轉換為代碼（如食譜、講座筆記）等非常實用的任務。

第三，它讓團隊看到了多模態能力的正向遷移以及多項視覺能力整合。

Ani Baddepudi表示，擁有一個單一多模態模型的好處在于，能夠看到大量的積極能力遷移。

就拿Gemini 2.5“視頻轉代碼”功能來說，這其實是因為模型在代碼處理能力方面本身就更強大。

其次，過去需要獨立模型處理的OCR、檢測、分割等能力，現在都整合進了Gemini中，從而帶來了許多新的用例。

例如轉錄視頻時，既需要強大的OCR能力，也需要強大的時間理解能力，才能讓模型理解視頻中發生了什么然后進行轉錄。

還包括讓Ani Baddepudi等人感到興奮的一個用例——結對程序員，即通過流式傳輸IDE視頻，然后詢問代碼庫問題。這需要模型具備強大的編碼、核心視覺（空間理解、OCR）以及對視頻中信息隨時間變化的理解能力。

總之，按照Ani Baddepudi的說法，Gemini是少數能夠進行視頻輸入和最先進視頻理解的基礎模型之一。

當然，這背后也離不開一些關鍵技術。

據Ani Baddepudi透露，要讓Gemini理解視頻，它需要同時理解音頻和視覺部分。

這是一個相當棘手的問題，因為你需要這些東西對齊。

目前的解決方案是，在視頻的每個給定時間塊（或小片段）內，將該時間塊的音頻信息和與該音頻對應的視頻幀（即圖像）交錯在一起進行處理。

所謂“交錯”是指，將同時發生的音頻和視覺信息捆綁或混合起來，供模型共同學習和理解。

這一方法在泛化方面非常出色，能讓模型很好地理解視頻，表現非常自然。

此外，盡管當前主要以1FPS（每秒幀數）采樣進行訓練，但通過更高效的token化方式（每幀用64個token表示，而非之前的256個），模型能夠在較低細節下實現令人驚訝的高性能。

通過這一方式，Gemini現在可以處理長達6小時的視頻，擁有200萬上下文token。

而且Ani Baddepudi表示，團隊正在努力支持更高幀率的視頻理解，以應對如高爾夫揮桿分析、舞蹈動作評判等需要更精細時間細節的用例。

“萬物皆視覺”的產品理念

Ani Baddepudi還提到了Gemini“萬物皆視覺”的產品理念。

他將視覺用例分為三類，這些分類指導著產品開發的方向。

第一種是現有模型能做到的。

比如傳統的OCR（光學字符識別）、翻譯、圖像檢索（例如Google Lens用于購物）、以及分類（例如識別植物或動物）等。

第二種是人類專家能夠做到的。

比如文檔分析、內容整理與視頻理解與推理等，這些任務通過Gemini的視覺能力能夠更高效、無損地完成。

第三種是超越人類或在可行時間內無法完成的任務。

比如將講座視頻轉換為可交互式學習的應用程序、在烹飪時主動提醒何時加入食材。

再比如，當你在城市中行走時，可以通過視覺向Gemini提問關于周圍事物的問題，而不需要費力地將問題轉化為文本。

這就需要模型不僅能夠看到屏幕上的內容，還能看到真實的物理世界。

關于未來產品的體驗，Ani Baddepudi給出了極具吸引力的回答：

想象你有一個專家人類在你的肩膀上，看到你所能看到的一切，并幫助你完成事情。

關于Gemini多模態團隊

聊天最后， Ani Baddepudi分享了Gemini多模態團隊的協作方式和工作重心。

在他看來，要想實現多模態能力，這離不開一支龐大的研究隊伍。

多模態之所以令人驚嘆，是因為它擁有如此多的能力，而要實現這些能力，一個非常困難的問題是需要將這些能力整合到一個單一模型中，并確保每種能力都能表現出色。

就是說，每整合一種能力都需要相關方向的大量人才。

然后，他進一步解釋了團隊如何將研究轉化為產品。

首先，團隊深入思考開發者和消費者將如何使用這些視覺能力，并努力將這種直覺融入到模型中，形成了緊密的產品-模型反饋循環。

一年后、兩年后、五年后人們將如何與這些模型互動？

因為在Ani Baddepudi看來，今天開發的許多能力都是構建未來愿景的基石。

而且他認為接下來的重點是，如何讓這些模型感覺更自然、更具交互性。

目前許多AI產品都是“回合制”系統（即你查詢模型，它返回答案，然后你再次查詢），這感覺“不自然”且“有點過時”。

至于具體如何實現，Ani Baddepudi從模型行為角度出發歸納了以下幾點：

賦予模型同理心（empathy）；
讓模型不僅能夠理解用戶，還要能理解用戶的隱含意圖；
在平衡Gemini現有強大原生能力的同時，賦予模型“個性”（personality）。

同時他還提到，鑒于目前許多AI用例只返回大量文本，他正在思考是否能用有趣的視覺形式來以更信息密集或“高熱量”（high-calorie）的方式傳達信息。

這也許是讓Gemini變得“友好”且“易于交流”的關鍵突破點。

責任編輯：張燕妮來源：量子位

模型 AI 訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Gemini負責人爆料！多模態統一token表示，視覺至關重要

為啥Gemini一開始就被設計為多模態？

Gemini 2.5在視頻理解上“令人驚嘆”

“萬物皆視覺”的產品理念

關于Gemini多模態團隊