谷歌Gemini 2.5全線爆發！勇戰「瀕死恐慌」，卻被絲血寶可夢嚇到當場宕機

2025-06-18 14:18:23

人工智能新聞

今天，谷歌旗艦Gemini 2.5三箭齊發，首次亮相輕量版2.5 Flash-Lite。最新70頁技術報告中，爆料了Gemini 2.5在玩寶可夢瀕死時，驚現類人的恐慌，導致推理性能直線下降。

昨夜，Gemini 2.5全家桶三款模型，正式上線。

Gemini 2.5 Pro （正式版，與0605預覽版相比無明顯變化）

Gemini 2.5 Flash（正式版，與0520預覽版相比定價有變）

Gemini 2.5 Flash-Lite（預覽版，最小推理模型）

這次，Gemini 2.5 Flash和Gemini 2.5 Pro正式版上線，與谷歌I/O大會公布的預覽版性能無明顯變化。

2.5 Flash-Lite預覽版則是速度最快、性價比最高的Gemini 2.5系模型。

未開啟思考模式，Flash-Lite版輸入價格僅為0.1美元/百萬token，輸出價格0.4美元/百萬token。

基準測試顯示，2.5 Flash-Lite版（開啟思考模式）在數學、知識問答、編碼、視覺理解、多語種性能上，足以媲美2.5 Flash。

相較于上一代，2.5 Flash-Lite性能提升顯著，尤其是在數學、編碼任務中。

在LMArena榜單中，Gemini-2.5-Flash-Lite在文本競技場中位列第12，創意寫作中第 3，編程中第14，在Hard Prompt中第17。

谷歌VP一個demo告訴你，2.5 Flash-Lite輸出速度，能快到實時編寫每個界面的代碼。

關于Gemini 2.5家族最新進展，全藏在技術報告中了，接下來讓我們一一拆解。

技術報告：https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf

Gemini 2.X家族，一年超進化

谷歌Gemini團隊將這次更新，稱之為「Gemini 2.X模型家族」。

除了如上提到了2.5系列，還包括了2.0系列的一些迭代。

谷歌將Gemini 2.X系列定位于新一代AI模型的發展方向，與此前的1.X系列相比，2.X系列寄托了谷歌打造通用人工智能的愿景。

值得一提的是，谷歌希望把Gemini打造為真正的融合體系，此前谷歌賬號承載的只是用戶信息，但谷歌賬號本身其實不「保留狀態」。

而現在，Gemini正在成為「統一線程」（thread）——串聯起谷歌所有服務的那條線。

Gemini要打造成為一個真正融合在整個谷歌生態系統中的AI助手，Gemin將看到、聽到甚至預知到你的下一個想法。

Gemini 2.X系列的所有模型均原生支持多模態，并支持超過一百萬Token的長上下文輸入，并具備原生工具使用能力。

這使得它們能夠理解海量數據集，并處理來自不同信息源的復雜問題，包括文本、音頻、圖像、視頻，甚至整個代碼倉庫。

Gemini 2.5模型架構

Gemini 2.5模型采用稀疏MoE（Mixture-of-Experts）模型，能夠原生支持文本、視覺和音頻輸入的多模態處理。

模型架構方面的改進讓Gemini 2.5的能力相較于Gemini 1.5 Pro提升顯著。

Gemini 2.5模型在Gemini 1.5處理長上下文查詢的成功基礎上構建，并融合了新的建模進展。

Gemini 2.5 Pro在處理長達100萬個token的長上下文輸入序列方面超越了Gemini 1.5 Pro。

毋庸置疑，Gemini 2.5 Pro是當前最強模型，在前沿編程、推理基準測試中，刷新了SOTA。

它還具備了頂尖多模態能力，現可解析「長達3小時」的視頻內容，具備了「長上下文+多模態+推理」三位一體的特點。

AI價格領導者和制定者

從價格VS性能這張圖中可以看出，谷歌Gemini 2.X在性價比上建立了強大的護城河。

正如論文所言，Gemini 2.X家族完整覆蓋了模型性能-成本帕累托前沿（Pareto frontier）。

Gemini 2.X性能躍升

Gemini 2.X家族模型，在編程、數學和推理任務上比前代模型都有大幅的躍升。

下面這張多項基準測試圖，全面覆蓋Gemini 2.X的性能。從1.5到2.0，再到2.5，模型在各項指標上表現大幅提升。

而這些變化，僅在過去一年發生的。

橫向對比之后，再來看縱向對比。Gemini 2.5 Pro在多項基準測試中，幾乎刷新SOTA，尤其是在推理方面。

語音理解上，Gemini 2.5 Pro刷新了SOTA。視頻理解方面，Gemini 2.5 Pro超越了GPT-4.1。

與o3/o4-mini、Claude 4 Opus、DeepSeek-R1相比，只有Gemini 2.5 Flash-Lite每秒輸出的token數接近350個。

Gemini 2.5最大的改進在于該系列所有模型都原生的融入了動態「Thinking」能力，能夠根據推理時間的增加進一步增加能力。

面向特定能力的改進

Gemini 2.5進行了專門「領域」能力的優化：代碼處理能力、事實準確性、長文本理解、多語言能力、音頻和視頻處理能力，以及智能體（特別Gemini Deep Research）。

· 代碼能力

Gemini2.0與2.5在代碼能力上實現飛躍，通過優化預訓練與后訓練流程，提升多模態開發效率與實用性。

· 事實性

Gemini模型始終聚焦提升對信息型提問的事實性回應能力。

Gemini 1.5引入FACTS Grounding成為評估標準，2.0具備調用Google搜索、整合實時信息等功能，2.5更增強多跳推理與工具協同分析力。

· 長上下文

Gemini 2.5在模型結構和數據優化下，顯著增強百萬級長上下文處理能力，全面領先于Gemini 1.5。

甚至能從46分鐘視頻中準確回憶1秒事件。

· 多語言能力

多語言能力實現重大飛躍，覆蓋400多種語言。特別在中文、日語、韓語等語言中提升顯著。

· 音頻生成與理解能力雙進化：

Gemini 1.5專注于音頻理解任務（如轉錄、翻譯、問答等），而Gemini 2.5進一步具備音頻生成能力（如文本轉語音和音視頻生成對話）。

模型能實現音頻的流式輸入輸出，支持低延遲對話。

支持超過200種語言。

· 視頻理解與內容生成突破：

將視頻處理效率從每幀258個視覺token優化為66個，使模型可在100萬token窗口內處理約3小時視頻。

新能力包括從視頻中自動生成互動應用（如測試題）和p5.js動畫，用于可視化關鍵概念。

· 智能體能力躍升：Gemini Deep Research：

基于Gemini 2.5 Pro的Deep Research Agent可自動瀏覽網頁、解決小眾問題，并具備任務優先級排序及「死胡同」識別能力。

在「人類最后考試」（Humanity’s Last Exam benchmark）基準測試中的表現從 7.95% 提升至當前的 26.9%。

如果使用更高算力甚至能達到32.4%，展現出前沿的搜索與推理能力。

想要體驗Gemini的所有系列模型，可以在Google AI Studio上免費使用，各個模型的對應關系如下圖所示。

在Gemini 2.5全面推出后，2.0 Flash/Flash-Lite系列將持續提供，更高性價比的低延遲響應。

致謝彩蛋

在這份長達70頁的Gemini 2.5技術報告中，致謝名單就有12頁（46-58）。

但如果你仔細觀察就會發現，第一列致謝的貢獻者首字母拼起來是：

「GEMINI MODELS CAN THINK AND GET BACK TO YOU IN A FLASH」

翻譯過來就是，GEMINI模型能快速思考并立即給出回應，這也是極客的浪漫吧。

挑戰寶可夢「絲血」就會「恐慌」

另外，Gemini在玩「寶可夢」游戲中，展現了超強推理能力與長時程任務連貫性的能力。

它在設定超800小時長期目標中，成功挑戰了整個游戲。而且，在第二次自主運行時，完成的時間幾乎縮短一半。

技術報告第4部分，詳細介紹了Gemini挑戰「寶可夢」的驚人旅程。

獨立開發者Joel Zhang最先發起，讓Gemini 2.5去通關。AI首次耗時813小時，成功進入了名人堂，成為了寶可夢聯盟冠軍。

更令人振奮的是，Joel于5月22日讓升級版Gemini 2.5再次開啟全自動二周目挑戰時，它的通關速度大幅提升，僅耗時406.5。

如圖所示，關鍵里程碑時間抽，從游戲開局到擊敗四天王，Gemini智能體效率提升清晰可見。

更有趣的是，報告中稱，Gemini 2.5 Pro在挑戰寶可夢生命值低時，會進入一種「慌亂」的狀態，導致推理能力出現質性下降。

雖然AI沒有情緒，但它的行為卻像人類在壓力下做出倉促決定一樣。

比如，當寶可夢瀕臨死亡時，Gemini可能會突然停止使用某些工具，導致游戲表現下滑。

不過，Gemini 2.5 Pro在解決「巨石謎題」上，展現了超乎尋常的能力。

通過創建專門的智能體工具，如路徑規劃器/策略師，Gemini能在沒有任何人類干預情況下，一次性解決冠軍之路的復雜巨石謎題。

2.5 Flash-Lite首亮相速度最快，極致性價比

全新Gemini 2.5 Flash-Lite繼承了Gemini 2.5核心優勢功能。

它支持控制思考預算的能力，可開啟/關閉深度思考，還能無縫連接谷歌搜索、代碼執行等工具。

與2.0 Flash-Lite不同的是，它科技原生支持多模態輸入，有100M token上下文。

谷歌稱，這款模型特別擅長翻譯、分類等高吞吐量、低延遲敏感型任務。

下面這個demo中，是Gemini 2.5 Flash-Lite構建研究原型過程。

它能夠將大型PDF立即轉換成交互式Web應用程序，從而更輕松地匯總和理解密集信息。

它還通過了物理模擬測試。

責任編輯：張燕妮來源：新智元

谷歌模型技術

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看