成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌Gemini 2.5全線爆發!勇戰「瀕死恐慌」,卻被絲血寶可夢嚇到當場宕機

人工智能 新聞
今天,谷歌旗艦Gemini 2.5三箭齊發,首次亮相輕量版2.5 Flash-Lite。最新70頁技術報告中,爆料了Gemini 2.5在玩寶可夢瀕死時,驚現類人的恐慌,導致推理性能直線下降。

昨夜,Gemini 2.5全家桶三款模型,正式上線。

Gemini 2.5 Pro (正式版,與0605預覽版相比無明顯變化)  

Gemini 2.5 Flash(正式版,與0520預覽版相比定價有變)  

Gemini 2.5 Flash-Lite(預覽版,最小推理模型)

圖片

這次,Gemini 2.5 Flash和Gemini 2.5 Pro正式版上線,與谷歌I/O大會公布的預覽版性能無明顯變化。

2.5 Flash-Lite預覽版則是速度最快、性價比最高的Gemini 2.5系模型。

未開啟思考模式,Flash-Lite版輸入價格僅為0.1美元/百萬token,輸出價格0.4美元/百萬token。

圖片

基準測試顯示,2.5 Flash-Lite版(開啟思考模式)在數學、知識問答、編碼、視覺理解、多語種性能上,足以媲美2.5 Flash。

相較于上一代,2.5 Flash-Lite性能提升顯著,尤其是在數學、編碼任務中。

在LMArena榜單中,Gemini-2.5-Flash-Lite在文本競技場中位列第12,創意寫作中第 3,編程中第14,在Hard Prompt中第17。

圖片

圖片

圖片

谷歌VP一個demo告訴你,2.5 Flash-Lite輸出速度,能快到實時編寫每個界面的代碼。

關于Gemini 2.5家族最新進展,全藏在技術報告中了,接下來讓我們一一拆解。

圖片

技術報告:https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf

Gemini 2.X家族,一年超進化

谷歌Gemini團隊將這次更新,稱之為「Gemini 2.X模型家族」。

除了如上提到了2.5系列,還包括了2.0系列的一些迭代。

谷歌將Gemini 2.X系列定位于新一代AI模型的發展方向,與此前的1.X系列相比,2.X系列寄托了谷歌打造通用人工智能的愿景。

值得一提的是,谷歌希望把Gemini打造為真正的融合體系,此前谷歌賬號承載的只是用戶信息,但谷歌賬號本身其實不「保留狀態」。

而現在,Gemini正在成為「統一線程」(thread)——串聯起谷歌所有服務的那條線。

Gemini要打造成為一個真正融合在整個谷歌生態系統中的AI助手,Gemin將看到、聽到甚至預知到你的下一個想法。

Gemini 2.X系列的所有模型均原生支持多模態,并支持超過一百萬Token的長上下文輸入,并具備原生工具使用能力。

這使得它們能夠理解海量數據集,并處理來自不同信息源的復雜問題,包括文本、音頻、圖像、視頻,甚至整個代碼倉庫。

Gemini 2.5模型架構

Gemini 2.5模型采用稀疏MoE(Mixture-of-Experts)模型,能夠原生支持文本、視覺和音頻輸入的多模態處理。

模型架構方面的改進讓Gemini 2.5的能力相較于Gemini 1.5 Pro提升顯著。

Gemini 2.5模型在Gemini 1.5處理長上下文查詢的成功基礎上構建,并融合了新的建模進展。

Gemini 2.5 Pro在處理長達100萬個token的長上下文輸入序列方面超越了Gemini 1.5 Pro。

毋庸置疑,Gemini 2.5 Pro是當前最強模型,在前沿編程、推理基準測試中,刷新了SOTA。

它還具備了頂尖多模態能力,現可解析「長達3小時」的視頻內容,具備了「長上下文+多模態+推理」三位一體的特點。

AI價格領導者和制定者

從價格VS性能這張圖中可以看出,谷歌Gemini 2.X在性價比上建立了強大的護城河。

正如論文所言,Gemini 2.X家族完整覆蓋了模型性能-成本帕累托前沿(Pareto frontier)。

圖片

Gemini 2.X性能躍升

Gemini 2.X家族模型,在編程、數學和推理任務上比前代模型都有大幅的躍升。

圖片

下面這張多項基準測試圖,全面覆蓋Gemini 2.X的性能。從1.5到2.0,再到2.5,模型在各項指標上表現大幅提升。

而這些變化,僅在過去一年發生的。

圖片

橫向對比之后,再來看縱向對比。Gemini 2.5 Pro在多項基準測試中,幾乎刷新SOTA,尤其是在推理方面。

圖片

語音理解上,Gemini 2.5 Pro刷新了SOTA。視頻理解方面,Gemini 2.5 Pro超越了GPT-4.1。

圖片

圖片

與o3/o4-mini、Claude 4 Opus、DeepSeek-R1相比,只有Gemini 2.5 Flash-Lite每秒輸出的token數接近350個。

圖片

Gemini 2.5最大的改進在于該系列所有模型都原生的融入了動態「Thinking」能力,能夠根據推理時間的增加進一步增加能力。

圖片

面向特定能力的改進

Gemini 2.5進行了專門「領域」能力的優化:代碼處理能力、事實準確性、長文本理解、多語言能力、音頻和視頻處理能力,以及智能體(特別Gemini Deep Research)。

· 代碼能力

Gemini2.0與2.5在代碼能力上實現飛躍,通過優化預訓練與后訓練流程,提升多模態開發效率與實用性。

·  事實性

Gemini模型始終聚焦提升對信息型提問的事實性回應能力。

Gemini 1.5引入FACTS Grounding成為評估標準,2.0具備調用Google搜索、整合實時信息等功能,2.5更增強多跳推理與工具協同分析力。

· 長上下文

Gemini 2.5在模型結構和數據優化下,顯著增強百萬級長上下文處理能力,全面領先于Gemini 1.5。

甚至能從46分鐘視頻中準確回憶1秒事件。

· 多語言能力

多語言能力實現重大飛躍,覆蓋400多種語言。特別在中文、日語、韓語等語言中提升顯著。

· 音頻生成與理解能力雙進化:

Gemini 1.5專注于音頻理解任務(如轉錄、翻譯、問答等),而Gemini 2.5進一步具備音頻生成能力(如文本轉語音和音視頻生成對話)。

模型能實現音頻的流式輸入輸出,支持低延遲對話。

支持超過200種語言。

· 視頻理解與內容生成突破:

將視頻處理效率從每幀258個視覺token優化為66個,使模型可在100萬token窗口內處理約3小時視頻。

新能力包括從視頻中自動生成互動應用(如測試題)和p5.js動畫,用于可視化關鍵概念。

· 智能體能力躍升:Gemini Deep Research:

基于Gemini 2.5 Pro的Deep Research Agent可自動瀏覽網頁、解決小眾問題,并具備任務優先級排序及「死胡同」識別能力。

在「人類最后考試」(Humanity’s Last Exam benchmark)基準測試中的表現從 7.95% 提升至當前的 26.9%。

如果使用更高算力甚至能達到32.4%,展現出前沿的搜索與推理能力。

想要體驗Gemini的所有系列模型,可以在Google AI Studio上免費使用,各個模型的對應關系如下圖所示。

圖片

在Gemini 2.5全面推出后,2.0 Flash/Flash-Lite系列將持續提供,更高性價比的低延遲響應。

圖片

致謝彩蛋

在這份長達70頁的Gemini 2.5技術報告中,致謝名單就有12頁(46-58)。

但如果你仔細觀察就會發現,第一列致謝的貢獻者首字母拼起來是:

「GEMINI MODELS CAN THINK AND GET BACK TO YOU IN A FLASH」

翻譯過來就是,GEMINI模型能快速思考并立即給出回應,這也是極客的浪漫吧。

圖片

挑戰寶可夢 「絲血」就會「恐慌」

另外,Gemini在玩「寶可夢」游戲中,展現了超強推理能力與長時程任務連貫性的能力。

它在設定超800小時長期目標中,成功挑戰了整個游戲。而且,在第二次自主運行時,完成的時間幾乎縮短一半。

圖片

技術報告第4部分,詳細介紹了Gemini挑戰「寶可夢」的驚人旅程。

獨立開發者Joel Zhang最先發起,讓Gemini 2.5去通關。AI首次耗時813小時,成功進入了名人堂,成為了寶可夢聯盟冠軍。

更令人振奮的是,Joel于5月22日讓升級版Gemini 2.5再次開啟全自動二周目挑戰時,它的通關速度大幅提升,僅耗時406.5。

如圖所示,關鍵里程碑時間抽,從游戲開局到擊敗四天王,Gemini智能體效率提升清晰可見。

圖片

更有趣的是,報告中稱,Gemini 2.5 Pro在挑戰寶可夢生命值低時,會進入一種「慌亂」的狀態,導致推理能力出現質性下降。

雖然AI沒有情緒,但它的行為卻像人類在壓力下做出倉促決定一樣。

比如,當寶可夢瀕臨死亡時,Gemini可能會突然停止使用某些工具,導致游戲表現下滑。

圖片

不過,Gemini 2.5 Pro在解決「巨石謎題」上,展現了超乎尋常的能力。

通過創建專門的智能體工具,如路徑規劃器/策略師,Gemini能在沒有任何人類干預情況下,一次性解決冠軍之路的復雜巨石謎題。

圖片

2.5 Flash-Lite首亮相 速度最快,極致性價比

全新Gemini 2.5 Flash-Lite繼承了Gemini 2.5核心優勢功能。

它支持控制思考預算的能力,可開啟/關閉深度思考,還能無縫連接谷歌搜索、代碼執行等工具。

與2.0 Flash-Lite不同的是,它科技原生支持多模態輸入,有100M token上下文。

谷歌稱,這款模型特別擅長翻譯、分類等高吞吐量、低延遲敏感型任務。

圖片

下面這個demo中,是Gemini 2.5 Flash-Lite構建研究原型過程。

它能夠將大型PDF立即轉換成交互式Web應用程序,從而更輕松地匯總和理解密集信息。

它還通過了物理模擬測試。

圖片



責任編輯:張燕妮 來源: 新智元
相關推薦

2025-06-18 14:06:40

谷歌代碼AI

2025-04-10 10:44:00

2025-07-02 02:45:00

2025-04-15 09:03:00

2025-05-21 09:40:11

2013-04-09 10:51:55

美國云計算

2025-06-23 00:00:01

2025-06-17 08:40:44

2025-05-21 09:15:00

2021-06-08 11:54:45

語言CPU指令集

2025-06-18 09:56:53

2025-04-01 09:17:00

2025-03-26 06:56:56

2012-10-16 16:18:47

移動戰谷歌

2025-05-07 10:01:35

2025-04-10 06:16:33

2024-04-25 08:57:04

2025-04-21 09:15:00

2023-12-20 15:32:02

模型數據

2025-04-09 13:19:29

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品国产三级国产aⅴ无密码 | 99精品视频免费观看 | 欧美淫| 玖玖久久 | 日韩视频国产 | 精品久久久久久亚洲综合网 | 中文字幕日韩欧美一区二区三区 | 四虎影院久久 | 亚洲欧美在线观看视频 | 久久aⅴ乱码一区二区三区 亚洲国产成人精品久久久国产成人一区 | 精品中文字幕一区二区三区 | 国产精品毛片一区二区三区 | 在线免费国产视频 | 日韩中文字幕久久 | 亚洲xxxxx | 中文字幕一区二区三区乱码在线 | 亚洲第一视频网 | 亚洲午夜av久久乱码 | a在线观看免费 | 日本特黄a级高清免费大片 成年人黄色小视频 | 中文字幕av一区 | 九九热视频这里只有精品 | 91在线第一页 | 国产精品入口麻豆www | 欧美在线观看网站 | 国产精品视频偷伦精品视频 | 爱操影视| 91久久精品国产免费一区 | 亚洲社区在线 | 欧美一区二区三区在线播放 | 日韩av一二三区 | 久草资源在线视频 | 亚洲免费在线 | 一区二区三区四区在线免费观看 | 国产成人精品免高潮在线观看 | 99re在线免费视频 | 久久综合伊人 | 日本成人在线免费视频 | 久久久久久久一区二区 | 久久九精品 | www国产成人免费观看视频 |