成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌首款混合推理Gemini 2.5登場,成本暴降600%!思考模式一開,直追o4-mini

人工智能
谷歌發布首款混合推理模型Gemini 2.5 Flash,引入了革命性「思考預算」,可靈活控制推理深度,性能一舉擊敗Claude 3.7,比肩o4-mini。而且,關閉思考模式成本直降600%。

剛剛,谷歌重磅發布首個混合推理模型——Gemini 2.5 Flash。

與Claude類似,新模型的「思考預算」可以自定義,即可開啟/關閉Gemini 2.5的思考模式。

圖片圖片

值得一提的是,關閉思考的成本直接暴降600%,而且性能還不輸Gemini 2.0 Flash。

具體來說,Gemini 2.5 Flash關閉思考輸出價格0.6美元/百萬token,開啟思考輸出價格3.5美元/百萬token。

圖片圖片

當然了,思考越久,模型性能也會隨之提升。

在GPQA知識問答中,新模型24k思考預算,性能提升了6%;對于代碼任務(LiveCodeBench),16k思考預算性能最佳。

圖片

圖片圖片

在多項基準測試中,Gemini 2.5 Flash再次刷新SOTA。在大模型排行榜中,Flash預覽版以1392 ELO高分位居第二,與GPT-4.5-preview、Grok 3并駕齊驅。

圖片圖片

在數學(AIME 2025/2024)、多模態推理(MMMU)、知識問答(GPQA)等基準上,Gemini 2.5 Flash完全碾壓Claude 3.7 Sonnet,足以與最新o4-mini相媲美。

就模型每百萬token輸入/輸出價格來看,Gemini 2.5 Flash更具性價比。

圖片圖片

在人類最后一次考試中,Gemini 2.5 Flash拿下12.1%高分,僅次于o4-mini

目前,Flash預覽版可以在Gemini中使用,API同時向開發者開放。

首款混合推理Gemini登場擊敗Claude 3.7

混合推理模型,就是專為需要在性能、成本、延遲之間找到完美平衡的開發者而設計。

Gemini 2.5 Flash不僅繼承了2.0 Flash的高速響應特點,還引入了革命性的「思考模式」——可根據任務需求靈活調整推理深度。

圖片圖片

Gemini 2.5系是「思考模型」,能夠在回答前先行推理。

模型不會立即輸出結果,而是先執行「思考」流程,更好地理解提示詞,拆解復雜任務并規劃回答。

如下圖所示,相較于2.0 Flash,Gemini 2.5 Flash在復雜任務,如數學推理、科研分析中表現更優異。

圖片圖片

在LMArena其他評估中,比如Hard Prompts、編碼、長查詢,Gemini 2.5 Flash全部拿下第一。

圖片圖片

另外從下圖中可看出,在同類模型中,2.5 Flash以超高性價比領跑,兼具最優性能和極低成本的優勢。

圖片圖片

網友實測

在網友的實測中,2.5 Flash物理模擬能力足夠驚艷,小球會隨著多邊形變化精準運動。

圖片圖片

圖片圖片

而且,2.5 Flash還輕輕松松通過了4o-mini/o3無法通過的Galton Board(高爾頓板)測試。

圖片圖片

圖片圖片

它還能根據精靈圖,創建出自定義游戲城房間。

圖片圖片

另一位網友用了最大24k預算,讓2.5 Flash設計出了一個《創:戰紀》風格的游戲。

圖片圖片

提示:Create Design a visually striking Tron-style game in a single HTML file, where AI-controlled light cycles compete in fast-paced, strategic battles against each other

如今Claude 3.7已經完全沒有優勢了,在設計登錄界面時,Gemini 2.5 Flash用時最短速度最快。

圖片圖片

思考預算智能控制

不同使用場景在質量、成本與延遲之間各有取舍。

為給開發者更大靈活性,2.5 Flash新增了「思考預算」功能。開發者可以通過設置預算(0 – 24576 Token),來控制模型在思考階段的推理深度。

  • 低預算(甚至為0):適合簡單查詢,保持2.0 Flash超低延遲和成本,性能更強
  • 高預算:模型會進行更深入的推理,生成更準確、全面的答案。

需要強調的是,預算只是設定了2.5 Flash的思考上限;若prompt并不復雜,模型不會用滿全部預算。

圖片圖片

開發者也可通過API參數,或在Google AI Studio與Vertex AI控制臺的滑塊控件,為思考階段指定具體的Token預算

更智能的是,模型會根據prompt復雜度,自動判斷所需推理量和思考時間,避免了預算的浪費。

以下示例中,展示了2.5 Flash在默認模式下,可能使用的推理量。

  • 需要低推理量的提示詞:

示例1:

「Thank you」的西班牙語表達

示例2:

加拿大有多少個省?

  • 需要中等推理量的提示詞:

示例1:

擲兩枚骰子,點數之和為7的概率是多少?

示例2:

我的健身房在周一、三、五9?15點以及周二、周六14?20點開放籃球自由場地。如果我每周工作5天、時間為9?18點,但想在工作日打5小時籃球,請為我制定一份可行的日程表。

  • 需要高推理量的提示詞:

示例1:

一根懸臂梁,長度L=3 m,矩形截面寬b=0.1 m、高h=0.2 m,材質鋼 (E=200 GPa)。梁全長受均布載荷w=5 kN/m,且自由端承受集中載荷P=10 kN。請計算最大彎曲應力σ_max。

示例 2:

編寫函數evaluate_cells(cells: Dict[str, str]) -> Dict[str, float],用于計算電子表格單元格的數值。

每個單元格的內容可能為:

  • 一個數字(如 「3」),或 
  • 一個公式,例如「=A1 + B1 * 2」,可使用「+、-、*、/」運算符并引用其他單元格。

要求:

1. 解析并解決單元格間的依賴關系。

2. 處理運算符優先級(*/高于+-)。 

3. 檢測循環依賴并拋出 ValueError("Cycle detected at <cell>")。

4. 不得使用eval(),只可使用Python內置庫。

Gemini 2.5 Flash正式上線

當前,Gemini 2.5 Flash預覽版API在Google AI Studio和Vertex AI中上線,可通過Gemini應用專用下拉菜單找到它。

谷歌強烈建議嘗試thinking_budget(思考預算)參數,看看可控推理如何去解決更復雜的問題。

圖片圖片

參考資料:

https://developers.googleblog.com/en/start-building-with-gemini-25-flash/

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-05-13 08:24:14

2025-04-17 06:10:57

2025-04-23 08:30:05

2025-04-21 16:25:58

OpenAI測試模型

2020-11-17 08:36:08

云計算混合云技術

2025-02-25 09:13:16

2025-06-11 08:56:54

2017-05-23 17:03:15

阿里云VPN網關公網

2025-03-17 08:34:00

模型代碼開發

2025-05-28 10:30:41

AI陶哲軒模型

2025-04-18 11:18:51

2025-04-07 07:18:48

2025-06-17 08:40:44

2025-05-19 08:33:00

2025-04-29 09:16:00

2025-05-21 09:15:00

2024-12-20 14:30:00

2025-05-21 06:58:03

2025-03-26 06:56:56

2024-08-02 14:58:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产免费看| 欧美一区二区三区在线视频 | 午夜天堂精品久久久久 | 四虎影视一区二区 | 国产视频h| 亚洲欧美视频一区 | 亚洲成人av | 欧美日一区二区 | 欧美一区二区三区高清视频 | 欧美一区二区三区 | 嫩草视频在线看 | 国产精品久久久久久亚洲调教 | 久久久久久久久蜜桃 | 九九久久国产 | 日韩中出 | 欧美精品一区二区三区四区 | 欧美精品一区二区三区四区 在线 | 亚洲电影在线播放 | 精久久 | 国产高清一区二区 | 国产www在线| 久久青青 | 中文字幕在线观看 | 国产欧美精品一区二区色综合 | 91色在线| 精品视频导航 | 日韩福利一区 | av香蕉 | 黑人精品 | 黄网免费看 | 九色91视频 | 三级av网址 | 亚洲日日| 在线免费观看a级片 | 日韩有码在线观看 | 在线亚洲人成电影网站色www | 国产日韩欧美在线观看 | 日韩二三区 | 成人黄色a | 中文区中文字幕免费看 | 精品国产乱码久久久久久蜜柚 |