谷歌首款混合推理Gemini 2.5登場,成本暴降600%!思考模式一開,直追o4-mini
剛剛,谷歌重磅發布首個混合推理模型——Gemini 2.5 Flash。
與Claude類似,新模型的「思考預算」可以自定義,即可開啟/關閉Gemini 2.5的思考模式。
圖片
值得一提的是,關閉思考的成本直接暴降600%,而且性能還不輸Gemini 2.0 Flash。
具體來說,Gemini 2.5 Flash關閉思考輸出價格0.6美元/百萬token,開啟思考輸出價格3.5美元/百萬token。
圖片
當然了,思考越久,模型性能也會隨之提升。
在GPQA知識問答中,新模型24k思考預算,性能提升了6%;對于代碼任務(LiveCodeBench),16k思考預算性能最佳。
|
在多項基準測試中,Gemini 2.5 Flash再次刷新SOTA。在大模型排行榜中,Flash預覽版以1392 ELO高分位居第二,與GPT-4.5-preview、Grok 3并駕齊驅。
圖片
在數學(AIME 2025/2024)、多模態推理(MMMU)、知識問答(GPQA)等基準上,Gemini 2.5 Flash完全碾壓Claude 3.7 Sonnet,足以與最新o4-mini相媲美。
就模型每百萬token輸入/輸出價格來看,Gemini 2.5 Flash更具性價比。
圖片
在人類最后一次考試中,Gemini 2.5 Flash拿下12.1%高分,僅次于o4-mini
目前,Flash預覽版可以在Gemini中使用,API同時向開發者開放。
首款混合推理Gemini登場擊敗Claude 3.7
混合推理模型,就是專為需要在性能、成本、延遲之間找到完美平衡的開發者而設計。
Gemini 2.5 Flash不僅繼承了2.0 Flash的高速響應特點,還引入了革命性的「思考模式」——可根據任務需求靈活調整推理深度。
圖片
Gemini 2.5系是「思考模型」,能夠在回答前先行推理。
模型不會立即輸出結果,而是先執行「思考」流程,更好地理解提示詞,拆解復雜任務并規劃回答。
如下圖所示,相較于2.0 Flash,Gemini 2.5 Flash在復雜任務,如數學推理、科研分析中表現更優異。
圖片
在LMArena其他評估中,比如Hard Prompts、編碼、長查詢,Gemini 2.5 Flash全部拿下第一。
圖片
另外從下圖中可看出,在同類模型中,2.5 Flash以超高性價比領跑,兼具最優性能和極低成本的優勢。
圖片
網友實測
在網友的實測中,2.5 Flash物理模擬能力足夠驚艷,小球會隨著多邊形變化精準運動。
圖片
圖片
而且,2.5 Flash還輕輕松松通過了4o-mini/o3無法通過的Galton Board(高爾頓板)測試。
圖片
圖片
它還能根據精靈圖,創建出自定義游戲城房間。
圖片
另一位網友用了最大24k預算,讓2.5 Flash設計出了一個《創:戰紀》風格的游戲。
圖片
提示:Create Design a visually striking Tron-style game in a single HTML file, where AI-controlled light cycles compete in fast-paced, strategic battles against each other
如今Claude 3.7已經完全沒有優勢了,在設計登錄界面時,Gemini 2.5 Flash用時最短速度最快。
圖片
思考預算智能控制
不同使用場景在質量、成本與延遲之間各有取舍。
為給開發者更大靈活性,2.5 Flash新增了「思考預算」功能。開發者可以通過設置預算(0 – 24576 Token),來控制模型在思考階段的推理深度。
- 低預算(甚至為0):適合簡單查詢,保持2.0 Flash超低延遲和成本,性能更強
- 高預算:模型會進行更深入的推理,生成更準確、全面的答案。
需要強調的是,預算只是設定了2.5 Flash的思考上限;若prompt并不復雜,模型不會用滿全部預算。
圖片
開發者也可通過API參數,或在Google AI Studio與Vertex AI控制臺的滑塊控件,為思考階段指定具體的Token預算
更智能的是,模型會根據prompt復雜度,自動判斷所需推理量和思考時間,避免了預算的浪費。
以下示例中,展示了2.5 Flash在默認模式下,可能使用的推理量。
- 需要低推理量的提示詞:
示例1:
「Thank you」的西班牙語表達
示例2:
加拿大有多少個省?
- 需要中等推理量的提示詞:
示例1:
擲兩枚骰子,點數之和為7的概率是多少?
示例2:
我的健身房在周一、三、五9?15點以及周二、周六14?20點開放籃球自由場地。如果我每周工作5天、時間為9?18點,但想在工作日打5小時籃球,請為我制定一份可行的日程表。
- 需要高推理量的提示詞:
示例1:
一根懸臂梁,長度L=3 m,矩形截面寬b=0.1 m、高h=0.2 m,材質鋼 (E=200 GPa)。梁全長受均布載荷w=5 kN/m,且自由端承受集中載荷P=10 kN。請計算最大彎曲應力σ_max。
示例 2:
編寫函數evaluate_cells(cells: Dict[str, str]) -> Dict[str, float],用于計算電子表格單元格的數值。
每個單元格的內容可能為:
- 一個數字(如 「3」),或
- 一個公式,例如「=A1 + B1 * 2」,可使用「+、-、*、/」運算符并引用其他單元格。
要求:
1. 解析并解決單元格間的依賴關系。
2. 處理運算符優先級(*/高于+-)。
3. 檢測循環依賴并拋出 ValueError("Cycle detected at <cell>")。
4. 不得使用eval(),只可使用Python內置庫。
Gemini 2.5 Flash正式上線
當前,Gemini 2.5 Flash預覽版API在Google AI Studio和Vertex AI中上線,可通過Gemini應用專用下拉菜單找到它。
谷歌強烈建議嘗試thinking_budget(思考預算)參數,看看可控推理如何去解決更復雜的問題。
圖片
參考資料:
https://developers.googleblog.com/en/start-building-with-gemini-25-flash/