谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！

老蛀蟲(chóng)

發(fā)布于 2025-2-7 14:38

瀏覽

0收藏

Hi，這里是Aitrainee，歡迎閱讀本期新文章。

谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！-AI.x社區(qū)

Gemini 2.0的故事，正在加速展開(kāi)。

12月的Flash實(shí)驗(yàn)版，為開(kāi)發(fā)者帶來(lái)低延遲、高性能的工作模型。

今年初，2.0 Flash Thinking Experimental在Google AI Studio更新，通過(guò)結(jié)合Flash的速度和增強(qiáng)的推理能力，進(jìn)一步提升性能。

上周，更新版2.0 Flash已在Gemini桌面和移動(dòng)應(yīng)用全面上線(xiàn)。

今天，三個(gè)新成員同時(shí)亮相：迄今為止在編碼和復(fù)雜提示方面表現(xiàn)最佳的模型Gemini 2.0 Pro實(shí)驗(yàn)版，性?xún)r(jià)比之選2.0 Flash-Lite，以及思維增強(qiáng)版2.0 Flash Thinking。

Gemini 2.0 Pro 在所有類(lèi)別中排名第一。Gemini-2.0-Flash 在編碼、數(shù)學(xué)和難題中排名前三。Flash-lite 在各個(gè)類(lèi)別中排名前十。

谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！-AI.x社區(qū)

三款模型能力對(duì)比圖表：

谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！-AI.x社區(qū)

所有模型支持多模態(tài)輸入，輸出文本。更多模態(tài)能力也在路上。

編碼競(jìng)技場(chǎng)中的模型強(qiáng)度圖

谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！-AI.x社區(qū)

勝率熱圖

谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！-AI.x社區(qū)

Google 對(duì)待免費(fèi)用戶(hù)比 OpenAI 對(duì)待 Plus 用戶(hù)更好。在 AI Studio 中免費(fèi)訪(fǎng)問(wèn) Gemini 2.0 Pro Experimental：

谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！-AI.x社區(qū)

▲ 免費(fèi)開(kāi)玩

??https://aistudio.google.com/??

Deepseek服務(wù)總是顯示錯(cuò)誤等待。。。記得最開(kāi)始的推理免費(fèi)模型也是在谷歌aistudio中使用的2.0 Flash Thinking。

谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！-AI.x社區(qū)

此外，在Gemini 網(wǎng)頁(yè)版中：https://gemini.google.com/app。還有一個(gè)聯(lián)網(wǎng)的推理模型（所以為什么要分開(kāi)。。)

谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！-AI.x社區(qū)

Google發(fā)布Gemini 2.0 Pro實(shí)驗(yàn)版，官方基準(zhǔn)測(cè)試提升比較亮眼。

谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！-AI.x社區(qū)

它具有最強(qiáng)大的編碼性能和處理復(fù)雜提示的能力，比谷歌迄今為止發(fā)布的任何模型都具有更好的理解和推理世界知識(shí)的能力。

它具有最大的上下文窗口（200k，我長(zhǎng)上下文是Gemini 模型比較大的一個(gè)優(yōu)勢(shì)），這使它能夠全面分析和理解大量信息，并且能夠調(diào)用 Google 搜索和代碼執(zhí)行等工具。

在MATH測(cè)試中達(dá)到91.8%，比1.5版本提升約5個(gè)百分點(diǎn)。GPQA推理能力達(dá)到64.7%，SimpleQA世界知識(shí)測(cè)試更是達(dá)到44.3%。

最引人注目的是編程能力。在LiveCodeBench測(cè)試中達(dá)到36.0%，Bird-SQL轉(zhuǎn)換準(zhǔn)確率突破59.3%。配合200萬(wàn)token的超大上下文窗口，足以應(yīng)對(duì)最復(fù)雜的代碼分析任務(wù)。

谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！-AI.x社區(qū)

可以去cursor中試用了。

多語(yǔ)言理解能力也令人印象深刻，Global MMLU測(cè)試達(dá)86.5%。圖像理解MMMU達(dá)72.7%，視頻分析能力達(dá)71.9%。

Gemini 2.0 Flash-Lite，一個(gè)有趣的平衡點(diǎn)。

保持了1.5 Flash的速度和成本，卻帶來(lái)了更好的性能。10?0萬(wàn)token的上下文窗口，讓它能處理更多信息。

最實(shí)用的是它的性?xún)r(jià)比：4萬(wàn)張照片的標(biāo)題生成，成本不到1美元。這讓AI落地更接地氣。

谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！-AI.x社區(qū)

博主Shrivastava提到：Gemini 2.0 Pro 編碼太瘋狂了！

提示：使用 Three.js 創(chuàng)建太陽(yáng)系模擬。添加時(shí)間刻度、焦點(diǎn)下拉菜單、顯示軌道和顯示標(biāo)簽。將所有內(nèi)容創(chuàng)建在一個(gè)文件中，以便我可以將其粘貼到在線(xiàn)編輯器中并查看輸出。

谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！-AI.x社區(qū)

此外，還有網(wǎng)友提到Gemini 2.0 Flash在他自己的一個(gè)悖論測(cè)試中輸出較好的結(jié)果：

谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！-AI.x社區(qū)

最后，google提到，Gemini 2.0的安全性，不只是補(bǔ)丁，是設(shè)計(jì)之初就考慮的核心。

讓模型學(xué)會(huì)自我批評(píng)。用強(qiáng)化學(xué)習(xí)讓Gemini評(píng)估自己的回答，提供更精準(zhǔn)的反饋。這讓它面對(duì)敏感話(huà)題時(shí)更穩(wěn)健。

自動(dòng)化紅隊(duì)測(cè)試很有意思。專(zhuān)門(mén)防范間接提示詞注入，就像給AI裝了個(gè)免疫系統(tǒng)，防止有人在數(shù)據(jù)中藏入惡意指令。

本文轉(zhuǎn)載自??AI進(jìn)修生??，作者： Aitrainee ????

標(biāo)簽

谷歌

Gemini-2.0

編碼

贊

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

谷歌發(fā)布Veo：文生超1分鐘、1080P視頻，媲美Sora

Aceryt ? 4664瀏覽 ? 0回復(fù)
六款超火的AI繪圖軟件推薦！總有一款AI適合你！

行走的小非 ? 7873瀏覽 ? 0回復(fù)
登頂新SOTA！阿里新開(kāi)源語(yǔ)音模型Qwen2-Audio ，實(shí)測(cè)優(yōu)于 Gemini-1.5-pro，網(wǎng)友：離GPT-4o只差一步

51CTO技術(shù)棧 ? 3322瀏覽 ? 0回復(fù)
OpenAI 發(fā)布新模型 o1，能夠推理復(fù)雜任務(wù)，在科學(xué)、編程和數(shù)學(xué)等領(lǐng)域更牛

AI洞察Insight ? 2689瀏覽 ? 0回復(fù)
OpenAI發(fā)布新模型：o1系列模型，更像理科生的模型

大語(yǔ)言模型論文跟蹤 ? 4434瀏覽 ? 0回復(fù)
OpenAI o1：用內(nèi)部思維鏈進(jìn)行復(fù)雜推理

shizhi02 ? 2857瀏覽 ? 0回復(fù)
Claude 3.5超預(yù)期炸場(chǎng)！編程能力超o1，像人類(lèi)一樣操作電腦，開(kāi)啟Agent新時(shí)代！

51CTO技術(shù)棧 ? 2867瀏覽 ? 0回復(fù)
DeepSeek首發(fā)國(guó)產(chǎn)類(lèi)o1模型！人人可以免費(fèi)使用！

51CTO技術(shù)棧 ? 4061瀏覽 ? 0回復(fù)
阿里發(fā)布類(lèi)o1模型QWQ，可自我反思糾錯(cuò)，實(shí)測(cè)數(shù)學(xué)推理遠(yuǎn)超o1、DS-R1，人人免費(fèi)

51CTO技術(shù)棧 ? 3128瀏覽 ? 0回復(fù)
滿(mǎn)血o1被證明太心機(jī)了！登頂最「壞」AI！復(fù)制權(quán)重，干掉威脅后，AI拒絕招供：也許我應(yīng)該裝作是新模型……

51CTO技術(shù)棧 ? 2159瀏覽 ? 0回復(fù)
OpenAI o1 模型到來(lái)后，談?wù)?em>提示詞工程的未來(lái)

Baihai_IDP ? 2442瀏覽 ? 0回復(fù)
基于谷歌Gemini多模態(tài)模型實(shí)現(xiàn)PDF文檔自動(dòng)化處理

51CTO內(nèi)容精選 ? 3023瀏覽 ? 0回復(fù)
谷歌AI發(fā)布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 ? 6294瀏覽 ? 0回復(fù)
Kimi深夜炸場(chǎng)：滿(mǎn)血版多模態(tài)o1級(jí)推理模型！OpenAI外全球首次！Jim Fan：同天兩款國(guó)產(chǎn)o1絕對(duì)不是巧合！

51CTO技術(shù)棧 ? 2429瀏覽 ? 0回復(fù)
DeepSeek-R1 + RooCline：極佳的強(qiáng)化學(xué)習(xí)AI編碼代理！對(duì)標(biāo)o1、蒸餾小模型本地部署

老蛀蟲(chóng) ? 3981瀏覽 ? 0回復(fù)
Gemini 2.0：針對(duì)代理時(shí)代的新AI模型

Halo咯咯 ? 2719瀏覽 ? 0回復(fù)
Google Gemini Code Assist：一個(gè)免費(fèi)的AI編碼助手

Halo咯咯 ? 3126瀏覽 ? 0回復(fù)
剛剛，Qwen3強(qiáng)勢(shì)登頂，成開(kāi)源新王！國(guó)內(nèi)首個(gè)混合推理模型，235B擊敗R1、o1!源神火力全開(kāi)

51CTO技術(shù)棧 ? 2133瀏覽 ? 0回復(fù)
2小時(shí)登頂全球最強(qiáng)開(kāi)源模型！Qwen3力壓DeepSeek-R1和OpenAI o1，登頂開(kāi)源王座！

算家計(jì)算 ? 1661瀏覽 ? 0回復(fù)

老蛀蟲(chóng)

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學(xué)堂

谷歌三款新模型齊發(fā)，Gemini-2.0-Pro免費(fèi)、跑分超o1登頂?shù)谝唬m合編碼、處理復(fù)雜提示！

目錄