成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!

發(fā)布于 2025-3-28 00:05
瀏覽
0收藏

嘿,大家好!這里是一個專注于前沿AI和智能體的頻道~

DeepSeek-V3-0324前天悄然發(fā)布,沒有任何預告和宣傳,卻因其極強的編碼能力,迅速火遍全網(wǎng)。

或許,它已成為目前最優(yōu)秀的"非推理"模型。

編碼性能直追目前基本唯一可用的Claude Sonnet 3.7。

到昨天晚上,官方終于發(fā)布公告,在LiveCodeBench編碼測試中,性能指標已超越Claude Sonnet 3.7。官網(wǎng)已更新至最新版模型,不開啟深度推理時,即使用的是這一最新版本。

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!-AI.x社區(qū)

昨晚上,Google發(fā)布了Gemini的重大版本更新,儼然一個"數(shù)值怪物",在推理能力、編碼能力和復雜任務處理能力上均實現(xiàn)大幅提升。延續(xù)Google一貫特色,該版本可在Google AI Studio上免費使用。

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!-AI.x社區(qū)

在由人類投票的LMSYS大模型競技場上,Gemini 2.5 Pro已徹底領先一個身位(當然,刷這個榜單一直是Google的強項)。

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!-AI.x社區(qū)

  • deepseek免費試玩地址:https://aistudio.google.com/prompts/new_chat
  • Gemini 2.5 pro免費試玩地址:https://aistudio.google.com/prompts/new_chat

需要注意的是,Gemini 2.5 Pro是一個名字不帶thinking的推理模型

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!-AI.x社區(qū)

本來想對比一些用戶場景的效果,如海報、封面設計、Agent規(guī)劃等,但目前DeepSeek官網(wǎng)只能使用思考模型,而Chat模型總是提示??服務器繁忙,請稍后再試??,尷尬~

審美能力

封面

下圖輸入是本段前的文章內容。從左到右分別對應DeepSeek-R1、Gemini 2.5 Pro thinking、Claude Sonnet 3.7 thinking。不得不說,在審美方面,DeepSeek和Gemini 2.5仍落后Claude一大截。

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!-AI.x社區(qū)

天氣卡片

Gemini生成的效果只能說一般般:

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!-AI.x社區(qū)

任務規(guī)劃

任務規(guī)劃能力測試可以大致評估其是否適用于通用Agent的規(guī)劃模型。

我測試了一個簡單的prompt,下圖黑色部分是Gemini 2.5 Pro的結果,右側白色部分是Claude 3.7 Sonnet的結果。總體而言,Gemini對需求理解更為透徹,內容規(guī)劃更加完善全面,而Claude則提供了更詳細的網(wǎng)頁制作細節(jié)。

考慮到Google自家已有眾多領域Agent,而前置的TODOLIST基本是最前端的環(huán)節(jié),因此即便簡單的prompt也能獲得非常好的效果。相比之下,目前DeepSeek-R1的反饋較為隨意,故未展示。

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!-AI.x社區(qū)

文筆

這里引用昨天DeepSeek官方賬號的例子,盡管Gemini使用繁體字,但在文筆上,我更傾向于DeepSeek。

數(shù)值怪物VS編碼之王:Gemini 2.5與DeepSeek雙雄爭霸!-AI.x社區(qū)

最后總結一下,因為一些問題,沒法測試DeepSeek新版模型。

  • Gemini 2.5新版本展現(xiàn)出優(yōu)秀的前置規(guī)劃能力,證明并非所有規(guī)劃任務都必須依賴Claude
  • DeepSeek的代碼能力據(jù)稱極為強大,且作為非推理模型,為國產(chǎn)AI應用帶來更多想象空間
  • DeepSeek新版模型主要優(yōu)化了后訓練環(huán)節(jié),而R系列模型是基于base模型,兩者的技術路線傳導不一定順暢,但R2版本值得期待
  • Gemini 2.5 Pro首token生成延遲明顯增加,但開始生成后速度依舊很快(可能與排隊機制有關),推理速度仍是Google的強項
  • 對于普通用戶而言,Gemini Pro 2.5雖然性能強勁,但實際獲得的收益可能有限,繼續(xù)使用2.0 Flash版本仍是合理選擇

本文轉載自探索AGI,作者:獼猴桃

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产激情在线看 | 国产在线中文字幕 | 一级黄色av电影 | 免费一级黄 | 欧美午夜精品理论片a级按摩 | 日本免费在线 | 国产精品一区二区三级 | 在线看亚洲 | 亚洲视频一区二区三区 | 亚洲欧洲中文 | 国产伦精品一区二区三区照片91 | 视频一区在线观看 | 日本精品一区 | 日韩视频免费在线 | 一级大片免费 | 二区中文 | 国产日韩av一区二区 | 日日干日日操 | 免费午夜电影 | 成年网站在线观看 | 久久久久国产一级毛片高清网站 | 91麻豆精品国产91久久久久久 | 国产日韩一区二区三免费高清 | 久久激情五月丁香伊人 | 鲁大师一区影视 | 国产精品免费视频一区 | 亚洲伊人久久综合 | 欧美日韩看片 | 一区二区三区中文 | 日韩高清中文字幕 | 成人精品 | 狠狠综合网 | 日韩精品一区二区三区中文在线 | 午夜视频一区二区三区 | 青青久在线视频 | 国产精品视频久久久 | 精品一区二区三区四区 | 久久精品国产一区二区三区不卡 | 久久中文免费视频 | 高清久久久 | 精品在线看|