成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

剛剛,新版DeepSeek-R1正式開源!直逼o3編程強到離譜,一手實測來了

人工智能
新版DeepSeek-R1重磅開源,凌晨已放出權重!此次模型性能幾乎與o4-mini(Medium)相當,編程實測超越Claude 4 Sonnet。網友紛紛驚嘆:開源又一次勝利了。

臨近端午假期,DeepSeek果然又開始搞事。

就在今天凌晨,新版DeepSeek-R1正式開源了!

DeepSeek-R1-0528模型權重已上傳到HuggingFace,不過模型卡暫未更新。

圖片圖片

項目地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

時隔4個月,DeepSeek-R1完成了超進化,編碼能力強到離譜,而且思考時間更長了。

據稱,新模型基于DeepSeek-V3-0324訓練(參數為660B)。

經典物理模擬測試中,DeepSeek-R1新舊版本的對比經典物理模擬測試中,DeepSeek-R1新舊版本的對比

在LiveCodeBench基準上,DeepSeek-R1-0528性能幾乎與o3-mini(High)和o4-mini(Medium)實力相當,一舉超越了Gemini 2.5 Flash。

圖片圖片

有網友稱贊,DeepSeek-R1能夠像o3一樣糾正思維鏈,并且像Claude一樣創造性進行世界構建。

圖片圖片

可以說,這是屬于開源模型的巨大勝利!

不用R2,直接對標SOTA

此次,DeepSeek-R1-0528更新核心亮點,網友做了一個濃縮版的總結:

  • 能像谷歌模型一樣深度推理
  • 文本生成優化:更自然,格式更佳
  • 獨特的推理風格:不僅快,而且更縝密
  • 支持長時思考:單任務處理時長可達30-60分鐘

圖片圖片

思考時間更長,成為了全網討論最多的一點。有網友實測后,R1思考時長超過了25分鐘。

圖片圖片

另外,這似乎是唯一一個能持續正確做對「9.9 - 9.11是多少」的模型。

圖片圖片

編程能力強到爆

網友實測顯示,新版DeepSeek-R1在編程方面簡直不可思議!

AI圈大佬「karminski-牙醫」用同一個prompt測試了DeepSeek-R1-0528和Claude 4 Sonnet后發現。

不管是光線照射在墻上形成的漫反射,還是球在撞擊后的運動方向,亦或是控制面板的美觀程度,這一把R1穩贏。

圖片圖片


圖片圖片

網友Alex的測試也顯示出,DeepSeek-R1在前端編碼的能力上超越了Claude 4 Sonnet。

圖片圖片

圖片

圖片

網友Haider.則是讓模型構建一個單詞評分系統。R1簡要思考后,就立刻出了關于代碼和工作測試的兩個文件,第一次運行就完美無瑕。

圖片圖片

此前,o3是唯一能完成這個任務的模型。而如今,R1堪稱是完成這個任務的最佳模型。

注意,R1的表現之所以如此驚人,是因為它返回的兩個文件在第一次都能運行良好,不用編輯,不用重試,這極其少見。

因為此前的大多數模型,要么會在邊緣情況下終端,要么會做得太復雜,要么缺少適當的測試覆蓋率。

圖片圖片

和Gemini高能PK

還有人將DeepSeek-R1與Gemini 2.5 Pro進行了對標。同一個提示下,它們各自的表現如何?

圖片圖片

首先是深度研究的能力,給出「研究微劑量服用裸蓋菇素對長期認知的影響,需引用學術來源」提示。

這一把Gemini的響應更快,引用了可靠的研究文獻,并且答案結構清晰。

再來看看它們搜索+對比能力如何?提示模型用實時來源列出全民基本收入(UBI)的五大優點和缺點。

這時,Gemini 2.5 Pro和DeepSeek R1表現都不錯,打成平手。

圖片圖片

Prompt: List top 5 pros/cons of Universal Basic InPrompt: List top 5 pros/cons of Universal Basic In

再讓模型為AI SaaS工具制定TikTok增長策略,兩款模型再次打成平局。

在智能體任務規劃方面,讓Gemini和DeepSeek一同設計一個完整的市場調研智能體,包含工具鏈、用戶角色和流程交接,結果是Gemini生成一張信息圖,而DeepSeek稍遜一籌。

由此,大家對DeepSeek-R2的期待值也是拉滿了。

一手實測來了

新版DeepSeek-R1的能力經過我們實測,雖然是一次「小版本」更新,但是性能得到了「史詩級」的加強。

尤其是編程能力,感覺已經超過或者足以媲美Claude 4和Gemini 2.5 Pro,可以說所有提示都是「一把過」,不需要任何修改!并且可以在網頁端直接運行,展示效果。

首先是制作一個「新智元」字體在宇宙中旋轉的3D動畫,完成度相當之高。

圖片圖片

對于簡單任務,DeepSeek-R1的思考時間明顯縮短,不再像以前對簡單任務也瘋狂思考。

設計一個新智元的官方網站,對于這種相對容易的任務,DeepSeek-R1-0528只需要10s的思考時間。

圖片圖片

能夠明顯感覺到,這次DeepSeek-R1新版本的思考過程更加穩定。

以模擬一個太陽系運行為例,還要求行星比例大小與實際相同,能看到DeepSeek-R1-0528的思考過程已經趨近于「完美」。

圖片圖片

最后,再給DeepSeek-R1-0528上點強度,要求演示籃球落地后的彈跳過程,并且要完美遵循現實中物理規律。

圖片

最終DeepSeek的成果還貼心的設計了參數控制面板,以及速度方向指示,是真的很強,以上所有代碼都是提示之后一遍過,沒有任何的Debug過程。

對于類似「華容道」的多步驟思考問題,DeepSeek-R1-0528的表現也非常完美,

比如「一位農夫要帶一只狐貍、一只鵝和一袋豆子過河。船每次只能載他和一樣物品。如果農夫不在場,狐貍會吃掉鵝,鵝會吃掉豆子。請問農夫該如何安排過河,才能確保所有物品安全?」這種復雜推理問題,DeepSeek-R1還可以給出核心問題所在。

圖片圖片

最令我感到震驚的是,這次的「思考」能力似乎進行了秘密加強。

我給他了一個非常無厘頭的族譜問題:「我的媽媽的爸爸的兒子的侄女的孫子的爺爺的舅舅的外孫女的姑姑,是我的誰,你能畫出關系族譜圖嗎?」

以下過程經過3倍加速,可以看到DeepSeek-R1真的在通過數學的符號化方式在進行思考。

圖片圖片

并且最后還真讓他分析出了結果,簡直震驚!這么長的思考鏈條都沒有斷。

圖片圖片

另外值得一提的是,這次的思考過程并沒有遇到服務算力不夠的情況,看來DeepSeek有針對性的提高了算力,畢竟現在是模型剛發布后的高峰「測評」期。

參考資料:

https://chat.deepseek.com/

https://x.com/i/status/1927770337170592033

https://x.com/Yuchenj_UW/status/1927828675837513793

https://x.com/chetaslua/status/1927716608384094545

https://x.com/AiBattle_/status/1927824419478536405

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-05-30 01:00:00

2025-02-18 08:15:03

2025-04-29 09:06:00

2025-04-22 09:12:00

AI模型數據

2025-03-07 09:02:00

生成AI視頻

2025-02-19 08:00:00

2025-02-03 14:17:27

2025-03-20 10:20:16

2024-11-21 14:00:00

模型AI

2025-04-17 14:09:52

OpenAI模型編程

2025-02-26 09:44:14

2025-04-24 09:27:00

2025-04-30 14:12:36

Qwen3AgentMCP

2025-03-10 08:10:00

AI研究安全

2025-06-17 09:09:00

2021-12-16 08:27:54

Vue3 插件Vue應用

2025-04-29 10:39:46

2025-02-03 14:06:32

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美 日韩 综合 | www.久久| 一级毛片视频 | 免费av电影网站 | 欧美视频三区 | 成人精品鲁一区一区二区 | 久久看片 | 成人在线精品 | 一区二区三区四区电影 | 亚洲成人中文字幕 | 看一级黄色毛片 | 国产韩国精品一区二区三区 | 不卡一区二区在线观看 | 日韩在线免费视频 | 国内久久 | 午夜码电影 | 欧美日韩高清 | 国产一区精品在线 | 久久久久久久久精 | 久久鲁视频 | 久久亚洲综合 | 9久9久 | 成人在线视频一区 | 亚洲九九色| 亚洲欧美日韩精品久久亚洲区 | 国户精品久久久久久久久久久不卡 | 日韩成人中文字幕 | 在线观看久草 | 91一区二区在线观看 | 精品久久久久久亚洲精品 | 欧美久久久久 | 国产精品视频一二三 | 福利社午夜影院 | 国产欧美精品一区 | 日韩和的一区二在线 | 亚洲成av| 亚洲激情专区 | 久久精品久久久 | 欧美三级视频在线观看 | 成年网站在线观看 | 国产一区二区三区www |