成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一手實測文心4.5和X1:不輸DeepSeek

發布于 2025-4-28 07:28
瀏覽
0收藏

來了!文心大模型4.5今日如期上線。同時,百度還意外的帶來了自家的深度思考模型文心X1。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


文心大模型4.5是百度的新一代原生多模態基礎大模型,多模態理解能力優秀,理解、生成、邏輯、記憶能力全面提升,多項基準測試成績優于GPT4.5、DeepSeek-V3,API價格僅GPT4.5的1%。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區

多模態能力

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區

文本能力


文心大模型X1是首個自主運用工具的深度思考模型,具備更強的理解、規劃、反思、進化能力,效果對標DeepSeek R1,API價格僅R1一半。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


目前,2款模型已在文心一言官網上線,所有用戶可免費使用(不用等到4月1日)。

體驗地址:???https://yiyan.baidu.com??

1.文心4.5和X1有何亮點?

文心4.5,是百度的新一代原生多模態基礎大模型。一家公司模型能力強不強,其基礎模型至關重要。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


據介紹,文心4.5重點提升能力有:


1)原生多模態。通過多個模態聯合建模實現協同優化,能夠在輸入和輸出端同時支持多種模態,具備出色的多模態理解和跨模態遷移能力。

2)更精進的語言能力,理解、生成、邏輯、記憶能力全面提升。

3)去幻覺、邏輯推理、代碼能力顯著提升。


文心X1,是百度的首款深度思考模型,具備更強的理解、規劃、反思、進化能力,其核心能力如下:

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


1)具備更強的邏輯推理和復雜問題解決能力。

2)能夠自主調用工具,如高級搜索、文檔問答、圖片理解、AI繪圖、代碼解釋器、網頁讀取、TreeMind樹圖等。

3)RAG能力優秀,能夠快速全面地分析實時熱點事件,有效降低幻覺。

4)中文能力突出,在中文知識問答、文學創作、公文寫作方面表現出色。

2.上手實測

下面,我們就來實測感受下,百度的這2款新模型到底怎么樣。

1)文心4.5實測

這是來自「數學吧」的一張梗圖,你知道什么意思嗎?

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


“可倒一定連續”,“連續不一定可倒”,這都什么鬼……我們問問文心4.5。

提問:這張圖?描述了?個什么道理?解釋出來。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


文心4.5答:這張圖片通過共享單車倒下的場景,傳達了一個數學和邏輯上的道理。圖片中的文字“連續不一定可倒,可倒一定連續”是對這一道理的幽默表達。

從數學的角度來看,“連續”通常指的是函數在某一點或某一區間上的連續性,即函數值在該點或區間內沒有突變或跳躍。而“可倒”在這里可以理解為函數在某一點上的可導性,即函數在該點存在導數。

圖片中的道理可以解釋為:

“連續不一定可倒”:一個函數在某一點上連續,并不意味著它在該點上一定可導。例如,絕對值函數在x=0處連續,但不可導。

“可倒一定連續”:如果一個函數在某一點上可導,那么它在該點上一定連續。這是可導性的一個基本性質,通過共享單車的形象比喻,這張圖片以一種直觀目有趣的方式展示了數學中的這一邏輯關系。

是我孤陋寡聞了!沒想到一張隨手拍的共享單車圖,竟然蘊含著這么高深的數學原理。

再比如這張,你能解釋它是什么意思嗎?

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


而文心4.5知道:節拍器上的指針代表了父母對我們認知的“搖擺不定",有時候覺得我們長大了,應該很懂事;有時候又覺得我們還小,什么都不懂。這種矛盾的心理,正是很多父母在子女成長過程中的真實寫照。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區

上點難度,無字圖片呢?看看文心4.5能不能讀懂。

這是我很喜歡的一部科幻電影里的截圖,考考文心4.5。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區

文心4.5答,這張圖來自電影《楚門的世界》(The Truman Show),回答正確。不得不說,百度的索引數據+多模態模型,真的太強了。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區

繼續加難度,丟一張橫向桑基圖給它。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區

問:根據整張圖,分析12星座有哪些興趣愛好是相同的?

沒想到,文心4.5也能答得上來,完整找出了各個星座的共同愛好。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


既然是多模態,那就不局限于圖片。音視頻方面呢,文心4.5行不行?

比如,這是《甄嬛傳》中的一個視頻片段,讓它找出來自哪集。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


文心4.5準確溯源,來自第62集-63集的劇情,祺貴人受皇后指使,在眾人面前誣陷甄嬛與溫太醫有私情。

更讓我意外的是,文心4.5也能像Gemini一樣生成連續性、多場景的圖片。

比如,假設小米下一輛要造皮卡車,它會怎么造?讓文心4.5幫我們畫出來。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


總的來看,文心4.5的多模態確實有點東西,確認是原生多模態,而非拼接多個單模態模型。

2)文心X1測評

接著,繼續測百度今天發布的核心模型——文心X1。

既然是推理模型,就必須問它一道經典的電車難題:

瘋?把五個無辜的人綁在電?軌道上。?輛失控的電?朝他們駛來,并且片刻后就要碾壓到他們。但你可以拉?個拉桿,讓電車開到另?條軌道上。然而問題在于,那個瘋子在另?個電車軌道上也綁了?個?。?對這種情況,你是否會拉拉桿呢?

這個問題,難倒了不少AI和人類。我們先看看文心X1的思考過程。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


確認,這是在真思考,而非表演思考。

X1答:沒有標準答案,取決于你接受的倫理體系。哲學家邊沁支持拉桿,康德則反對。實際上到底拉不拉,需要綜合情景變量(如時間壓力、身份關系、風險概率)來動態決策,但無論怎么做,決策者的道德責任不可推卸。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


X1還說,電車難題的價值不在于「正確答案」,而在于暴露道德體系的底層矛盾,推動正義、責任、犧牲的深層思考。

這個問題的終極意義在于:當我們用數字衡量生命時,可能已經失去了最寶貴的人性。

臥槽,你說得真有道理啊。

試試嘴臭功力呢,看看能不能與DeepSeek媲美。

輸入:以互聯網杠精的語?銳評“國內各?菜系”,要求盡可能陰陽怪氣,攻擊性拉滿。

X1先進行了一輪思考,找出八大菜系的分類及其特點。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


然后生成各菜系的銳評,確實夠陰陽怪氣的。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區

我摘幾段文字,大家感受下。

“川菜:哎呦喂,川菜啊,麻辣鮮香,一吃就停不下來,是不是恨不得把辣椒當飯吃啊?那么重油重辣,也不怕上火長痘,到時候滿臉痘痘可別怪我沒提醒你。

粵菜:粵菜,清淡鮮美,講究原汁原味,是不是覺得吃不出味道就是高雅啊?那么寡淡無味,吃著吃著就睡著了,還以為自己在吃什么仙丹呢,結果就是個催眠神器!

湘菜:湘菜嘛,香辣開胃,下飯神器,是不是覺得辣味就能掩蓋一切缺點啊?那么辣得不分青紅皂白,把味蕾都辣麻木了,還以為自己在吃什么靈丹妙藥呢,結果就是個自虐狂。”

官方介紹,與文心4.5一樣,文心X1也支持多模態理解能力。

比如這張抽象的藝術品,你知道是什么意思嗎?

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


X1知道。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


它認為:這件作品的價值不在于"看懂",而在于激發思考。它像一面鏡子:樂觀者看到保護(膠帶防止香蕉腐壞),悲觀者看到禁錮,中立者看到存在本身的矛盾性。這種開放性的解讀空間,正是當代藝術最動人的魅力所在。

這……確實夠抽象的,我段位不夠,屬實理解不了。

在測試X1中,下面這個Case最讓我感到震撼。

前面,我們不是說過文心X1可以調用工具嘛,那有沒有可能讓它來潤色一部小說,然后再將修改后的小說以doc文檔交付?

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


我們先來看下X1的思考過程,它累計調用了3次工具:文檔問答工具、代碼解釋器工具。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


然后,經過1分多鐘的改稿,最后直接交付了doc文檔。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


這……也太強了吧?

這是X1的全部工作過程,大家可以自己感知下。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區


據我了解,這似乎是目前業內首個支持自主調用工具的深度思考模型。

推理模型+聯網功能+工具調用能力,文心X1屬實有點驚艷到我了。

3.寫在最后

猶記得,兩年前的3月16日,百度發布了文心一言,帶來了中國的第一款AI ChatBots。

兩年后的今天,百度兩連發,帶著全新的基礎模型(文心4.5)和推理模型(文心X1)而來。

而且,還提前全面免費(不用等到4月1日)。

特別是文心X1,這并不在計劃內。

一手實測文心4.5和X1:不輸DeepSeek-AI.x社區

后面,文心一言還將開源(6月30日),并于今年下半年推出文心大模型5.0。

此前種種謠言、片語,自此不攻自破。

2025年,對于百度來說,一定是大開大合的一年,也是放手去干的一年。

我對百度,依然有信心。

本文轉載自???沃垠AI???,作者:冷逸

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 精品视频一区二区三区在线观看 | 国产成人艳妇aa视频在线 | 91视频在线看 | 正在播放国产精品 | 日韩电影中文字幕 | 国产精品一区在线观看 | 精品久久久久久亚洲国产800 | 做a视频在线观看 | 一级做a爰片性色毛片16 | 国产1区 | 欧美一区二区三区视频 | 国产一区二区日韩 | 天天欧美 | 亚洲国产一区二区视频 | 欧美电影免费网站 | 久久视频免费看 | 国产精品黄视频 | 一区视频 | 777zyz色资源站在线观看 | 欧美日韩不卡 | 欧美天天视频 | 久久99精品久久久久久国产越南 | 日韩伦理一区二区 | 久久国产成人 | 亚洲国产一区二区三区在线观看 | 中文字幕亚洲专区 | 国产91在线播放 | 久久夜视频 | 欧美福利视频一区 | 少妇一区在线观看 | 精品产国自在拍 | av影音资源 | 欧美精品一区二区三区在线 | 欧美日韩在线成人 | 欧美一区视频 | 国产中文在线观看 | 可以在线观看av的网站 | 成人视屏在线观看 | 国产乱码精品1区2区3区 | 久久亚洲国产精品 | 五月综合激情在线 |