騰訊元寶全面測評!國產(chǎn)AI“看劇”時代開啟!讀懂《慶余年》范閑,揭秘奧特曼宮斗! 原創(chuàng)
編輯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
騰訊在大模型上的動作姍姍來遲。
對于“后發(fā)”的抉擇,騰訊想得很清楚。
在“騰訊元寶”上線的發(fā)布會上,騰訊云副總裁、騰訊混元大模型負(fù)責(zé)人劉煜宏說,“雖然行業(yè)內(nèi)看起來火熱,但是中國移動互聯(lián)網(wǎng)用戶規(guī)模12.32億,國內(nèi)AI頭部產(chǎn)品日活躍用戶規(guī)模僅數(shù)百萬。這意味著AI產(chǎn)品的滲透率極低,不到1%。”
圖片
在這種情景之下,盡管大家的FOMO(害怕錯過)情緒很重,但先發(fā)不見得必然獲取到優(yōu)勢。豆包對于文心一言的反超就是一個例證。去年8月份推出的豆包,無論是下載量還是月活躍用戶數(shù)均超過了上半年就入局的文心一言。
因此,騰訊選擇了沉住氣,將更準(zhǔn)確地洞察用戶需求、內(nèi)部打磨產(chǎn)品作為自己的答案。
那么,后發(fā)的元寶能否帶來一些驚喜呢?
我們?yōu)樵獙毜哪P湍芰M行了全方位的測評。同時,背靠騰訊豐富的內(nèi)容生態(tài)是元寶的獨特優(yōu)勢和潛力,因此也對現(xiàn)在的內(nèi)容鏈接能力進行了評測,來看看元寶對微信、騰訊視頻、微信讀書等資源的利用情況。
圖片
在體驗元寶之后,元寶給我留下最深印象的優(yōu)點就是——國內(nèi)AI終于開始讀圖了!雖然豆包、Kimi也允許上傳圖片,但是他們本質(zhì)做的是OCR,只識字不識圖。
圖片
但元寶可以看懂,并且可以對畫面內(nèi)容進行一些理解。
圖片
雖然Ta目前看不懂自己的梗圖,并且誤解自己是個理財APP。但總體來說是個巨大的進步。
圖片
至于缺點,元寶沒有采取目前GPT、Kimi等比較主流的方法,會給每一個對話概括一個名字。方便用戶隨時回顧之前的對話內(nèi)容。
元寶在開始新對話后,必須通過不斷地上拉才可以回顧之前的對話。在刪除聊天記錄時則會清楚全部的記錄(這個靈感是來自微信嗎),而且也尚未提供搜索,給人感覺不夠便利。
圖片
此外,元寶很有想法。不是那種被質(zhì)問就馬上道歉說是自己出幻覺的那種AI。
詳細(xì)的測評將從以下五個維度展開。
圖片
一、自然語言處理能力
1.語言理解第一個題目由GPT-4o提供:
圖片
元寶的作答非常詳盡,因此只選取了建議部分:
圖片
從上述回答來看,元寶的理解比較深入,全面分析了給出的金融問題,并符合邏輯地提供了有價值且易于理解的投資建議。
作為AI測試界的常客,我們選擇了兩個“弱智吧”笑話,對元寶進行了測試。
第一個是生魚片是不是死魚片?以下是元寶的總結(jié):
圖片
另一個是經(jīng)典的爸媽結(jié)婚問題:
圖片
2.語言生成選擇了一道高考作文題目交給元寶作答。
元寶的作文乍一看很唬人,細(xì)品一下會發(fā)現(xiàn)Ta一直在跑題,主要是模型起的標(biāo)題把自己帶偏了。
不過有意思的是,元寶無需提示就意識到了自己的作答身份,全篇以學(xué)生口吻完成。
二、信息檢索和知識問答
首先檢索了OpenAI的新聞,完成度不錯。OpenAI與普華永道的合作也是最新發(fā)生的事情。
圖片
但當(dāng)我用馬斯克為關(guān)鍵詞進行搜索時,元寶剛開始的回答還很靠譜。
圖片
但隨著Ta思維的發(fā)散,Ta的答案走遠(yuǎn)了……
圖片
當(dāng)我追問時,元寶居然神奇的硬圓上了。(這就是元寶的性格,不會像其他模型那樣愛認(rèn)錯,下文還會提到)
圖片
三、任務(wù)執(zhí)行和實用工具
在任務(wù)執(zhí)行中,我們考察的是元寶的路線規(guī)劃能力。
圖片
在實用工具能力上,選擇了一道難度較大的行測題目,對元寶進行了拷問。
圖片
元寶經(jīng)過一通分析之后,也很好地找出了正確答案。
圖片
四、多模態(tài)交互能力
1.圖像理解
元寶的讀圖能力是我覺得最有趣的地方。
特別是Ta理解了照片拍攝的意圖,讓我感覺比較驚喜。
圖片
我甚至給元寶看了最近正在考慮組的房子戶型圖。元寶沒有像一般大模型那樣被質(zhì)疑后就爆發(fā)討好性人格,而是堅持自我!(不過他應(yīng)該是把廚房當(dāng)成臥室了)。
圖片
2.圖像生成
元寶能根據(jù)古詩的含義進行圖像生成。如果非常依賴上下文的詩表現(xiàn)可能不佳,例如“知否,知否,應(yīng)是綠肥紅瘦”,元寶可能會po上兩顆一紅一綠的樹上去。
圖片
生成的日常圖片逼真而有食欲。
圖片
五、騰訊內(nèi)容生態(tài)鏈接能力
首先讓元寶給我推薦值得關(guān)注的美食公眾號
圖片
方向是對的,但是質(zhì)量沒有那么好,里面有一些斷更一年多的公眾號也被收錄了。
同時,在檢索最近發(fā)生的事情時,元寶可以使用微信公眾號的優(yōu)質(zhì)資源整合作答。但是在交互時,需要注意prompt的寫法,我一開始的問法是“為什么要爆料”,此時元寶不會開啟搜索,而是選擇進行動機的推測。
圖片
圖片
另外,在檢索熱播劇時,元寶還會拉到騰訊視頻的答案,點擊可以在網(wǎng)頁端看視頻。不過,在進一步的測試中發(fā)現(xiàn),目前的元寶還不具備閱讀和理解視頻的能力。
圖片
其實,依托騰訊龐大的生態(tài)。元寶完全有機會成為一個很好的個人助手。
期待元寶能打破APP之間那道無形的墻。這其中的想象力以及能釋放給用戶的便利可能遠(yuǎn)超你我的想象。
圖片
?本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)
