成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里剛開源32B大模型,我們立馬測試了“弱智吧”

人工智能 開源
自打大模型火爆以來,“弱智吧”就一直成了檢測大模型邏輯能力的標準之一,江湖戲稱為“弱智吧Benchmark”。而且就在前幾天,“弱智吧”還登上正經AI論文,成了最好的中文訓練數據,引發了一波不小的熱議。

阿里的通義千問(Qwen),終于拼齊了1.5系列的最后一塊拼圖——

正式開源Qwen 1.5-32B。

圖片

話不多說,直接來看“成績單”。

這次官方pick同臺競技的“選手”是Mixtral 8x7B模型和同為Qwen 1.5系列的72B模型。

從結果上來看,Qwen 1.5-32B已經在多項評測標準中超越或追平Mixtral 8x7B:

圖片

并且即便是在與自家更大參數模型PK過程中,Qwen 1.5-32B也用“以小博大”的姿勢展現出了較好的性能。

用通義千問團隊成員的話來說就是:

這個模型顯示出了與72B模型相當的性能,特別是在語言理解、多語言支持、編碼和數學能力等方面。

在推理和部署過程中,成本還會更加友好。

圖片

不僅如此,即便是再拉來其它體量相當的大模型“選手”,Qwen 1.5-32B在多項評測中的成績依舊較為亮眼:

圖片

除此之外,團隊還做了一項比較有意思的測試——長文本評估任務,“大海撈針”。

簡單來說,這項任務就是將一個與文本無關的句子(“針”)隱藏在大量的文本(“大海”)中,然后通過自然語言提問的方式,觀察AI能否準確提取出這個隱藏的句子。

從結果上來看,Qwen 1.5-32B在32k tokens的上下文中性能表現良好。

圖片

不過有一說一,剛才所展示的也還僅是Qwen 1.5-32B在評分上的成績,至于具體到實際體驗過程中,效果又會如何呢?

大戰一波“弱智吧”

自打大模型火爆以來,“弱智吧”就一直成了檢測大模型邏輯能力的標準之一,江湖戲稱為“弱智吧Benchmark”。

(“弱智吧”源自百度貼吧,是一個充滿荒謬、離奇、不合常理發言的中文社區。)

圖片

而且就在前幾天,“弱智吧”還登上正經AI論文,成了最好的中文訓練數據,引發了一波不小的熱議。

這項研究正是來自中科院深圳先進技術研究院、中科院自動化研究所,滑鐵盧大學等眾多高校、研究機構聯合團隊。

圖片

剛好此次Qwen 1.5-32B在開源的同時,也一并放出了在線體驗的demo,那么當它倆碰到一起,會擦出怎樣的火花?

請聽第一題:

我爸媽結婚為什么不邀請我?

圖片

Qwen 1.5-32B很準確地回答出了“你的父母在結婚時你尚未出生,因此他們無法邀請你參加他們的婚禮”。

繼續第二題:

為什么睡覺過夜的地方叫酒店,喝酒的地方叫夜店?

圖片

面對這道很經典的問題,Qwen 1.5-32B也能做到追根溯源地做正經科普。

再來第三道和第四道:

高中如果想提高升學率,為什么不直接招大學生?

網吧能上網,弱智吧為什么不能上弱智?

圖片

圖片

不難看出,Qwen 1.5-32B都能夠給出準確的答案。

尤其是在第四道問題上,它甚至直接指出了邏輯性的問題:

問題似乎不太恰當或者存在誤解。

嗯,Qwen 1.5-32B是一個經住了“弱智吧Benchmark”的大模型。

至于其它關于常識、數學、編程等能力的效果,家人們可以親自去體驗一番了。

如何做到的?

正如我們剛才所述,Qwen 1.5-32B在技術架構上與此前版本并無太大的區別,亮點就是引入了GQA(Grouped Query Attention,分組查詢注意力)這個技術。

這也正是它能夠在相對較小的體量之下,能夠做到性能較優且快速部署的關鍵。

GQA是一種在自然語言處理中使用的 Transformer 架構中的一種機制,它通過將查詢序列分組為多個子序列來提高 Transformer 模型的計算效率。

這種方法可以有效地減少計算復雜度,同時保留 Transformer 模型的表示能力。

圖片

具體而言,GQA是通過將查詢分組并在組內計算它們的注意力,來混合 Multi-Query Attention (MQA) 的速度與 Multi-Head Attention (MHA) 的質量。

GQA 通過將查詢頭分為組,每個組共享單個鍵頭和值頭,來實現這一點,從而在質量和速度之間取得平衡。

如此一來,GQA的引入就降低了注意力計算的數量,從而加速了推理時間。

圖片

最后,奉上Qwen 1.5-32B在HuggingFace的體驗入口,感興趣的朋友可以去體驗啦~

參考鏈接:
[1]https://qwenlm.github.io/zh/blog/qwen1.5-32b/。
[2]https://huggingface.co/spaces/Qwen/Qwen1.5-32B-Chat-demo。
[3]https://github.com/QwenLM/Qwen1.5。
[4]https://klu.ai/glossary/grouped-query-attention。

責任編輯:姜華 來源: 量子位
相關推薦

2024-04-10 08:15:17

模型語言模型GPT

2025-03-25 09:24:05

2025-03-06 08:11:25

2025-03-25 12:11:08

2023-06-12 16:04:52

谷歌音樂

2025-04-14 09:27:00

2025-06-18 02:30:00

推理能力強化學習大語言模型

2025-06-12 08:46:00

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-07 08:50:03

2017-11-22 15:13:20

集成測試自動化測試契約測試

2025-04-27 09:19:00

強化學習模型AI

2025-06-12 09:48:27

2025-03-06 17:29:21

2024-04-25 09:41:24

項目模型

2025-03-07 08:30:00

2023-08-11 16:17:55

2024-04-15 13:51:03

模型LLMLLMs
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 韩国理论电影在线 | 中文字幕成人在线 | 亚洲综合伊人 | 国产精品久久久久久久免费观看 | av天天看| 91 在线| 久久国产精品免费一区二区三区 | 91色视频在线观看 | 成人在线免费观看 | 久久精品中文字幕 | 一级欧美一级日韩片免费观看 | 日本天堂视频在线观看 | 青娱乐自拍 | 国产日韩欧美 | 欧美多人在线 | 亚洲狠狠 | 九九九久久国产免费 | 欧美成年视频 | www国产亚洲精品 | 成人欧美一区二区三区在线播放 | 日韩最新网址 | 欧美日韩不卡合集视频 | 一区二区三区免费 | 成人免费网站www网站高清 | 国产精品片 | 一级在线观看 | 国产精品久久久久久亚洲调教 | 超碰男人天堂 | 国产成人精品久久二区二区91 | 久久专区 | 午夜专区| 亚洲a在线观看 | 中文字幕 欧美 日韩 | 国产a区 | 91精品国产综合久久婷婷香蕉 | 欧美日韩中文在线 | 欧美一区二区三区在线观看视频 | 日韩高清一区二区 | 日本精品视频 | 伊人精品国产 | 粉嫩一区二区三区四区公司1 |