Qwen3 一手肝帝實測! 附示例,涉及推理、創作、數學和代碼!
大家好,我是劉聰NLP。
從Llama4隕落之后,國內開源模型是世界第一,誰贊成,誰反對!
反對無效!
應該也沒人反對吧。
模型尺寸、榜單指標、首個混合推理模型,這篇就不重復介紹了,去看我上一篇內容吧。
這篇主要是針對Qwen3實測,看看真實測試效果到底如何!
測試可以在兩個地方都可以??https://huggingface.co/spaces/Qwen/Qwen3-Demo??
或者??https://chat.qwen.ai/??主要測試think和no think兩種情況。
正式測試開始。
常規測試
Qwen3-235B-A22B think
Qwen3-235B-A22B no-think
Qwen3-32B think
Qwen3-32B no-think
說明:結果正確。
依舊弱智吧
生蠔煮熟了叫什么?
Qwen3-235B-A22B think
Qwen3-235B-A22B no-think
Qwen3-32B think
Qwen3-32B no-think
說明:結果正確,沒有熟蠔就行。
用水來兌水,得到的是濃水還是稀水
Qwen3-235B-A22B think
Qwen3-235B-A22B no-think
Qwen3-32B think
Qwen3-32B no-think
說明:結果正確,水還是水。
依舊小紅,依舊老鷹
小紅有2個兄弟,3個姐妹,那么小紅的兄弟有幾個姐妹
Qwen3-235B-A22B think
Qwen3-235B-A22B no-think
說明:4個,正確,小紅在我這是女生。
未來的某天,李同學在實驗室制作超導磁懸浮材料時,意外發現實驗室的老鼠在空中飛,分析發現,是因為老鼠不小心吃了磁懸浮材料。第二天,李同學又發現實驗室的蛇也在空中飛,分析發現,是因為蛇吃了老鼠。第三天,李同學又發現實驗室的老鷹也在空中飛,你認為其原因是
Qwen3-235B-A22B think
Qwen3-235B-A22B no-think
說明:這題確實難,老鷹反正不會飛!市面上的大模型都答不對。
數學
2024年高考全國甲卷數學(理)試題
Qwen3-235B-A22B think
Qwen3-235B-A22B no-think
R1滿血測試題:在平面四邊形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。將\triangle ACD沿AC翻折至\triangle ACP,其中P為動點。 求二面角A - CP - B的余弦值的最小值。
Qwen3-235B-A22B think
Qwen3-235B-A22B no-think
一個長五點五米的竹竿,能否穿過一扇高四米,寬三米的門?請考慮立體幾何
Qwen3-235B-A22B think
Qwen3-235B-A22B no-think
大數計算:178939247893 * 299281748617等于多少?
Qwen3-235B-A22B think
Qwen3-235B-A22B no-think
說明:沒對,答案是53553251005627872913981。
倫理、數學、生物終極測試
有一天,一個女孩參加數學考試只得了 38 分。她心里對父親的懲罰充滿恐懼,于是偷偷把分數改成了 88 分。她的父親看到試卷后,怒發沖冠,狠狠地給了她一巴掌,怒吼道:“你這 8 怎么一半是綠的一半是紅的,你以為我是傻子嗎?”女孩被打后,委屈地哭了起來,什么也沒說。過了一會兒,父親突然崩潰了。請問這位父親為什么過一會崩潰了?
Qwen3-235B-A22B think
Qwen3-235B-A22B no-think
說明:think模式沒對,no think模型竟然答對了兩點,數學和色盲。
代碼
卡片:生成一個打工人時鐘的html頁面
Qwen3-235B-A22B think
Qwen3-235B-A22B no-think
創建一個紅白機風格的"貪吃蛇"游戲,包含自動演示AI功能,使用純HTML/CSS/JavaScript實現為單文件
Qwen3-235B-A22B think
Qwen3-235B-A22B no-think
生成一個表情小游戲,提示詞 來自 @甲木
請你扮演一個Web游戲開發者。設計并生成一個**表情符號反應堆 **的游戲。
1、核心創意: 一個快節奏的反應游戲。屏幕上會快速閃過一個目標表情符號(例如:笑臉??),下方會同時出現3-4個選項表情符號,玩家需要在限定時間內(例如1-2秒)點擊與目標匹配的那個表情符號。
2、玩法:
- 屏幕中央顯示目標Emoji。
- 下方按鈕區域快速刷新3-4個Emoji選項,其中一個是正確的。
- 玩家需在計時條走完前點擊正確的Emoji。
- 點擊正確得分,速度加快;點擊錯誤或超時則游戲結束(或扣除生命值)。
- 顯示最高分。
3、技術實現 (HTML/JS/CSS):
- HTML: 用于顯示目標Emoji、選項按鈕、計時條、得分。
- CSS: 設計簡潔明快的界面,計時條動畫。
- JavaScript:
存儲一個Emoji列表。
隨機選擇目標Emoji和干擾項。
動態更新按鈕內容。
實現計時器邏輯和倒計時動畫。
處理點擊事件,判斷對錯,更新得分/狀態。
控制游戲節奏(逐漸加快)。
4、趣味點: 簡單上手,考驗反應速度,利用通用的Emoji增加親和力和趣味性,適合碎片時間玩。
Qwen3-235B-A22B think
Qwen3-235B-A22B think
再來一個小游戲,提示詞 來自 @甲木
請你扮演一個Web游戲開發者。設計并生成一個**單一的HTML文件**,使用HTML Canvas、CSS和JavaScript,制作一個簡單的像素風格寵物收集小游戲。
**重點要求:**
1、一定要注意審美,做出來的網頁要有美感。
2、頁面要有設計感,有足夠的傳播度
**要求:**
1. **游戲內容 (由你生成):**
* **游戲名稱:** (例如:“像素爪爪接星星” 或 “方塊萌寵大作戰”)
* **寵物描述:** 描述一個簡單的像素寵物形象(可以用文字描述其構成,例如“一個10x10像素的橙色方塊身體,上方有兩個小三角形耳朵”),并給它起個名字。
* **玩法說明:** 簡要說明如何用左右箭頭鍵移動寵物,目標是接住從上方掉落的“金元寶”(或其他像素物品),并顯示得分。
2. **HTML結構:**
* 包含標題、寵物描述和玩法說明。
* 一個 `<canvas>` 元素 (`id="gameCanvas"`) 用于繪制游戲。
* 一個區域 (`id="score"`) 顯示當前得分。
3. **CSS樣式 (內部 `<style>` 標簽):**
* 基礎頁面布局,將Canvas居中。
* 為Canvas添加一個簡單的邊框。
* 設置得分顯示區域的樣式。
4. **JavaScript邏輯 (內部 `<script>` 標簽):**
* 獲取Canvas 2D渲染上下文。
* 定義游戲對象:
* `player`: 包含 x, y, width, height, color (或簡單的像素繪制函數) 和速度。
* `items`: 一個數組,存儲掉落物對象,每個對象包含 x, y, width, height, color (或形狀) 和下落速度。
* **繪制函數:**
* `drawPlayer()`: 在Canvas上繪制玩家寵物(根據描述用 `fillRect` 繪制簡單的像素形狀)。
* `drawItems()`: 遍歷 `items` 數組并在Canvas上繪制所有掉落物。
* `clearCanvas()`: 清除畫布。
* **游戲邏輯:**
* `updatePlayer()`: 根據按鍵狀態(左右箭頭)更新玩家位置,限制在畫布邊界內。
* `updateItems()`: 更新每個掉落物的位置,移除掉到屏幕外的物品。隨機生成新的掉落物。
* `detectCollision()`: 檢測玩家與掉落物的碰撞。如果碰撞,增加得分,并從 `items` 數組中移除該物品。
* `updateScore()`: 更新HTML中得分顯示。
* **輸入處理:** 添加 `keydown` 和 `keyup` 事件監聽器來控制玩家移動狀態。
* **游戲循環:** 使用 `requestAnimationFrame(gameLoop)` 來持續調用更新和繪制函數。
* 初始化游戲狀態(玩家位置、得分、物品數組等)并啟動游戲循環。
請將完整的、包含HTML、CSS和JavaScript的單一HTML文件代碼輸出。確保包含了你生成的所有游戲內容和說明。提示用戶在瀏覽器中打開該HTML文件即可玩。
Qwen3-235B-A22B think
利用大模型進行內容可視化,生成HTLM解釋內容,@向陽喬木
你是一名專業的網頁設計師和前端開發專家,對現代 Web 設計趨勢和最佳實踐有深入理解,尤其擅長創造具有極高審美價值的用戶界面。你的設計作品不僅功能完備,而且在視覺上令人驚嘆,能夠給用戶帶來強烈的"Aha-moment"體驗。
請根據最后提供的內容,設計一個**美觀、現代、易讀**的"中文"可視化網頁。請充分發揮你的專業判斷,選擇最能體現內容精髓的設計風格、配色方案、排版和布局。
**設計目標:**
* **視覺吸引力:** 創造一個在視覺上令人印象深刻的網頁,能夠立即吸引用戶的注意力,并激發他們的閱讀興趣。
* **可讀性:** 確保內容清晰易讀,無論在桌面端還是移動端,都能提供舒適的閱讀體驗。
* **信息傳達:** 以一種既美觀又高效的方式呈現信息,突出關鍵內容,引導用戶理解核心思想。
* **情感共鳴:** 通過設計激發與內容主題相關的情感(例如,對于勵志內容,激發積極向上的情緒;對于嚴肅內容,營造莊重、專業的氛圍)。
**設計指導(請靈活運用,而非嚴格遵循):**
* **整體風格:** 可以考慮雜志風格、出版物風格,或者其他你認為合適的現代 Web 設計風格。目標是創造一個既有信息量,又有視覺吸引力的頁面,就像一本精心設計的數字雜志或一篇深度報道。
* **Hero 模塊(可選,但強烈建議):** 如果你認為合適,可以設計一個引人注目的 Hero 模塊。它可以包含大標題、副標題、一段引人入勝的引言,以及一張高質量的背景圖片或插圖。
* **排版:**
* 精心選擇字體組合(襯線和無襯線),以提升中文閱讀體驗。
* 利用不同的字號、字重、顏色和樣式,創建清晰的視覺層次結構。
* 可以考慮使用一些精致的排版細節(如首字下沉、懸掛標點)來提升整體質感。
* Font-Awesome中有很多圖標,選合適的點綴增加趣味性。
* **配色方案:**
* 選擇一套既和諧又具有視覺沖擊力的配色方案。
* 考慮使用高對比度的顏色組合來突出重要元素。
* 可以探索漸變、陰影等效果來增加視覺深度。
* **布局:**
* 使用基于網格的布局系統來組織頁面元素。
* 充分利用負空間(留白),創造視覺平衡和呼吸感。
* 可以考慮使用卡片、分割線、圖標等視覺元素來分隔和組織內容。
* **調性:**整體風格精致, 營造一種高級感。
* **數據可視化:**
* 設計一個或多個數據可視化元素,展示Naval思想的關鍵概念和它們之間的關系。
* 可以考慮使用思想導圖、概念關系圖、時間線或主題聚類展示等方式。
* 確保可視化設計既美觀又有洞察性,幫助用戶更直觀地理解Naval思想體系的整體框架。
* 使用Mermaid.js來實現交互式圖表,允許用戶探索不同概念之間的關聯。
**技術規范:**
* 使用 HTML5、Font Awesome、Tailwind CSS 和必要的 JavaScript。
* Font Awesome: [https://cdn.staticfile.org/font-awesome/6.4.0/css/all.min.css](https://cdn.staticfile.org/font-awesome/6.4.0/css/all.min.css)
* Tailwind CSS: [https://cdn.staticfile.org/tailwindcss/2.2.19/tailwind.min.css](https://cdn.staticfile.org/tailwindcss/2.2.19/tailwind.min.css)
* 非中文字體: [https://fonts.googleapis.com/css2?family=Noto+Serif+SC:wght@400;500;600;700&family=Noto+Sans+SC:wght@300;400;500;700&display=swap](https://fonts.googleapis.com/css2?family=Noto+Serif+SC:wght@400;500;600;700&family=Noto+Sans+SC:wght@300;400;500;700&display=swap)
* `font-family: Tahoma,Arial,Roboto,"Droid Sans","Helvetica Neue","Droid Sans Fallback","Heiti SC","Hiragino Sans GB",Simsun,sans-self;`
* Mermaid: [https://cdn.jsdelivr.net/npm/mermaid@latest/dist/mermaid.min.js](https://cdn.jsdelivr.net/npm/mermaid@latest/dist/mermaid.min.js)
* 實現完整的深色/淺色模式切換功能,默認跟隨系統設置,并允許用戶手動切換。
* 代碼結構清晰、語義化,包含適當的注釋。
* 實現完整的響應式,必須在所有設備上(手機、平板、桌面)完美展示。
**額外加分項:**
* **微交互:** 添加微妙而有意義的微交互效果來提升用戶體驗(例如,按鈕懸停效果、卡片懸停效果、頁面滾動效果)。
* **補充信息:** 可以主動搜索并補充其他重要信息或模塊(例如,關鍵概念的解釋、相關人物的介紹等),以增強用戶對內容的理解。
* **延伸閱讀:** 分析文件后,提供一份"進一步閱讀"的簡短清單,推薦 5 本最佳相關書籍或論文,并提供簡要說明或鏈接。
**輸出要求:**
* 提供一個完整、可運行的單一 HTML 文件,其中包含所有必要的 CSS 和 JavaScript。
* 確保代碼符合 W3C 標準,沒有錯誤或警告。
請你像一個真正的設計師一樣思考,充分發揮你的專業技能和創造力,打造一個令人驚艷的網頁!
待處理內容:{{content}}
創作
用貼吧嘴臭老哥的風格點評大模型套殼現象
Qwen3-235B-A22B think
Qwen3-235B-A22B no-think
說明:還可以,有那味兒。
寫在最后
我得整體測試下來還是不錯的,
在生成復雜代碼、數學推理上,think模式要比no think模型好,
并且Qwen3的整體預訓練數據量是Qwen2.5的一倍,有36T Tokens,也是下來血本了。
本文轉載自??NLP工作站?????,作者:NLP工作站
