拯救P圖廢柴，阿里上新多模態模型Qwen-VLo！人人免費可玩

2025-06-30 08:43:00

人工智能新聞

阿里帶著全新多模態模型Qwen-VLo開啟炸場模式。

一上手就令網友直呼「生圖能力」比GPT-4o更強？！

就在昨夜，阿里帶著全新多模態模型Qwen-VLo開啟炸場模式。

據介紹，Qwen-VLo在阿里原有的多模態理解和生成能力上進行了全面升級，具備三大亮點：

具有增強的細節捕捉能力，能在整個生成過程中保持高度語義一致性；
一個指令即可實現圖像編輯，包括風格替換、素材增刪、添加文字等等；
支持中英等多語言，全球用戶使用更方便。

而且無論是輸入端還是輸出端，Qwen-VLo都支持任意分辨率和長寬比，不受固定格式的限制。

同時在官方釋出的demo中，除了那些GPT-4o已經有的玩法（如連續生成、吉卜力風格、添加文字），它還支持一些腦洞大開的idea。

前者無需多言，它現在也能像“連續劇”一樣生成各種精準符合指令的圖片：

至于后者，比如我們像在超市選購日用品一樣，讓Qwen-VLo生成一張“洗浴用品都在購物籃里”的圖片。

結果啪的一下，還真立馬完成裝貨了(⊙?⊙)：

不是沒有一些小瑕疵，但有一說一，其“理解”能力確實比之前更強。

官方介紹，這種理解能力不止體現在圖像生成上，還包括對圖像的識別解釋。

比如完成生圖任務后，再讓它介紹一下圖中小貓小狗的品種（正確識別為虎斑貓和比格）：

而且和以往模型稍顯不同的是，Qwen-VLo還可以對現有信息進行注釋（如檢測、分割等）。

下圖中，它成功用紅色Mask分割出了香蕉的邊緣。

……

目前模型人人免費可玩（當前為預覽版），具體請認準Qwen3-235B-A22B，直接在首頁輸入框提需求就行。

話不多說，我們先一起來上手實測一波走起。

Qwen-VLo，你到底有多能編輯？

根據Qwen介紹的亮點，即“強細節捕捉”和“一句話編輯圖像”，我們著重在測試中考查了Qwen-VLo的各種編輯能力。

畢竟這點真的很吸引人啊！

一方面幾乎所有的模型生圖都需要抽卡，但前一次的生成效果并非讓人完全不滿意，所以二次/多次編輯能力非常重要。

另一方面，強編輯能力，真的給P圖廢材省不少事兒……

開胃小菜先走起！

第一測，讓它先生成一張北極熊喝可樂的照片。

這一回合主打的是非現實風格。

在此基礎上，繼續通過對話將可樂換成牛奶。

一次成功，Qwen-VLo確實完成了替換。

且背景、北極熊本熊都幾乎沒被亂改。

但非要挑挑毛病的話，還是能觀察出來，前后兩張圖中北極熊的眉眼部分和毛發質感稍微有那么一丁點不一樣。

第二測，先讓它幫忙生成一張小鳥的照片。

這一回合主打的是現實攝影風格。

然后不用讀霍格沃茨，只需一句“把圖中的這只鳥換成鴿子”，你就能施展魔法：

但我們嘗試玩兒個“蒜鳥”的梗，Qwen-VLo就沒get到。

（注：“蒜鳥”一詞是近期爆梗。短視頻畫外音中的武漢方言“算了算了，都不容易”，被網友諧音稱“算鳥”，后來演變成“蒜鳥”）

不過，雖然沒get到梗，Qwen-VLo還是努力想完成編輯任務。

看下圖成果，在不改變其它元素的基礎上，Qwen-VLo給咱們把圖中的鴿子換成了別的鳥。

也算是一種換鳥了？

第三測，來個多步驟任務，全方位測試Qwen-VLo“描繪”世界的同時，重點考察下它在圖像上的文本編輯能力。

過程是「讓Qwen-VLo生成草圖——上色——加字——編輯漢字」。

來，怕動圖滑太快，咱們連看過程中順次截取的四張圖，感受它每一步帶來的改變：

雖然圖里小帥同學的五官在變，但人物主體穩定，背景沒變，一整套下來，編輯漢字的任務算是搞得不錯，

最后來個附加題，編輯英文——

字編輯對了，多人物主體位置沒變，背景依舊，總體沒錯。

但如你所見，小帥同學也長得比較美漫風了（手動笑死）。

同樣是逐步展示，但Qwen-VLo這背后真有活

這里我們展開補充一點，大家上手玩兒的時候應該都能注意到。

那就是Qwen-VLo生成圖像的過程，是醬嬸兒的——

是不是有點熟悉的味道？

沒錯，GPT-4o也是從上到下逐塊生成圖像的：先顯示模糊輪廓，再逐步填充細節。

不過當時港中文研究逆向工程研究發現，用戶看到的逐行渲染效果只是OpenAI的障眼法，不是真的由上至下逐像素生成。

這樣做的目的，既滿足用戶對“實時生成”的心理預期，又避免了真正逐行渲染的技術負擔。

但Qwen這么做就不是上演OpenAI的戲碼了。

敲敲黑板——

首先，Qwen官方表示Qwen-VLo的這種漸進式生成方式，不僅是從上到下，還是從左至右逐步清晰地構建整幅圖片。

我們多次實測，暫時沒有肉眼觀察到“從左至右”的前端效果。

但從上到下逐漸構成照片的前端效果是保準會有的：

其次，Qwen引入這個形式，它是真·有用啊：

在生成過程中，模型會對預測的內容不斷調整和優化，從而確保最終結果更加和諧一致。
這種生成機制不僅提升了視覺效果，生成效率，還特別適用于需要精細控制的長段落文字生成任務。

例如，在生成帶有大量文本的廣告設計或漫畫分鏡時，Qwen-VLo會逐步生成，慢慢修改。

這個生成過程，其實有點思維鏈“一步一步慢慢想”具像化的意思了！

網友實測腦洞開很大，來吧展示

除了以上量子位實測，諸多網友也火速貢獻了一波有趣玩法…

隨手一張動漫角色草圖， Qwen-VLo便能幫忙一鍵上色。

讓小貓擔任宣傳員，還能直接生成帶有“Qwen Chat”字樣的看板。

或者也可以借鑒下面網友的做法，以后用來制作一些梗圖（doge）。

順便一提，連Qwen團隊成員之一Binyuan Hui也出來給大家打樣，分享了吉卜力風格的某近日頂流。

好了，更多例子就不一一展示了，只說一句：

目前模型免費開放，評論區可帶圖，記得回來分享一波～

在線體驗：
https://chat.qwen.ai/
博客：
https://qwenlm.github.io/blog/Qwen-VLoo/

責任編輯：張燕妮來源：量子位

AI 模型 GPT-4o

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

拯救P圖廢柴，阿里上新多模態模型Qwen-VLo！人人免費可玩

Qwen-VLo，你到底有多能編輯？

同樣是逐步展示，但Qwen-VLo這背后真有活

網友實測腦洞開很大，來吧展示