成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<td id="isesy"><strong id="isesy"></strong></td>

<li id="isesy"><dl id="isesy"></dl></li>

<rt id="isesy"><acronym id="isesy"></acronym></rt>

<code id="isesy"></code>

<abbr id="isesy"></abbr>

<nav id="isesy"><dl id="isesy"></dl></nav>

<code id="isesy"><tr id="isesy"></tr></code>

<rt id="isesy"></rt>

<li id="isesy"></li>

<button id="isesy"></button>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

字節把GPT-4o級圖像生成能力開源了！

2025-05-26 09:05:00

人工智能新聞

模型一經發布，不僅迅速登上Hugging Face 趨勢榜，還立即在??引發熱議。

字節最近真的猛猛開源啊……

這一次，他們直接開源了GPT-4o級別的圖像生成能力。

（輕松拿捏“萬物皆可吉卜力”玩法~）

不止于此，其最新融合的多模態模型BAGEL主打一個“大一統”，將帶圖推理、圖像編輯、3D生成等功能全都集中到了一個模型。

各種花式玩法be like：

雖然活躍參數只有7B（總計14B），但它已經實現了圖像理解、生成、編輯等多冠王，實力超越或媲美一眾頂尖開源（如Stable Diffusion 3、FLUX.1）和閉源（如GPT-4o、Gemini 2.0）模型。

模型一經發布，不僅迅速登上Hugging Face趨勢榜，還立即在??引發熱議。

有網友見此連連感慨，“字節像領先了整整一代人”。

OpenAI研究員也公開贊賞，字節Seed團隊在他心目中已經穩居頂級實驗室之列。

Okk，我們直接來看BAGEL模型有哪些玩法。

一個模型實現所有多模態功能

作為多模態模型，掌握帶圖推理算是如今的一個入門級挑戰。

扔給它疊放整齊的一塊布料，讓它想象出布料展開后的樣子。

可以看到，生成之前BAGEL模型會自動進行推理，并規劃出可行方案：

最終生成的圖片如下，一眼看去布料的拼圖和花紋沒有明顯錯誤：

換成其他例子，還能看到BAGEL模型支持無縫多輪對話。

先是按照文字提示生成符合要求的圖片：

然后緊接著生成人物的公仔形象，并推出銷售口號。

當然，除了上面這些，懂推理的BAGEL模型還支持復雜圖像編輯。

最方便的，當屬一鍵試妝了：

展開其思考過程，不難發現它是真懂（doge）。

其他我們相對熟悉的技能，如人物表情轉換、憑空造物等更是不在話下。

最后，BAGEL模型超越傳統圖像編輯，還具備多視角合成和導航等“世界建模”能力。

360°全自動觀賞裝在盒子里的手辦：

又或者開局一張圖，視角一步步推進，沉浸式走進小巷：

總之，正如字節團隊所強調的，BAGEL模型已經展現出統一多模態能力。

那么接下來的問題是——

它怎么做到的？

重新定義“涌現能力”

據論文介紹，BAGEL模型采用了MoT（Mixture-of-Transformer-Experts）架構。

它由兩個Transformer專家組成，一個專注于多模態理解，另一個專注于多模態生成。作為對應，模型也使用了兩個獨立的視覺編碼器，分別用于捕捉圖像的像素級和語義級特征。

簡單來說，像素級編碼器專注于圖像的底層細節，如顏色、紋理等；語義級編碼器則關注圖像的高層語義，如物體的類別、場景的含義等。

整體框架遵循“下一個token組預測范式”，即模型根據已有的多模態輸入，學習預測后續的token，從而不斷優化自身對多模態數據的理解和生成能力。

順便一提，BAGEL基礎模型是基于Qwen2.5-7B-Instruct和siglip-so400m-14-384-flash-attn2模型進行微調，并使用了FLUX.1-schnell VAE模型。

基于上述架構，團隊在模型訓練中得出了一項重要發現。

隨著規模化數據與模型參數的雙重擴展，BAGEL模型表現出了一種“涌現能力（Emerging Properties）”——多模態理解和生成能力較早出現，隨后是基礎編輯能力，而復雜的智能編輯能力則在后期顯現。

所謂的涌現能力，其實早已在大型視覺或語言模型中被廣泛探討。不過在論文中，聚焦于統一多模態基礎模型的背景下，團隊重新定義了涌現能力：

當某種能力在早期訓練階段尚未出現，而在后續預訓練中出現時，稱其為涌現能力。

結合BAGEL模型的表現，團隊認為其揭示了一種新興模式，即高級多模態推理是在完善的基礎技能之上逐步形成的，而非某種“突變”。

另外論文中提醒，將VAE（變分自編碼器）與ViT（視覺Transformer）特征相結合，可以顯著提升智能編輯能力。

最后，更多基準測試結果也展現了BAGEL模型領先的圖像理解、生成、編輯能力。

例如在圖像理解任務中，在激活參數規模相當（7B）的情況下，BAGEL模型優于現有的統一模型Janus-Pro。

同時與專用理解模型（如Qwen2.5-VL和InternVL2.5）相比，BAGEL在大多數基準測試上表現更優。

在GenEval和WISE這兩個評估圖像生成能力的測試中，BAGEL實現了88%的整體得分，優于專用生成模型（FLUX.1-dev：82%、SD3-Medium：74%）和統一模型（Janus-Pro：80%、MetaQuery-XL：80%）。

在圖片編輯能力測試中，BAGEL的表現可與Step1X-Edit（當前領先的專用圖像編輯模型）相媲美，并且優于Gemini 2.0。

當然，也有更直觀的對比：

目前模型已在Hugging Face上架，采用相對寬松的Apache 2.0許可證。

項目主頁：
https://bagel-ai.org/
論文：
https://arxiv.org/abs/2505.14683
開源地址：
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT

責任編輯：張燕妮來源：量子位

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：亚洲精品乱码久久久久久按摩 | 午夜精品久久久久久久久久久久 | 欧美黄色免费网站 | 夜夜操天天干 | 中文字字幕一区二区三区四区五区 | 欧美aaa级 | 久久av网站 | 91精品国产一区二区在线观看 | 成人欧美一区二区三区在线观看 | 成人在线视频免费看 | 国产欧美日韩精品一区二区三区 | 色综合色综合色综合 | 亚洲一二三区在线观看 | 99国产精品99久久久久久粉嫩 | 成人av在线大片 | 久草在线中文888 | 中文字幕一区二区三区日韩精品 | 亚洲精品久久久久久久久久吃药 | 日韩欧美国产综合 | 美女久久久久久久 | 国产高清在线观看 | 久久天天躁狠狠躁夜夜躁2014 | 国产成人一区二区三区精 | 天堂成人国产精品一区 | 久久国产一区二区 | 自拍偷拍亚洲一区 | 黄色片在线网站 | 免费国产视频在线观看 | 国产视频福利一区 | 日本三级电影在线免费观看 | 亚洲精品自在在线观看 | 免费在线观看成人 | 欧美无乱码久久久免费午夜一区 | 午夜日韩| aaaa日韩| 欧美区日韩区 | 在线只有精品 | 亚洲综合天堂网 | 国产综合久久 | 日韩一二区在线观看 | 日本黄色的视频 |

<tfoot id="coiou"></tfoot>

<abbr id="coiou"></abbr>

<code id="coiou"></code>

<rt id="coiou"><tr id="coiou"></tr></rt>

<li id="coiou"></li>

<rt id="coiou"><acronym id="coiou"></acronym></rt>