成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<cite id="gouwu"></cite>

<li id="gouwu"></li>

<tfoot id="gouwu"><tr id="gouwu"></tr></tfoot>

<button id="gouwu"><tbody id="gouwu"></tbody></button>

<li id="gouwu"></li>

<li id="gouwu"></li>

<button id="gouwu"></button>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致

發(fā)布于 2024-9-26 11:07

瀏覽

0收藏

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2409.08260
Github鏈接：https://github.com/Nnn-s/CATdiffusion

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

總結(jié)速覽

解決的問題:

單一U-Net在所有去噪步驟中對(duì)齊文本提示和視覺對(duì)象不足以生成期望的對(duì)象。
擴(kuò)散模型的復(fù)雜采樣空間中無法保證對(duì)對(duì)象生成的可控性。

提出的方案:

語義預(yù)修復(fù)：在多模態(tài)特征空間中推理目標(biāo)對(duì)象的語義特征。
高保真度的對(duì)象生成：在擴(kuò)散的潛在空間中基于已修復(fù)的語義特征生成目標(biāo)對(duì)象。

應(yīng)用的技術(shù):

采用級(jí)聯(lián)的Transformer語義修復(fù)器與目標(biāo)修復(fù)擴(kuò)散模型，提出了新型的Cascaded Transformer-Diffusion（CAT-Diffusion）框架。
語義修復(fù)器通過上下文和文本提示條件，預(yù)測目標(biāo)對(duì)象的語義特征。語義修復(fù)器的輸出作為視覺提示，經(jīng)過參考Adapter層來指導(dǎo)高保真對(duì)象生成。

達(dá)到的效果:

在OpenImages-V6和MSCOCO數(shù)據(jù)集上的廣泛評(píng)估表明，CAT-Diffusion在文本引導(dǎo)的目標(biāo)修復(fù)任務(wù)中優(yōu)于現(xiàn)有的最新方法。

方法

首先，在文本引導(dǎo)的物體修復(fù)中，需要在由輸入圖像的二值mask指示的指定區(qū)域內(nèi)生成由文本提示（通常是對(duì)象標(biāo)簽）描述的新對(duì)象。這個(gè)任務(wù)要求與圖像和文本提示分別具有視覺一致性和語義相關(guān)性。本節(jié)將深入探討級(jí)聯(lián)Transformer-Diffusion（CAT-Diffusion），在簡要回顧擴(kuò)散模型后，隨后介紹訓(xùn)練細(xì)節(jié)。

級(jí)聯(lián)Transformer-擴(kuò)散模型

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

依賴單獨(dú)的U-Net在所有去噪時(shí)間步中實(shí)現(xiàn)視覺-語義對(duì)齊是不夠的；
在復(fù)雜的采樣空間中穩(wěn)定生成高保真度對(duì)象是具有挑戰(zhàn)性的，而沒有額外的語義信息。

為了解決這些挑戰(zhàn)，研究者們提出將傳統(tǒng)的單階段流程分解為兩個(gè)級(jí)聯(lián)階段：首先進(jìn)行語義預(yù)修復(fù)，然后進(jìn)行對(duì)象生成，從而形成CAT-Diffusion。技術(shù)上，CAT-Diffusion通過一種新穎的語義修復(fù)器在輔助的多模態(tài)特征空間（例如CLIP）中進(jìn)行對(duì)象預(yù)修復(fù)。語義修復(fù)器通過知識(shí)蒸餾進(jìn)行訓(xùn)練，以預(yù)測目標(biāo)對(duì)象的語義特征，條件是未遮罩的視覺上下文和文本提示。這樣，得出的輸出自然對(duì)齊文本提示和視覺對(duì)象，除了U-Net之外，無論去噪時(shí)間步如何。語義修復(fù)器的輸出通過參考Adapter層進(jìn)一步集成到目標(biāo)修復(fù)擴(kuò)散模型中，以實(shí)現(xiàn)可控的目標(biāo)修復(fù)。CAT-Diffusion的整體框架如下圖2所示。

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

語義修復(fù)器
為了緩解在整個(gè)去噪過程中僅依靠單獨(dú)的U-Net對(duì)齊文本提示和視覺對(duì)象的不足，提出通過在U-Net之外，利用經(jīng)過良好預(yù)訓(xùn)練的輔助多模態(tài)特征空間對(duì)目標(biāo)對(duì)象的語義特征進(jìn)行預(yù)修復(fù)，以增強(qiáng)視覺-語義對(duì)應(yīng)關(guān)系。其原理在于，預(yù)訓(xùn)練的多模態(tài)特征空間是通過大規(guī)模的跨模態(tài)數(shù)據(jù)進(jìn)行學(xué)習(xí)的，用于實(shí)現(xiàn)視覺-語義對(duì)齊，無論去噪時(shí)間步如何。在本工作中，設(shè)計(jì)了一種有效的知識(shí)蒸餾目標(biāo)，將這種多模態(tài)知識(shí)從教師模型（CLIP）轉(zhuǎn)移到CAT-Diffusion中的語義修復(fù)器。

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

參考Adapter層

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

因此，升級(jí)版U-Net中的一個(gè)完整塊，包括SelfAttn、RefAdapter和CrossAttn，操作如下：

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

訓(xùn)練

擴(kuò)散損失

對(duì)于配備參考adapter層的目標(biāo)修復(fù)擴(kuò)散模型的訓(xùn)練，采用 [35] 中的通用實(shí)踐，目標(biāo)函數(shù)為：

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

知識(shí)蒸餾損失

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

實(shí)驗(yàn)

驗(yàn)證級(jí)聯(lián)Transformer-擴(kuò)散方法（CAT-Diffusion）在文本指導(dǎo)的目標(biāo)修復(fù)任務(wù)中的優(yōu)點(diǎn)，并與最先進(jìn)的基于擴(kuò)散的方法進(jìn)行了比較。大量實(shí)驗(yàn)驗(yàn)證了CAT-Diffusion在修復(fù)高保真度對(duì)象方面的有效性。

實(shí)施細(xì)節(jié)

在OpenImages-V6的訓(xùn)練集中的本地mask與對(duì)應(yīng)對(duì)象標(biāo)簽對(duì)上訓(xùn)練CAT-Diffusion。CAT-Diffusion通過Adam優(yōu)化，學(xué)習(xí)率為0.00001，使用8個(gè)A100 GPU進(jìn)行約40K次迭代。批量大小設(shè)置為128，輸入圖像分辨率設(shè)置為512 × 512。

比較方法和評(píng)估指標(biāo)

比較方法
將CAT-Diffusion與幾種最先進(jìn)的基于擴(kuò)散的方法進(jìn)行了比較，包括Blended Diffusion、Blended Latent Diffusion、GLIDE、SmartBrush、Stable Diffusion 和 Stable Diffusion Inpainting。具體來說，Blended Diffusion、Blended Latent Diffusion 和 Stable Diffusion 僅利用預(yù)訓(xùn)練的基礎(chǔ)文本到圖像模型，通過在每個(gè)去噪步驟中混合生成的對(duì)象和背景進(jìn)行文本指導(dǎo)的目標(biāo)修復(fù)。其他方法則使用文本提示、二值mask和被遮罩圖像作為輸入來訓(xùn)練修復(fù)擴(kuò)散模型。由于相同的評(píng)估設(shè)置，所有方法的結(jié)果均取自 [45]，但 [1] 的結(jié)果除外。請注意，已將Blended Latent Diffusion中的文本到圖像Stable Diffusion 2.1替換為1.5，以確保公平比較。

評(píng)估指標(biāo)
所有上述方法都在OpenImages-V6和 MSCOCO的測試集上進(jìn)行評(píng)估，分別涉及13,400和9,311張測試圖像。采用三種廣泛使用的指標(biāo)：Frechet Inception Distance (FID)、Local FID 和 CLIP score。值得一提的是，F(xiàn)ID 和 Local FID 分別測量修復(fù)對(duì)象在全局圖像和局部補(bǔ)丁中的真實(shí)性和視覺一致性，而 CLIP score 估計(jì)修復(fù)對(duì)象與文本提示之間的語義相關(guān)性。此外，還涉及用戶研究以評(píng)估視覺一致性和文本-對(duì)象對(duì)齊。由于GLIDE僅支持256 × 256分辨率的圖像，將所有結(jié)果調(diào)整為相似大小以確保公平比較。此外，評(píng)估中考慮了分割mask和邊界框mask。

性能比較

OpenImages-V6上的定量結(jié)果
下表1總結(jié)了所有方法在OpenImages-V6測試集上的結(jié)果?？傮w而言，所有指標(biāo)的結(jié)果一致地展示了CAT-Diffusion在分割mask或邊界框mask下的有效性。具體來說，基于混合的方法（即Blended Latent Diffusion 和 Stable Diffusion）在CLIP分?jǐn)?shù)上表現(xiàn)相當(dāng)，但FID 和 Local FID 分?jǐn)?shù)遠(yuǎn)低于CAT-Diffusion。推測這是因?yàn)檫@些方法僅關(guān)注修復(fù)圖像與對(duì)象標(biāo)簽之間的視覺-語義對(duì)齊，并僅在潛在空間中混合生成的對(duì)象和背景。因此，周圍未遮罩區(qū)域的語義上下文被忽視，導(dǎo)致視覺一致性差。SmartBrush通過將被遮罩圖像納入U(xiǎn)-Net以進(jìn)行上下文學(xué)習(xí)，并進(jìn)一步使用形狀mask指導(dǎo)擴(kuò)散模型，展現(xiàn)了更好的性能。然而，SmartBrush的FID和Local FID分?jǐn)?shù)仍低于CAT-Diffusion。結(jié)果驗(yàn)證了通過參考Adapter層用語義修復(fù)器預(yù)修復(fù)的對(duì)象特征來引導(dǎo)擴(kuò)散模型的影響。

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

MSCOCO上的定量結(jié)果
下表2列出了所有方法在MSCOCO測試集上的結(jié)果。值得注意的是，SmartBrush 和CAT-Diffusion 都沒有在MSCOCO上進(jìn)行訓(xùn)練。與OpenImages-V6上的趨勢類似，CAT-Diffusion 在大多數(shù)指標(biāo)上優(yōu)于其他方法。具體來說，CAT-Diffusion 在Local FID（使用邊界框mask）上相對(duì)于強(qiáng)基線 Stable Diffusion Inpainting 和 SmartBrush 分別提高了42.1% 和 20.7%。結(jié)果再次驗(yàn)證了在CAT-Diffusion中將單次修復(fù)流程分解為兩個(gè)級(jí)聯(lián)過程（首先進(jìn)行語義預(yù)修復(fù)，然后生成對(duì)象）的優(yōu)點(diǎn)。

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

定性比較
通過案例研究對(duì)不同方法進(jìn)行定性測試。下圖3展示了幾個(gè)示例。如前四個(gè)結(jié)果所示，CAT-Diffusion生成的圖像與輸入文本提示的語義對(duì)齊程度優(yōu)于其他方法。此外，在圖像中，生成對(duì)象與周圍環(huán)境的視覺一致性更好，修復(fù)結(jié)果中的對(duì)象形狀也更準(zhǔn)確。結(jié)果證明了通過提出的語義修復(fù)器預(yù)修復(fù)對(duì)象語義特征的優(yōu)越性。例如，與其他方法生成的圖像相比，第一排的CAT-Diffusion生成的男人在結(jié)構(gòu)上更完整。這得益于通過參考Adapter層用預(yù)修復(fù)的目標(biāo)對(duì)象語義特征引導(dǎo)擴(kuò)散模型。盡管沒有提供形狀mask，CAT-Diffusion仍能根據(jù)文本提示和邊界框mask生成高保真度的對(duì)象（中間兩排）。此外，還對(duì)具有更具描述性文本提示的目標(biāo)修復(fù)進(jìn)行了評(píng)估，不同方法生成的結(jié)果顯示在底部兩排。類似地，CAT-Diffusion生成了視覺上更令人愉悅的圖像。

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

用戶研究
研究者們進(jìn)行了一項(xiàng)用戶研究，以檢查修復(fù)圖像是否符合人類偏好。在實(shí)驗(yàn)中，從OpenImages-V6測試集中隨機(jī)抽取了1K張圖像進(jìn)行評(píng)估。SmartBrush 尚未發(fā)布，因此被排除在外。邀請了10名具有不同教育背景的評(píng)估員（5名男性和5名女性）：藝術(shù)設(shè)計(jì)（4名）、心理學(xué)（2名）、計(jì)算機(jī)科學(xué)（2名）和商業(yè)（2名）。向所有評(píng)估員展示修復(fù)圖像和相關(guān)提示，并要求他們從兩個(gè)方面給出評(píng)分（0～5）：

與周圍環(huán)境的視覺一致性；
與文本提示的對(duì)齊程度和對(duì)象形狀的準(zhǔn)確性。

下表3總結(jié)了不同方法的平均結(jié)果。結(jié)果表明，在文本-對(duì)象對(duì)齊和視覺一致性方面，CAT-Diffusion在所有基線方法中遙遙領(lǐng)先。

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

分析與討論

CAT-Diffusion的消融研究
研究了CAT-Diffusion中各個(gè)組件對(duì)整體性能的影響。考慮了每個(gè)階段的一個(gè)或多個(gè)組件，表4總結(jié)了使用分割mask的OpenImages-V6測試集上的結(jié)果。請注意，第1行的基線是使用[21]中的對(duì)象-文本對(duì)進(jìn)行微調(diào)的Stable Inpainting模型。通過結(jié)合僅使用mask圖像的CLIP特征訓(xùn)練的參考Adapter層，第2行的變體在FID和Local FID分?jǐn)?shù)上分別相較于第1行的基線模型提高了0.91和1.47。這并不令人意外，因?yàn)槲磎ask區(qū)域的CLIP特征通過參考Adapter層為基礎(chǔ)擴(kuò)散模型提供了更豐富的上下文語義，從而改善了視覺一致性并保留了背景。語義修復(fù)器的輸出進(jìn)一步提升了模型，通過引入所需對(duì)象的語義，獲得了第3行在所有指標(biāo)上的最佳結(jié)果。

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

語義修復(fù)器預(yù)測的特征
隨后分析了提出的語義修復(fù)器在提高所需對(duì)象語義特征方面的程度。值得注意的是，由于CLIP中的自注意機(jī)制，mask區(qū)域的CLIP特征本身就包含了來自未mask區(qū)域的上下文語義，從而在通過語義修復(fù)器之前與真實(shí)標(biāo)簽具有非平凡的相似性。特別地，計(jì)算了語義修復(fù)器輸入/輸出與對(duì)應(yīng)真實(shí)標(biāo)簽之間的余弦相似度，在10K張圖像上進(jìn)行分析。下圖4(a)展示了這兩個(gè)分布。平均余弦相似度從0.47提高到0.65，顯示了提出的語義修復(fù)器的有效性。盡管語義修復(fù)器的輸出并不是100%準(zhǔn)確，但這些語義特征為CAT-Diffusion生成高保真度對(duì)象貢獻(xiàn)了更豐富的上下文。

ECCV`24 | 高保真目標(biāo)修復(fù)新SOTA！復(fù)旦&智象開源CAT-Diffusion，語義視覺雙一致-AI.x社區(qū)

修復(fù)結(jié)果的多樣性
為了測試CAT-Diffusion在相同語義特征下生成修復(fù)結(jié)果的多樣性，對(duì)不同隨機(jī)種子下的結(jié)果進(jìn)行了研究。上圖4(b)展示了兩個(gè)示例?？梢杂^察到，CAT-Diffusion能夠生成具有準(zhǔn)確形狀的多樣化對(duì)象，這由參考Adapter層控制。

推理復(fù)雜度
在推理階段，只需要對(duì)提出的語義修復(fù)器進(jìn)行一次前向傳遞，并且修復(fù)的特征可以在每個(gè)去噪步驟中重復(fù)使用，從而帶來較小的計(jì)算開銷。CAT-Diffusion每張圖像的平均時(shí)間為1.84秒，相較于SD-Inpaint的1.60秒稍長。

結(jié)論

本文提出了一種新穎的級(jí)聯(lián)Transformer-擴(kuò)散（CAT-Diffusion）模型，以增強(qiáng)擴(kuò)散模型在文本引導(dǎo)目標(biāo)修復(fù)中的視覺-語義對(duì)齊和可控性。具體而言，CAT-Diffusion將傳統(tǒng)的單階段管道分解為兩個(gè)級(jí)聯(lián)過程：首先進(jìn)行語義預(yù)修復(fù)，然后進(jìn)行對(duì)象生成。通過在多模態(tài)特征空間中預(yù)修復(fù)所需對(duì)象的語義特征，然后通過這些特征引導(dǎo)擴(kuò)散模型進(jìn)行對(duì)象生成，CAT-Diffusion能夠生成與提示語義一致且與背景視覺一致的高保真度對(duì)象。

從技術(shù)上講，基于Transformer的語義修復(fù)器在給定未mask的上下文和提示的情況下預(yù)測所需對(duì)象的語義特征。然后，來自語義修復(fù)器的修復(fù)特征通過參考Adapter層進(jìn)一步輸入到目標(biāo)修復(fù)擴(kuò)散模型中，以實(shí)現(xiàn)受控生成。在OpenImages-V6和MSCOCO上的廣泛實(shí)驗(yàn)驗(yàn)證了CAT-Diffusion的有效性。

廣泛影響
最近生成模型（如擴(kuò)散模型）的進(jìn)展開啟了創(chuàng)造性媒體生成的新領(lǐng)域。然而，這些創(chuàng)新也可能被濫用于生成欺騙性內(nèi)容。本文的方法可能被利用來在圖像中修復(fù)有害內(nèi)容，用于傳播虛假信息，對(duì)此類行為堅(jiān)決反對(duì)。

本文轉(zhuǎn)自 AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/HNuV9USOtT93CNCn1MCvGA??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

AID:無需訓(xùn)練，保證一致、平滑和保真度(新加坡國立&南洋理工)

angel ? 4889瀏覽 ? 0回復(fù)
生成一個(gè)好故事！StoryDiffusion:一致自注意力和語義運(yùn)動(dòng)預(yù)測器必不可少（南開&字節(jié)）

angel ? 3710瀏覽 ? 0回復(fù)
拋棄自回歸，連接一致性Diffusion和LLM！UCSD上交新作熱度緊追AF 3

duhorse ? 2982瀏覽 ? 0回復(fù)
4倍內(nèi)存效率，生成和超分雙SOTA！清華&智譜AI發(fā)布最新Inf-DiT模型

angel ? 7571瀏覽 ? 0回復(fù)
字節(jié)打造大模型TTS：不僅能高保真合成，而且支持調(diào)整編輯

輕薄滴假象 ? 3234瀏覽 ? 0回復(fù)
自我一致性提升大模型中的思維鏈推理能力

AIRoobt ? 5951瀏覽 ? 0回復(fù)
人工智能的一致性推理悖論

xuxiangda ? 3583瀏覽 ? 0回復(fù)
復(fù)旦提出EAFormer：最新場景文本分割新SOTA！(ECCV`24)

angel ? 2851瀏覽 ? 0回復(fù)
多智能體大模型協(xié)作中的角色不一致性：一致性、虛構(gòu)性和模仿性

xuxiangda ? 3535瀏覽 ? 0回復(fù)
360發(fā)布FancyVideo:通過跨幀文本指導(dǎo)實(shí)現(xiàn)動(dòng)態(tài)且一致的視頻生成SOTA！

angel ? 2740瀏覽 ? 0回復(fù)
高保真+通用！視頻擴(kuò)散模型加持，稀疏視圖重建任意場景！清華&港科大發(fā)布ReconX

angel ? 3825瀏覽 ? 0回復(fù)
ECCV`24 | 螞蟻集團(tuán)開源風(fēng)格控制新SOTA!StyleTokenizer：零樣本精確控制圖像生成

angel ? 3187瀏覽 ? 0回復(fù)
ACM MM24 | Hi3D: 3D生成領(lǐng)域再突破！新視角生成和高分辨率生成雙SOTA(復(fù)旦&智象等)

angel ? 2885瀏覽 ? 0回復(fù)
小紅書開源StoryMaker：個(gè)性化圖像生成模型，實(shí)現(xiàn)角色一致性與背景變化的完美結(jié)合

angel ? 7334瀏覽 ? 0回復(fù)
ECCV`24 | 新加坡國立&華為提出Vista3D: 實(shí)現(xiàn)快速且多視角一致的3D生成

angel ? 2442瀏覽 ? 0回復(fù)
中科大重磅開源StableV2V：專注于「人機(jī)交互一致性」的視頻編輯方法

angel ? 2989瀏覽 ? 0回復(fù)
字節(jié)&上交&北大開源StoryTeller：生成一致性高的長視頻描述

angel ? 2866瀏覽 ? 0回復(fù)
基于CogVideoX-2B，視覺一致和語義對(duì)齊超越最新SOTA！南洋理工等發(fā)布RepVideo

angel ? 2712瀏覽 ? 0回復(fù)
金融大佬 Mike Conover 親授：構(gòu)建高保真知識(shí)智能體的實(shí)戰(zhàn)秘笈

凝固的雨_1 ? 2541瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴(kuò)散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預(yù)測未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇：小紅書開源StoryMaker：個(gè)性化圖像生成模型，實(shí)現(xiàn)角色一致性與背景變化的完美結(jié)合

下一篇： GPU和CPU如何混合訓(xùn)練？大模型訓(xùn)練的GPU聯(lián)手CPU顯存優(yōu)化分析方法

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：国产亚洲一区二区在线观看 | 亚洲精品在线免费看 | 一区二区三区国产 | a看片| 一呦二呦三呦国产精品 | 成人免费视频网站在线看 | 亚洲天堂久久 | 久久精品视频一区二区 | 久久综合入口 | 日韩一区二区在线播放 | 亚洲精品欧美 | 精品一区二区三区在线观看 | 成年精品 | 亚洲欧美一区二区三区国产精品 | 久操伊人| 在线免费观看成人 | 国产一区二区在线观看视频 | 国产高清一区二区三区 | 午夜在线观看免费 | 国产精品久久国产精品 | 久久成人一区二区三区 | 国产一区二区免费 | 精品欧美乱码久久久久久1区2区 | 一级免费毛片 | 国产精品一区二区三 | 99re视频在线免费观看 | 亚洲综合一区二区三区 | 国产精品一区二区在线 | 免费日本视频 | 中文字幕不卡 | 国产香蕉视频 | 精品国产一区二区国模嫣然 | 狠狠艹| 请别相信他免费喜剧电影在线观看 | 成人精品一区二区 | 日韩三级一区 | 一级毛片视频 | 午夜在线免费观看 | 麻豆视频国产在线观看 | 日韩精品一二三 | 亚洲不卡av在线 |

<cite id="8mawy"></cite>

<bdo id="8mawy"><source id="8mawy"></source></bdo>

<strike id="8mawy"><acronym id="8mawy"></acronym></strike>

<button id="8mawy"><input id="8mawy"></input></button>