騰訊提出了一個(gè)多模態(tài)定制視頻生成框架HunyuanCustom,該框架強(qiáng)調(diào)主題一致性,同時(shí)支持圖像、音頻、視頻和文本條件?;贖unyuanVideo,該模型首先通過(guò)引入基于LLaVA的文本圖像融合模塊來(lái)增強(qiáng)多模態(tài)理解,以及利用時(shí)間連接來(lái)增強(qiáng)跨幀身份特征的圖像ID增強(qiáng)模塊,從而解決了圖像文本條件生成任務(wù)。單主題視頻定制一致性故事生成與最先進(jìn)的方法的比較多主題視頻定制多主題定制音頻驅(qū)動(dòng)的視頻定制HunyuanCustom首次實(shí)現(xiàn)了音頻驅(qū)動(dòng)的...
2025-06-23 09:48:56 364瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
字節(jié)跳動(dòng)的智能創(chuàng)作團(tuán)隊(duì)提出了一個(gè)從單一主題發(fā)展到多主題定制的通用框架UNO,從少到多的泛化:通過(guò)情境生成釋放更多可控性。能夠?qū)⒉煌娜蝿?wù)統(tǒng)一在一個(gè)模型下。在單主題和多主題驅(qū)動(dòng)的生成中都能實(shí)現(xiàn)高度一致性,同時(shí)確保可控性。舉一個(gè)例子:上傳一張人物,一身衣服,一個(gè)包,UNO就可以生成這個(gè)人穿著衣服拿著包的效果圖,效果看起來(lái)很真實(shí)!相關(guān)鏈接論文:https:arxiv.orgabs2504.02160主頁(yè):https:bytedance.github.ioUNO...
2025-06-10 07:22:12 426瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
由香港科技大學(xué)、快手科技提出的UNIC(統(tǒng)一上下文視頻編輯)是一個(gè)簡(jiǎn)單而有效的框架,它以上下文的方式統(tǒng)一單個(gè)模型中的各種視頻編輯任務(wù)。從此,視頻編輯用著一個(gè)工具就夠了!ID插入ID交換刪除ID相機(jī)控制風(fēng)格化第一幀傳播緊急任務(wù)組合UNIC還表現(xiàn)出了新興任務(wù)組合能力。重新拍攝+風(fēng)格化ID+風(fēng)格化相關(guān)鏈接論文:https:arxiv.orgpdf2506.04216主頁(yè):https:zixuanye.github.ioUNIC論文介紹UNIC:框架和設(shè)計(jì)動(dòng)機(jī)基于DDIM反轉(zhuǎn)的方法...
2025-06-10 07:19:38 687瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
在虛擬形象與數(shù)字內(nèi)容需求激增的當(dāng)下,傳統(tǒng)3D數(shù)字人制作的高昂成本(動(dòng)輒數(shù)十萬(wàn)美元)與復(fù)雜流程,讓許多行業(yè)望而卻步。而今天,一款由Duix.com團(tuán)隊(duì)打造的開(kāi)源AI項(xiàng)目HeyGem,正以顛覆性技術(shù)打破這一壁壘,重新定義數(shù)字人創(chuàng)作范式。開(kāi)發(fā)者可基于其框架二次開(kāi)發(fā),拓展更多應(yīng)用場(chǎng)景(如醫(yī)療問(wèn)診、虛擬偶像等)。隨著社區(qū)貢獻(xiàn)者的加入,這一項(xiàng)目有望成為數(shù)字人領(lǐng)域的“Android系統(tǒng)”,推動(dòng)整個(gè)行業(yè)向低成本、高效率、普惠化方向發(fā)展...
2025-05-28 06:28:19 1656瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
慕尼黑工業(yè)大學(xué)和倫敦大學(xué)學(xué)院提出了一款經(jīng)過(guò)微調(diào)的DINOViT模型Pixel3DMM,用于逐像素表面法線和UV坐標(biāo)預(yù)測(cè)。從上到下,下圖展示了FFHQ輸入圖像、估計(jì)的表面法線、根據(jù)預(yù)測(cè)的UV坐標(biāo)估計(jì)的二維頂點(diǎn),以及針對(duì)上述兩個(gè)線索的FLAME擬合結(jié)果。圖片使用Pixel3DMM進(jìn)行野外追蹤。從左到右:輸入、預(yù)測(cè)法線、預(yù)測(cè)二維頂點(diǎn)、跟蹤覆蓋、FLAME跟蹤。單幅圖像重建給定一個(gè)輸入圖像(右上),下圖展示了DECA、FlowFace和Ours相對(duì)于地面真實(shí)CO...
2025-05-14 07:00:35 888瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
Phantom是一個(gè)統(tǒng)一的視頻生成框架,適用于單主題和多主題參考,基于現(xiàn)有的文本轉(zhuǎn)視頻和圖像轉(zhuǎn)視頻架構(gòu)構(gòu)建。它通過(guò)重新設(shè)計(jì)聯(lián)合文本圖像注入模型,利用文本圖像視頻三元組數(shù)據(jù)實(shí)現(xiàn)跨模態(tài)對(duì)齊。此外,它在人物生成中強(qiáng)調(diào)主題一致性,同時(shí)增強(qiáng)了身份保留視頻生成。相關(guān)鏈接論文:https:arxiv.orgabs2502.11079代碼:https:github.comPhantomvideoPhantom主頁(yè):https:phantomvideo.github.ioPhantomComfyUI:https:github.comkijaiC...
2025-04-28 00:29:10 978瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
2025年4月14日,中國(guó)AI領(lǐng)軍企業(yè)智譜AI正式推出GLM432B0414系列大模型,以32B參數(shù)量實(shí)現(xiàn)全方位能力躍升。該系列創(chuàng)新性融合對(duì)話、推理、沉思等多元智能模塊,在基準(zhǔn)測(cè)試中展現(xiàn)出與GPT4o、DeepSeekV3R1等國(guó)際頂尖模型比肩的綜合性能。尤為關(guān)鍵的是,智譜此次以MIT開(kāi)源協(xié)議向全球開(kāi)放模型權(quán)重,結(jié)合其突出的本地化部署優(yōu)勢(shì),真正實(shí)現(xiàn)了"高性能"與"普惠性"的雙重突破。作為"大模型六小虎"中IPO進(jìn)程最快的企業(yè),智譜此番動(dòng)作既彰顯了...
2025-04-17 06:52:43 1781瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
FlashFace技術(shù)是由香港大學(xué)、阿里巴巴集團(tuán)、螞蟻集團(tuán)共同研發(fā)的一項(xiàng)實(shí)用工具,用戶可以通過(guò)提供一張或幾張參考面部圖像和文本提示,就可以輕松地即時(shí)個(gè)性化自己的相片。與現(xiàn)有的人像定制方法相比,F(xiàn)lashFace方法具有更高保真度的身份保留性。能夠精確地保留參考人臉的特征,包括紋身、疤痕等。這意味著,無(wú)論是真實(shí)人物還是虛擬角色,F(xiàn)lashFace都能夠準(zhǔn)確地捕捉到他們獨(dú)特的面部特征,如罕見(jiàn)的臉型等。下面展示一些FlashFace的...
2025-04-07 00:22:03 1745瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
今天給大家介紹一個(gè)字節(jié)剛開(kāi)源的換臉寫(xiě)真新模型InfiniteYou,這是一種先進(jìn)的零樣本身份ID一致性保持模型,由字節(jié)跳動(dòng)基于文生圖領(lǐng)域最強(qiáng)開(kāi)源模型FLUX模型研發(fā)的。InfiniteYou專注于利用擴(kuò)散變換器(DiTs)技術(shù)實(shí)現(xiàn)靈活且高保真的身份保留圖像生成。它解決了現(xiàn)有方法中存在的問(wèn)題,如身份相似性不足、文本與圖像對(duì)齊不佳以及生成質(zhì)量和美學(xué)水平低下等。同時(shí),InfiniteYou具有高度的兼容性,可以與現(xiàn)有的多種方法無(wú)縫集成,如FLUX...
2025-04-07 00:18:40 2139瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
Docling團(tuán)隊(duì)聯(lián)合IBM提出了一種多模式圖像文本到文本模型SmolDocling,旨在實(shí)現(xiàn)高效的文檔轉(zhuǎn)換。它保留了Docling最受歡迎的功能,同時(shí)通過(guò)無(wú)縫支持DoclingDocuments確保與Docling完全兼容。目前已經(jīng)沖到了Huggingface熱門榜單Top3!相關(guān)鏈接主頁(yè):https:huggingface.cods4sdSmolDocling256Mpreview論文:https:arxiv.orgabs2503.11576試用:https:huggingface.cospacesds4sdSmolDocling256MDemo特點(diǎn):???用于高效標(biāo)記化的DocTags...
2025-03-25 01:06:48 1923瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
LuminaBrushLuminaBrush是一個(gè)構(gòu)建交互式工具以在圖像上繪制照明效果的項(xiàng)目。該框架采用兩階段方法:第一階段將圖像轉(zhuǎn)換為“均勻照明”的外觀,第二階段利用用戶涂鴉生成照明效果。。相關(guān)鏈接HF演示:https:huggingface.cospaceslllyasvielLuminaBrushGitHub:https:github.comlllyasvielLuminaBrush演示LuminaBrush目前基于Flux。種子為12345的示例:框架LuminaBrush是一個(gè)兩階段框架。第一階段(左側(cè))將圖像轉(zhuǎn)換為“均勻照明...
2025-03-10 00:56:47 1871瀏覽 0點(diǎn)贊 0回復(fù) 0收藏