成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于參考物體的AIGC圖像生成技術在家居導購領域的應用

發布于 2024-3-28 14:15
瀏覽
0收藏

本文深入探討了基于參考物體的人工智能圖像生成(AIGC)技術的最新進展。首先概述了該類技術如何發展至今,然后著重分析了兩篇重要的相關學術論文。隨后,文章針對家居導購領域的特殊應用場景,討論了運用此項技術時遭遇的挑戰和取得的最新效果。?

一、引言

隨著AIGC技術的快速發展,其中以Stable Diffusion模型為代表的的文生圖技術已經在內容生成領域產生了應用價值,用戶只需要提供一段文本輸入,就能通過AI模型快速生成大量美觀的圖片,實現了低成本高效率的內容生成。由于文本提供的信息有限,生成的圖像內容難以完全對齊用戶的意圖,生成的圖片有時完全不是用戶心中想要的內容。為了讓用戶用起來更加得心應手,最近一年涌現出來了大量關于控制技術的研究。比如Controlnet技術,通過將額外的多樣化控制條件(如線稿圖、深度圖以及分割圖等額外信息)應用于文生圖擴散模型,可以生成對應結構和布局的圖片,用戶可以由此更加便捷的對生成圖像進行編輯。

參考物體作為圖像生成過程時的另一個控制維度,同樣受到了廣泛關注。基于參考物體的圖像生成技術允許用戶將參考圖像中的物體融入到生成的圖像中,同時保留參考物體的身份特征,實現對生成圖像中物體的定制化控制。這種技術毫無疑問有廣闊的商業價值和應用潛力,比如一個最直接的應用場景就是虛擬試穿。用戶只需要提供若干張包含目標服飾的圖片,以及自己身材的圖片,就可以通過AI模型快速得到目標服飾穿在自己身上的效果,引起用戶的購物興趣。


基于參考物體的AIGC圖像生成技術在家居導購領域的應用-AI.x社區

我們團隊一直深耕家裝家居導購場景,這種技術同樣能夠應用于該領域。例如,用戶可以通過選擇家具或家居裝飾品的參考圖像,并將其特征融入到生成的家居場景圖像中。這樣,用戶可以在生成的圖像中預覽所選家具放置在自己家的家居環境中的效果,從而更好地進行家具導購和決策。這種技術的應用實踐為用戶提供了一種直觀、沉浸式的體驗,幫助他們更好地理解和評估家居產品的外觀和布局,從而進行購物決策。

二、相關研究

過去,文生圖模型引發了一股人工智能熱潮,通過給定文本,使合成圖像更加高質量和多樣化。這些模型將大量圖像與文本配對,利用先驗學習將詞組與圖像關聯起來,以實現生成具有不同姿勢效果的圖像。然而,這些模型仍然難以模仿指定參考對象的外觀,并且缺乏在不同背景下合成該參考對象的新穎圖片。這主要是因為這種方法的表達能力有限,只能對圖像內容進行粗略的變化。即使對圖像進行詳細的文字描述,仍然難以通過描述準確地重建圖像內容或指定對象的外觀。換句話說,雖然給定圖像可以與文本對應,但文本很難與給定圖像一一對應。應對這個問題,本段主要選取兩篇相關研究進行詳細介紹:基于迭代優化的Dreambooth[1]方法,以及基于物體編碼的Blip-diffusion[2]方法。

Dreambooth方法:在Dreambooth論文中,提出了一種名為“個性化”的新方法,以適應用戶特定的生成需求。其具體原理是擴展文生圖模型的詞典,將新的文本標識符與用戶想要生成的特定對象聯系起來。通過這項技術,能夠在不同場景中合成指定參考對象的圖像,甚至是在參考圖像中沒有出現的姿勢、視圖、照明條件下合成圖像。這包括但不限于改變對象所在的位置,以及調整對象的姿勢和表情。

基于參考物體的AIGC圖像生成技術在家居導購領域的應用-AI.x社區

該方法的大致思路是,給定一個參考對象(比如某只小狗)的 3-5 張隨意拍攝的圖像,再為這幾張輸入圖片給定一個文本 prompt 為“a [identifier] [class noun]”,其中[class noun]是參考對象的大類,例如dog,可在個性化生成時利用此大類別的先驗知識。而 [identifier] 是連接該參考對象的唯一標識符,為避免受通用詞組的先驗知識影響,擬定一個相對稀有的標識符來表示,例如[V]。那么本例的 prompt 就是 a [V] dog,其中 dog 指各種各樣的小狗,而[V] dog 就特指參考圖片中的小狗。使用圖片和prompt對預訓練文生圖模型進行訓練微調后,該參考對象與其對應的唯一標識符就被擴展到了文生圖模型的詞典中。在應用時,輸入 a [V] dog in a bucket 就能生成該指定小狗坐在桶中的圖像。

基于參考物體的AIGC圖像生成技術在家居導購領域的應用-AI.x社區

Dreambooth方法同時也存在某些缺點,比如耗時的優化過程和在只提供單個圖像時容易出現過擬合的傾向。

Blip-diffusion方法:由于Dreambooth方法對于每個參考對象,需要進行耗時長的迭代優化過程,這導致其難以應用于實踐。因此,研究人員開始探索基于物體編碼的方法。該種方法只需要訓練編碼器來明確表示對象的視覺概念。一旦訓練完成,通過對參考物體的圖像進行編碼得到的概念嵌入可以直接在推理過程中輸入到去噪過程中,實現與標準擴散模型采樣過程相當的速度。

基于參考物體的AIGC圖像生成技術在家居導購領域的應用-AI.x社區

Blip-diffusion方法主要包含兩個階段。第一個階段是訓練一個視覺-文本編碼器(Blip2 [3]),具體地說,輸入一張包含目標對象的圖片及其對應的文本prompt(A cat wearing sunglasses),通過大量這種圖像文本對訓練 Blip2 編碼器,學習與文本空間對齊的圖片特征,并同時以高保真度捕捉目標對象的視覺特征。在第二個階段,通過上一階段訓練好的Blip2 編碼器得到文本對齊的對象視覺特征后,對預訓練擴散模型進行微調,學習如何在新場景合成目標對象的圖片。

在完成兩個階段的訓練之后,Blip-diffusion可以對沒有見過的參考對象進行 zero-shot 圖像合成。此外,當與Controlnet 結合使用時,可以實現帶有各種附加結構控制的目標對象驅動生成。

三、困難挑戰與應用實踐

在家居導購場景中,用戶可以上傳自己家的場景圖片,然后選擇目標家具商品的白底圖,得到該家具放置在自己家的效果圖。這個過程包含許多的挑戰與困難,比如:

  1. 角度問題,白底圖中的家具視角和用戶家場景圖的視角存在偏差,如何合成角度和諧的商品效果圖?
  2. 尺寸問題,2D圖片不包含家具的尺寸信息,如何在3D的家中生成尺寸合適的目標家具?
  3. 數據質量問題,線上的大量家具商品往往只包含一張白底圖,且質量有高有低。以及其它許多問題給技術的實踐應用帶來了極大的挑戰。

得益于我們團隊在家裝家居領域多年來的數據和技術積累,我們結合3D和AIGC技術解決了上述部分問題,在家居導購領域初步應用了該類技術。以下展示部分場景的效果。

商品圖

用戶的家

生成效果


基于參考物體的AIGC圖像生成技術在家居導購領域的應用-AI.x社區



基于參考物體的AIGC圖像生成技術在家居導購領域的應用-AI.x社區



基于參考物體的AIGC圖像生成技術在家居導購領域的應用-AI.x社區



基于參考物體的AIGC圖像生成技術在家居導購領域的應用-AI.x社區



基于參考物體的AIGC圖像生成技術在家居導購領域的應用-AI.x社區



基于參考物體的AIGC圖像生成技術在家居導購領域的應用-AI.x社區



四、總結與討論

本文深入探討了基于參考物體的人工智能圖像生成(AIGC)技術的最新進展。首先概述了該類技術如何發展至今,然后著重分析了兩篇重要的相關學術論文。隨后,文章針對家居導購領域的特殊應用場景,討論了運用此項技術時遭遇的挑戰和取得的最新效果。

通過AIGC技術將淘寶商品與用戶意圖結合起來,基于參考物體的圖像生成技術在電商平臺中展現出創造性的潛力。此項技術不僅能夠提升用戶體驗,還能優化商品展示效果,因此在未來的電商發展中顯示出持續研究與探索的重要價值。

五、參考文獻

[1] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In CVPR, 2023.

[2] Dongxu Li, Junnan Li, and Steven CH Hoi. Blip-diffusion: Pre-trained subject representation for controllable text-to-image generation and editing. arXiv:2305.14720, 2023.

[3] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. arXiv preprint arXiv:2301.12597, 2023.

六、團隊介紹

我們是淘天集團-場景智能技術團隊,一支專注于通過AI和3D技術驅動商業創新的技術團隊, 依托大淘寶豐富的業務形態和海量的用戶、數據, 致力于為消費者提供創新的場景化導購體驗, 為商家提供高效的場景化內容創作工具, 為淘寶打造圍繞家的場景的第一消費入口。我們不斷探索并實踐新的技術, 通過持續的技術創新和突破,創新用戶導購體驗, 提升商家內容生產力, 讓用戶享受更好的消費體驗, 讓商家更高效、低成本地經營。


本文轉載自大淘寶技術,作者:七誡

原文鏈接:??https://mp.weixin.qq.com/s/4__x2Wv8J4SdNJrjmdg-Jw??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 四虎影院欧美 | 欧美极品在线观看 | 欧美视频二区 | 久久精品亚洲成在人线av网址 | 久久福利电影 | 中文精品视频 | 国产1区2区在线观看 | 91久久国产综合久久 | 日韩1区| 久久久久久国产精品 | 亚洲国产成人精品女人久久久 | 尹人av | 自拍视频网站 | 色婷婷久久久亚洲一区二区三区 | 人人人人爽 | 伊人网一区 | 少妇无套高潮一二三区 | 日本理论片好看理论片 | 羞羞视频在线观免费观看 | h视频在线免费 | 国产激情偷乱视频一区二区三区 | 天天搞天天操 | 免费视频久久 | 中日韩毛片 | 成人在线观看免费 | 91国内精品久久 | 久久中文字幕一区 | 久久精品在线免费视频 | 伊人狼人影院 | 国产欧美一区二区精品久导航 | 久久久久国产一区二区三区四区 | 国产精品揄拍一区二区久久国内亚洲精 | 一区二区三区视频 | 国产一区二区三区在线看 | 国产韩国精品一区二区三区 | 中文字幕不卡在线观看 | av大全在线| 欧美一级久久 | 91超碰caoporn97人人 | 日韩一级免费大片 | 日韩毛片中文字幕 |