成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

無界AI算法總監鄒國平:Midjourney領跑,沒有標準答案的文生圖,下半場還能怎么卷? 原創

發布于 2024-4-28 15:21
瀏覽
0收藏

撰稿 | 李美涵

采訪 | 云昭

嘉賓 | 鄒國平

出品 | 51CTO技術棧(微信號:blog51cto)

進入2024,AI應用落地的步伐悄然加速。

AI文生圖產品——連接著千行百業的設計需求,極大地壓縮了創意實現的周期——正成為快速掘金的AI領域之一。

AI生圖自2022年底開始爆發,過去一年多的時間已經讓這條賽道變得內卷起來,前有 Midjourney、DALL·E、Stable Diffusion 穩穩占據頭部市場,后有GPT4等多模態大模型隨時可能抄后路的危險,再加上諸多類似服務的圖像編輯及設計工具也在加快融合"文生圖"能力,多方都在對這塊最穩定的AIGC賽道虎視眈眈

在激烈的內卷中,文生圖玩家想要“出頭”,就必須打出自己的特色來。

作為國內最早一批的AIGC產品落地實踐者,無界AI算法總監鄒國平有著非常深刻的體會。鄒國平給出了一個令人意想不到的答案。

破局的關鍵就在于“場景”:你面向什么樣的場景?你擅長什么場景?在這個場景里,你是否能夠深耕到一個非常領先的水平?他向我們拋出了這一連串的問題。   

在通用AI模型盛行的今天,為什么文生圖領域依舊是個很“吃”場景的命題?

追問之下,謎底揭開:文生圖看似相對較低的門檻,卻建在審美、設計以及專業場景知識的高山之上。

AI文生圖比文生文更模糊、更沒有標準答案。

最近,51CTO直播欄目《AIGC實戰派》有幸邀請到了鄒國平老師,在兩個小時的交流中,他向我們分享了自己在文生圖領域的探索心得與洞察,詳細探討了在文生圖下半場如何“卷”出技術壁壘。這次交談,澄清和刷新了原來大眾對于文生圖領域的”誤解“與認知,其中他提出了幾個很有意思的觀點:


  • 國外文生圖產品Leonardo.AI、yodayo等從定位出發逐漸完成差異化,國內還缺少真正領先的產品
  • Midjourney將工程和產品部分托給Disco diffusion平臺,保證了探索模型和算法的專注度
  • Midjourney通過廣泛的用戶接觸和使用,已經形成了一套關于如何描述prompt的范式
  • Sora的技術路線將作為我們的一個重要參考,無論是在圖像生成還是視頻生成的應用
  • 提示詞與文生圖效果的對齊、生成圖像時長的壓縮和個性化生成將是文生圖產品繼續跟進的幾個方向
  • 文生圖作為新興領域,許多B端客戶無法給出需求的準確描述,交付過程是個共同探索與改進的過程
  • 為了應對千萬級流量情況,我們聯合了幾家GPU廠商,準備了上萬規模的GPU資源進行調度。

以下是整理后的對話內容。

1.Midjourney先發優勢太“難殺”,國內追平還需多維度發力    

51CTO《AIGC實戰派》: Midjourney現在是全球范圍內公認的用戶最多、效果最好的文生圖產品之一。在您看來,國內的文生圖產品距離Midjourney還有哪些差距?

鄒國平: 

差距肯定存在。Midjourney無論是用戶體量,還是整體營收完全是遙遙領先的。

相比國內的文生圖產品Midjourney的先發優勢非常大?;仡橫idjourney的發展歷程,22年的時候,他們就已經進行了兩年多的研發積累。剛開始的第一版產品效果也不理想,但他們通過邀請制去招募用戶參與到迭代中,持續改進產品。

22年下半年,Stable Diffusion的技術橫空出世,給Midjourney的產品帶來了一個爆發點。直到迭代至V4版本,已經呈現出行業標桿級的效果。

Midjourney自身有強大的專注度,完全focus在模型和算法探索領域。

至于工程和產品的部分,則更多在Disco diffusion平臺上去實現,一來節省了不少的開發成本,其次這個平臺帶有的社群屬性,讓Midjourney用戶持續裂變,通過口口相傳沉淀起龐大的用戶基礎。

51CTO《AIGC實戰派》:在Midjourney迭代到V4之前,國內大概在做什么?

鄒國平: 

更古老一點的,還沒有走到文生圖這一步。早期所謂的圖像生成,更多的是特效及其他特定場景的生成,不是具體物品的成像。

51CTO《AIGC實戰派》: Midjourney V4之后領先在哪?

鄒國平: 

V4版本的生成效果非常出色。特別是在特定領域,已經達到了實際可用的狀態。Midjourney在數據處理方面有個非常獨特之處,無論是數據質量還是數據標注都非常精細。通過廣泛的用戶接觸和使用,已經形成了一套關于如何描述prompt的范式,這些關鍵詞在構圖、風格和藝術家風格的表達中起到了關鍵作用。

51CTO《AIGC實戰派》: 我們現在做國內外文生圖領域的比較,像您剛才說的模型、提示詞,可能基本算是一個追齊的狀態?您覺得我們還差在哪里?

鄒國平: 

在模型層面,一些國內的模型在特定測試集上已經能夠與Midjourney的V5.2版本相媲美,但在廣泛的用戶場景測試中,我們的數據量還遠遠不夠,所以很難精準的去回答“追平”的問題。因為我們所能進行的測試有限,要進行用戶測試,讓用戶用手投票,這樣的用戶反饋可能僅有幾千例。而Midjourney擁有2000萬用戶。

所以在小范圍上去測,那確實可以說國內產品跟他的效果差不多。但如果要推廣到所有的場景,確實是會有差距的。

但像Midjourney這樣,能做到領先的,目前還是不太能看到。再往下走,每個環節還有很多工作需要補充。

2. Sora不只給方向,還給正在探索DIT的人吃了“定心丸”

51CTO《AIGC實戰派》: 今年2月份,sora出現之后,有沒有沖擊到現在的AI生圖領域?

鄒國平: 

會有影響的。首先像你剛才所說的,視頻的確是流量的高地。國內在做Open-Sora項目時,也是按照既能生成視頻也能生成圖片的思路去做的。兩者在技術上有相通之處。

Sora給了這個領域很大的信心。在此之前,基于DIT的嘗試已經有一些,只是效果都沒能達到實際可用的水平。Sora證明了端到端的視頻生成這條路是能走通的。   

51CTO《AIGC實戰派》: 從Sora在技術報告中公開的那部分來看,能給圖像生成領域帶來哪些啟發或者值得借鑒的地方?

鄒國平:

 說到方向的話,大家更多是采用DIT技術構建的模型,比如PixArt文生圖模型,展示了在少量參數的模型(0.6B)上也能取得良好效果的可能性。

此外,目前的文生圖還不足以實現精準控制。因此,引入額外的控制機制,就像PixArt在第二版本中所增加的功能,是完善模型的關鍵。這些控制可以平滑地集成到現有功能中,提供強大的設計和創造能力。

例如,在汽車設計中,可以將線稿圖的規范與文本描述結合,實現更精確的圖像生成控制。

51CTO《AIGC實戰派》: 拋開Sora,文生圖未來可能有哪些比較熱的演進方向?

鄒國平: 

我從文生圖領域目前面臨的一些主要問題出發來談談。

首先,提示詞的精準度和生成效果的對齊是一個需要解決的問題。盡管我們可以將提示詞寫得非常精細,但圖像的細節呈現并不總是像文本描述的那樣,典型的如手部細節的處理問題。

其次,生成圖像的時間壓縮也是一個挑戰。目前,生成一張圖像可能需要數秒的時間,如果加入更多控制,時間可能會更長。因此,工程上需要探索模型蒸餾和加速手段來提升效率。

最后,個性化生成是另一個重要的應用方向,這往往涉及到相關的參考圖像。具體到圖片生成,目前相似度的穩定性還有待提高,比如處理logo的自由變換時保持其細節不變等等。   

51CTO《AIGC實戰派》: 您覺得專有的AI生成工具,會不會被類似Sora這種很強大的通用工具吃掉?

鄒國平:

通用的文生圖能力最終可能會被大型模型所覆蓋。像GPT-4 Vision這樣的模型已經具備了視覺感知能力,能夠識別和描述圖片內容,但目前還未實現生成或創造能力。語言模型在認知方面已經達到了高水平,但視覺、理解以及創造的過程則更為復雜。

Sora對OpenAI來說,意義是找到了一個通往世界模型的道路。OpenAI的使命和站位讓他不會開發非常垂的產品,他們做的是提供一個平臺,類似于樂高積木,讓用戶根據需求自己去搭建想要的應用。

3.文生圖要“卷”出技術壁壘,先要從場景出發

51CTO《AIGC實戰派》: 都說文生圖的創業門檻低,在現在這么卷的情況之下,大家都很好奇技術圈到底是在卷哪塊東西?在什么維度還可以打出差異化,還能拼出技術實力、拼出競爭力來?

鄒國平: 

我們可以看看,現在領先的文生圖產品都是怎么做的。

不少文生圖產品已經取得了不錯的成績,其實他們的產品理念卻是各不相同:比如Leonardo.AI,它最初的著陸點在生成游戲角色的物料,后來才慢慢發展成一個全類別的文生圖平臺。還有yodayo,則一開始做二次元領域的生成起家,后來擴展到用戶與虛擬角色的聊天服務上。而由前谷歌imagen團隊大佬創立的Ideogram,則以文字生成為長板。

這些產品都是成功實現差異化的案例?,F在Leonardo.AI每月的PV將近1000萬。

回到問題本身,文生圖要“卷”出自己的技術壁壘,首先就要從場景出發。你面向什么樣的場景?你擅長什么場景?在這個場景里,你是否能夠深耕到一個非常領先的水平?——這其實也跟模型有關,需要你的模型有一定的獨到之處。

51CTO《AIGC實戰派》: 怎么把模型做出獨到之處?

鄒國平: 

首先是有個目標,了解模型面向的用戶和場景。比如,模型focus在游戲素材生成上,那么就針對這個領域深入優化,去做材質、光照等屬性的編輯。      

51CTO《AIGC實戰派》: 現在是哪種模式更多一點?是讓設計和AI的專才進行合作,還是直接尋找兩個領域的通才?無界AI團隊是怎么考慮的?

鄒國平:

我們去做模型訓練,會有一個模型主理人,他需要在這個領域有一定的知識儲備,去把輸入和輸出對齊。

AI如何讓強者更強,就是能利用強者的知識儲備,通過大模型描述性的方式,最終呈現出來。

51CTO《AIGC實戰派》:  人才也是技術壁壘的一部分?

鄒國平: 

AI時代,拼的就是三個要素,人才、數據、算力。

剛才說了文生圖要“卷”場景。其次,數據處理能力也是關鍵,行業數據和算力的儲備對于圖像生成領域的積累至關重要。

雖然文生圖模型的參數量相對較小,可能億級別就足夠,但這并不意味著算力不是門檻,對算力的需要取決于模型的訓練目標。訓練的數據量小,那一張消費級顯卡就能搞定,但像Midjourney這種規模還是需要強大算力支撐的。他們早期在亞馬遜拿到了1000萬美元的算力。

4.“幾家GPU廠商提供了非常動態的擴容能力,極短時間對接上千塊顯卡”

51CTO《AIGC實戰派》:  AI產品用戶達到百萬級甚至千萬級,這時候我們該怎么應對?無界AI在短時間內積累到百萬用戶的時候,都進行了怎樣的備案?

鄒國平:用戶的涌入會需要處理一些突發的事件。相比文字,圖像生成對GPU資源的消耗更高,我們需要及時增加GPU資源,避免用戶動輒為一張圖像的生成等待10s以上。目前主要用的GPU資源都是云端的卡。

其次,文生圖需要面臨更為復雜的情況,我們有多個模型,而每個模型的用戶量又不同。這就要求我們建立一個高效的調度系統來處理用戶提交的任務。系統應該能夠根據模型的使用情況動態調整資源分配,對于不同的模型,我們可能需要定制化的調度方案。

此外,我們還需要優化單個GPU卡的工作效率,通過加速方案和模型優化來提高單次圖像生成任務的效率。這包括提高模型的加載速度、生成和切換速度,以及優化整個系統的擴展性。

舉個例子,我們與頭部消費品品牌合作進行營銷活動時,就面臨過千萬級別的流量挑戰。為了應對這種情況,我們聯合了幾家GPU廠商,準備了上萬規模的GPU資源進行調度。我們自有的GPU云平臺可以快速地基于第三方GPU資源進行動態擴容,在很短的時間內就響應上千塊顯卡的對接。   

51CTO《AIGC實戰派》: 說到用戶體驗,文生圖用戶對于排隊這個現象的忍受度怎么樣?

鄒國平: 

如果產品提供的文生圖效果很好的話,那排隊也是能被用戶接受的。有些時候,你不是VIP用戶可能會故意讓你生成速度慢一點,就是逼你交錢的(笑)。

不過,也分應用場景,比如進行定制化的化身或是視頻風格轉換,這些任務本身就需要較長的處理時間。不過用戶自己也會有預期,所以就愿意為此等待。

5.不同于文生文,AI文生圖不存在標準答案

51CTO《AIGC實戰派》: 做一款AI原生應用的產品,最抓狂的地方是在哪里?

鄒國平:

 AIGC發展到現在,已經有一段的時間了。隨著時間的推移,AI生成技術已經從效果一般發展到可用狀態,我們一直在進行用戶教育,去同步認知。首先是怎么去生成圖像,其次就是讓用戶理解在當前技術的限制下,生成的圖像仍然存在瑕疵。

最抓狂的是,在某些場景下,用戶可能非常挑剔,尤其是B端用戶。眾所周知,AI生成確實有一定的隨機性和不可控制性,bad case總是存在的,而且時不時就會冒出來,這給產品的維護帶來挑戰。

51CTO《AIGC實戰派》:  B端用戶要做一個定制方案,需要多久才能交付完成?

鄒國平:

 交付時長按月計,但不確定性很大。

總體來講,文生圖還是一個比較新興的東西。客戶的需求在他腦海中,有些是很難用語言描述出來的,因此前期是一個相互探索的過程,需要不斷地提供初步方案、產出結果,等拿到客戶的反饋以后才知道怎么跟進。   

這也說明了,盡管文生圖看似門檻低,但在細節把握上卻非常具有挑戰性。這也是為什么我們(無界AI)的專業版工作流功能旨在賦予用戶更多的自主發揮空間,讓有探索和動手能力的用戶設計個性化的文生圖流程。

51CTO《AIGC實戰派》:  正在研究的哪些方向,可以透露一下嗎?

鄒國平:我們目前的研究重點是圍繞幾個創新方向進行的。首先最大的期待還是Sora模型的復現。Sora涉及到從視頻噪聲片段出發,生成連貫且穩定的視頻內容,這與以往的單幀生成完全不同。Sora的技術路線將作為我們的一個重要參考,無論是在圖像生成還是視頻生成的應用上。

在3D領域,我們也在進行一些嘗試,包括通過單張圖像重建3D模型。比如通過線稿生成具有真實質感紋理的3D模型。

另一個有趣的研究方向是通過文本直接生成具有透明背景的PNG圖片,這意味著用戶無需再進行摳圖。

本文轉載自??51CTO技術棧??,作者:李美涵

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2024-4-28 15:23:03修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 美女一级黄 | av资源中文在线天堂 | 九九久久久 | 欧洲亚洲精品久久久久 | 国产粉嫩尤物极品99综合精品 | 91精品久久久 | 91亚洲国产成人久久精品网站 | 男女羞羞免费网站 | 中文字幕二区 | 成人久草 | 精品日韩一区 | 黄色综合| 精品粉嫩aⅴ一区二区三区四区 | 亚洲精久久久 | 国产a区 | 91精品国产综合久久婷婷香蕉 | 国产精品久久久久久影院8一贰佰 | 理伦毛片 | 日韩在线视频一区二区三区 | www.888www看片| 一区二区三区四区不卡视频 | 久久成人激情 | 国产精品一区二区欧美黑人喷潮水 | 日韩欧美在线视频播放 | 国产一级黄色网 | 黄色毛片在线观看 | 日韩在线播放网址 | 欧美一a一片一级一片 | 九九热这里只有精品6 | 国产激情在线看 | 97视频人人澡人人爽 | 午夜免费电影院 | 97日日碰人人模人人澡分享吧 | 精品亚洲一区二区三区四区五区 | 99精品久久 | 国产福利在线视频 | 日本在线免费观看 | 色综合久久久 | 青青艹在线视频 | 国产精品不卡视频 | 99re在线视频精品 |