無界 AI 創(chuàng)始人長鋏:無界在 AI 生態(tài)中的“光合作用”定位丨中國 AIGC 產(chǎn)業(yè)應(yīng)用峰會(huì)
1 月 5 日,由杭州未來科技城管委會(huì)、余杭區(qū)科技局和余杭區(qū)企業(yè)(人才)綜合服務(wù)中心聯(lián)合指導(dǎo),時(shí)戳科技主辦,AI 新智界提供媒體特別支持的“智求共贏?中國 AIGC 產(chǎn)業(yè)應(yīng)用峰會(huì)暨無界 AI 生態(tài)合作伙伴大會(huì)”在杭州正式開幕。
本次大會(huì)深度聚焦 AIGC 應(yīng)用,邀請(qǐng)到了全國各地近百家合作伙伴參會(huì),以及來自產(chǎn)研、投資機(jī)構(gòu)、高校、AIGC 創(chuàng)業(yè)者等眾多行業(yè)精英和專家,共同分享過去一年 AIGC 應(yīng)用進(jìn)展,探討未來發(fā)展趨勢(shì)。
無界AI創(chuàng)始人長鋏出席大會(huì)并做主題演講:《光合作用:無界在 AI 生態(tài)中的定位》。他講到,AIGC的過程特別像是光合作用,“光”是文本、語音、圖像等外界的信息輸入,“二氧化碳和水”是訓(xùn)練的數(shù)據(jù)集,“碳水化合物”是生成的圖片。無界AI的定位是光合作用中的“葉綠體”,為生態(tài)伙伴賦能。
長鋏表示,在過去一年,無界 AI 訓(xùn)練了大概1000萬張圖片素材,并且與國內(nèi)50多所高校、博物館建立了數(shù)據(jù)上的合作。近期,無界AI將陸續(xù)上線各大行業(yè)模型和國風(fēng)、藝術(shù)插畫、私人影像等模型,將自己的模型能力更好地輸出給生態(tài)伙伴。未來一年,無界AI 還將在技術(shù)上進(jìn)一步升級(jí),加強(qiáng)對(duì)自然語言的支持,支持文字生成和書法生成等功能。
以下是AI新智界整理的演講內(nèi)容,為方便閱讀進(jìn)行了部分刪減:
無界 AI 的定位
AIGC的過程特別像是光合作用,“光”是文本、語音、圖像等外界的信息輸入,“二氧化碳和水”是訓(xùn)練的數(shù)據(jù)集,“碳水化合物”是生成的圖片。無界AI的定位相當(dāng)于生態(tài)中的葉綠體,從宏觀層面來說就是這個(gè)生態(tài)中的植物。生態(tài)中的動(dòng)物是那些把我們模型能力應(yīng)用得好,做出現(xiàn)象級(jí)、殺手級(jí),或者國民級(jí)應(yīng)用的生態(tài)合作伙伴。
定位有toB和toC之分。 toB是一個(gè)效率工具,能夠節(jié)省時(shí)間;toC是一個(gè)情感陪伴,消磨時(shí)間。無界AI更偏向于toB,我非常相信將來生態(tài)伙伴能做出現(xiàn)象級(jí)的應(yīng)用。當(dāng)前,無界更希望將模型能力賦能生態(tài)合作伙伴,專注幫企業(yè)降本增效。
模型訓(xùn)練的兩大流派
模型訓(xùn)練分為兩個(gè)流派:參數(shù)派和像素派。
參數(shù)派,就是各種追求CLIP(生成圖片與提示詞的一致性)、FID(生成圖片與訓(xùn)練素材的一致性)等這些可以用算法來評(píng)價(jià)的參數(shù),通過優(yōu)化參數(shù)實(shí)現(xiàn)霸榜。他們非常關(guān)注參數(shù)的規(guī)模,而忽視人類的審美,因?yàn)閷徝篮茈y用算法來評(píng)價(jià)。無界屬于像素派,也就是說我們更注重在像素層面的優(yōu)化。我們非常關(guān)注人類審美的反饋,也就是社區(qū)用戶的反饋。
說到像素派,我們就要提到 Midjourney,它的審美是一直在線的,它也屬于像素派。我們和Midjourney有什么不一樣呢?
模型規(guī)劃不同
最大的區(qū)別就是我們?cè)诋a(chǎn)品的模型規(guī)劃上有很大不同。Midjourney本質(zhì)上只有兩個(gè)模型,一個(gè)是對(duì)應(yīng)通用的方向的Midjourney模型;另外是對(duì)應(yīng)二次元的方向的Niji模型。我們不太一樣,我們把模型細(xì)分為汽車設(shè)計(jì)、產(chǎn)品設(shè)計(jì)、服裝設(shè)計(jì)、建筑設(shè)計(jì)等不同的垂直領(lǐng)域,同時(shí)要做到美學(xué)上比Midjourney表現(xiàn)更好。
上圖是無界AI與其他模型在生成效果上的評(píng)分示意圖,如果SDXL是平均分70分的模型,Midjourney的得分是80分。我們對(duì)美學(xué)的要求更高,在細(xì)分賽道的模型要做到80分以上,才能達(dá)到模型上線的標(biāo)準(zhǔn)。
美學(xué)風(fēng)格不同
無界 AI 與Midjourney 在理念上也不太一樣。Midjourney有非常強(qiáng)烈的美學(xué)特征,下圖中左邊的圖片很容易看出是Midjourney畫的,它有很強(qiáng)烈的MJ藝術(shù)風(fēng)格,個(gè)性化,具有辨識(shí)度。我們更強(qiáng)調(diào)的是模型藝術(shù)上的多樣性,因?yàn)楹茈y用單一的標(biāo)準(zhǔn)來評(píng)價(jià)美,所以我們盡可能還原美。
產(chǎn)品體驗(yàn)不同
如果把Midjourney比作米其林大廚,無界AI就是魔法師。米其林大廚把菜做到了90%,用戶只需要簡單的熱一下,就可以直接享用。我們更希望用戶自己成為魔法師,在不同的瓶瓶罐罐里添入不同的材料、不同的配方,調(diào)配出專屬于自己的藝術(shù)風(fēng)格。
易用性和靈活性不同
Midjourney的產(chǎn)品易用性更高,只需要簡單的提示詞就可以生成非常漂亮的圖片。無界AI產(chǎn)品的靈活度更高,支持圖片的后期處理。
我們?cè)谘邪l(fā)工藝美術(shù)模型時(shí),和十幾個(gè)高校和博物館進(jìn)行了學(xué)術(shù)上的交流。例如,在訓(xùn)練過程中,我們生成了一幅畫琺瑯鼻煙壺的圖像,并向山東工藝美術(shù)學(xué)院韓明老師請(qǐng)教。他給出的指導(dǎo)意見是,胎底材料應(yīng)為琉璃而非陶瓷,所以應(yīng)該帶有一點(diǎn)半透明的質(zhì)感。我們迅速用工藝美術(shù)模型搭配玻璃質(zhì)感的LoRA,將權(quán)重設(shè)為0.8,很快就調(diào)出了韓明老師描述的質(zhì)感,這就是無界產(chǎn)品的靈活性體現(xiàn)。
靈活性和易用性是可以兼?zhèn)涞摹km然我們的用戶一開始入手難度可能會(huì)比較高,但我們可以通過產(chǎn)品上的設(shè)計(jì),比如工作流的機(jī)制,把所有參數(shù)設(shè)置都封裝好。我這里要提前透露一下,我們將來可能會(huì)支持Midjourney controller的一些應(yīng)用,也就是說用戶可以直接在無界上使用MJ的模型,同時(shí)可以獲得非常豐富的后期處理功能。
審美偏好不同
我們畫一張穿著漢服的女孩圖像,MJ V6的效果確實(shí)非常驚艷,但畫出來是一個(gè)穿和服的女子,說明它可能不是特別懂中國的審美。右邊是我用無界AI 的漢服模型畫的漢服女孩,得到了理想的效果。我們是一個(gè)國內(nèi)的團(tuán)隊(duì),立足本土,所以在更懂中國的審美。
人類反饋不同
在人類反饋方面,Midjourney 就做了一個(gè)簡單的處理,每生成4張圖片,用戶挑選最好的一張,這樣也是幫它做了反饋。無界 AI 基于APP可以收集到非常多元的用戶反饋數(shù)據(jù),有點(diǎn)贊、收藏、同款、用戶的調(diào)研等等。
版權(quán)邏輯的不同
產(chǎn)品理念的不一樣,也會(huì)導(dǎo)致版權(quán)的邏輯不一樣。根據(jù) Midjourney的版權(quán)規(guī)定,免費(fèi)的用戶不可以商業(yè)使用,但付費(fèi)用戶可以獲得商業(yè)使用授權(quán)。我們要注意到,這是一個(gè)商業(yè)使用的授權(quán),不是版權(quán)著作權(quán),也不是所有權(quán)。
無界AI很早之前就宣布,凡是用無界AI創(chuàng)作的圖片,版權(quán)歸創(chuàng)作者所有,這個(gè)理念是比較超前的。我們每一張作品都是上鏈存證的,而且和杭州互聯(lián)網(wǎng)法院是打通的。當(dāng)時(shí)存在較大爭議,人們認(rèn)為用提示詞創(chuàng)作并不是原創(chuàng)。但現(xiàn)在已經(jīng)有越來越多的案例顯示,用戶在創(chuàng)作圖片的過程中有非常多智力的參與,應(yīng)該尊重創(chuàng)作者的智力成果。比如前段時(shí)間互聯(lián)網(wǎng)AI圖片侵權(quán)第一案,北京互聯(lián)網(wǎng)法院就支持了這樣的觀念。
無界 AI 模型訓(xùn)練成果
在過去一年,無界 AI 訓(xùn)練了大概1000萬張圖片素材。同時(shí),我們還和國內(nèi)50多所高校、博物館都建立了數(shù)據(jù)上的合作。
我們來看一下無界 AI 訓(xùn)練的模型:
1.漢服模型。這也是我們第一個(gè)出圈的模型,右邊這4張圖是我們的用戶結(jié)合水墨風(fēng)格創(chuàng)作的一組漢服圖片,參加了浙江省委宣傳部舉辦的“夢(mèng)溪杯”。
2.汽車設(shè)計(jì)模型。一言以蔽之,無論是100多年來汽車工業(yè)出現(xiàn)的所有汽車品牌和產(chǎn)品,還是現(xiàn)在的國產(chǎn)新勢(shì)力最新的車型,我們的汽車設(shè)計(jì)模型都能畫。即便是設(shè)計(jì)未來的概念車型,也不在話下。
3.工藝美術(shù)模型。這個(gè)模型我們是把市面上能收集到所有擁有數(shù)字博物館資源都訓(xùn)練了一遍,相當(dāng)于一個(gè)變化的國家版本館。國家版本館大家都知道,它有非常豐富的數(shù)字資源,但它的數(shù)字資源是一種靜態(tài)的展示。當(dāng)工藝美術(shù)模型訓(xùn)練過以后,它就變成了流動(dòng)的資源或者變化的資源,用戶可以非常方便地使用提示詞實(shí)現(xiàn)不同博物館館藏之間的聯(lián)名,把它們的風(fēng)格結(jié)合起來。
- 壁紙模型。這個(gè)模型的使用率很高,看到這些圖片我就不禁感慨,以后誰還會(huì)用那些圖庫的網(wǎng)站呢?用戶生成的每一張圖片都比它精美,而且著作權(quán)還屬于自己。所以這就隱含著一個(gè)邏輯,每個(gè)模型背后就對(duì)應(yīng)著一個(gè)一個(gè)行業(yè)的顛覆。
5. 私人影像模型。這個(gè)模型就是非常精準(zhǔn)對(duì)標(biāo)影樓這個(gè)場(chǎng)景或者行業(yè),凡是拍寫真、證件照、婚紗照,以后都可以在家里直接進(jìn)行。影樓這個(gè)行業(yè)我認(rèn)為也會(huì)被顛覆。
同樣我們最近也上線了“個(gè)性相機(jī)”,支持用戶使用一張照片訓(xùn)練私人模型,實(shí)現(xiàn)快速換臉。最近我們和熱播大劇《神隱》合作,粉絲上傳一張自己的照片,就能穿上劇中女主的穿著。
(點(diǎn)擊鏈接解鎖神隱同款寫真 https://mp.weixin.qq.com/s/BLtFC25WNImQouWKC30-hA)
6. 產(chǎn)品美學(xué)模型。這個(gè)模型使用率同樣很高。下面這幾張圖形都是我創(chuàng)作的。左上角大家可以猜猜使用了什么樣的提示詞,其實(shí)非常簡單,我大概是使用了“陰陽、太極,減振、氣墊、發(fā)光材料,耐克鞋”這些提示詞,就可以出這樣的效果。這將是電商和產(chǎn)品設(shè)計(jì)行業(yè)的一個(gè)利器。
7. 建筑模型。不管是現(xiàn)代還是古典的建筑藝術(shù)風(fēng)格都可以出,也包括世界各地和國內(nèi)各種城市的地標(biāo)。
8.室內(nèi)設(shè)計(jì)模型。也從草圖設(shè)計(jì)到建模方案呈現(xiàn),短期內(nèi)就能提供室內(nèi)設(shè)計(jì)方案。
無界 AI 模型訓(xùn)練的未來趨勢(shì)
對(duì)于模型訓(xùn)練的未來趨勢(shì),我認(rèn)為有以下四點(diǎn),也是無界接下來要完善的:
1.對(duì)自然語言的支持會(huì)越來越好。因?yàn)榇笳Z言模型現(xiàn)在和文生圖模型之間還存在一些距離,文生圖模型大部分都是基于標(biāo)簽式的提示詞體系。未來,我們將升級(jí)文本編碼器,加強(qiáng)對(duì)自然語言的支持,無縫對(duì)接大語言模型。
2.支持文字生成和書法生成。一些英文字母和一些數(shù)字已經(jīng)可以畫了。但支持中國書法或者漢字的模型,目前比較少,這個(gè)將來也會(huì)實(shí)現(xiàn)。
3.視頻生成模型也會(huì)逐漸的成熟。
4.生成模型會(huì)越來越像搜索。這是一個(gè)什么概念呢?意味著將來隨機(jī)瀏覽一個(gè)互聯(lián)網(wǎng)的網(wǎng)頁,你看到一張非常的精美圖片,只要復(fù)制圖片下面一段描述性的文字放在無界模型中,就能畫出和同樣的藝術(shù)風(fēng)格和主題的圖片。
無界 AI 生態(tài)伙伴合作方式
無界目前和生態(tài)伙伴合作的一些模式:
1.API接入,支持合作伙伴直接調(diào)用無界AI已經(jīng)訓(xùn)練好的模型。
2.模型訓(xùn)練,支持合作伙伴對(duì)現(xiàn)有模型繼續(xù)優(yōu)化,微調(diào)出專屬于自己私有的模型。
3.產(chǎn)品與模型深度定制,無界AI全流程深度參與客戶產(chǎn)品與模型的定制,24 小時(shí)全天候技術(shù)支持。
最后,談一點(diǎn)對(duì)AIGC的感想。對(duì)于AIGC,我認(rèn)為可以用這樣一句話來概括,就是“以宏觀敘事,從微觀行事”。
宏觀敘事,AIGC這樣一個(gè)大浪潮不是以個(gè)人意志為轉(zhuǎn)移的,它是一種“灰犀牛”,是一種時(shí)代的潮流。我們抵觸和拒絕其實(shí)意義不大,最好的方式就是加入其中。在具體實(shí)踐當(dāng)中,一定要從微觀行事去了解客戶具體的需求,去解決具體的問題。