無界 AI 創(chuàng)始人長鋏：無界在 AI 生態(tài)中的“光合作用”定位丨中國 AIGC 產(chǎn)業(yè)應(yīng)用峰會(huì)

2024-01-08 16:33:04

AIGC這樣一個(gè)大浪潮不是以個(gè)人意志為轉(zhuǎn)移的，它是一種“灰犀牛”，是一種時(shí)代的潮流。我們抵觸和拒絕其實(shí)意義不大，最好的方式就是加入其中。在具體實(shí)踐當(dāng)中，一定要從微觀行事去了解客戶具體的需求，去解決具體的問題。

1 月 5 日，由杭州未來科技城管委會(huì)、余杭區(qū)科技局和余杭區(qū)企業(yè)（人才）綜合服務(wù)中心聯(lián)合指導(dǎo)，時(shí)戳科技主辦，AI 新智界提供媒體特別支持的“智求共贏?中國 AIGC 產(chǎn)業(yè)應(yīng)用峰會(huì)暨無界 AI 生態(tài)合作伙伴大會(huì)”在杭州正式開幕。

本次大會(huì)深度聚焦 AIGC 應(yīng)用，邀請(qǐng)到了全國各地近百家合作伙伴參會(huì)，以及來自產(chǎn)研、投資機(jī)構(gòu)、高校、AIGC 創(chuàng)業(yè)者等眾多行業(yè)精英和專家，共同分享過去一年 AIGC 應(yīng)用進(jìn)展，探討未來發(fā)展趨勢(shì)。

無界AI創(chuàng)始人長鋏出席大會(huì)并做主題演講：《光合作用：無界在 AI 生態(tài)中的定位》。他講到，AIGC的過程特別像是光合作用，“光”是文本、語音、圖像等外界的信息輸入，“二氧化碳和水”是訓(xùn)練的數(shù)據(jù)集，“碳水化合物”是生成的圖片。無界AI的定位是光合作用中的“葉綠體”，為生態(tài)伙伴賦能。

長鋏表示，在過去一年，無界 AI 訓(xùn)練了大概1000萬張圖片素材，并且與國內(nèi)50多所高校、博物館建立了數(shù)據(jù)上的合作。近期，無界AI將陸續(xù)上線各大行業(yè)模型和國風(fēng)、藝術(shù)插畫、私人影像等模型，將自己的模型能力更好地輸出給生態(tài)伙伴。未來一年，無界AI 還將在技術(shù)上進(jìn)一步升級(jí)，加強(qiáng)對(duì)自然語言的支持，支持文字生成和書法生成等功能。

以下是AI新智界整理的演講內(nèi)容，為方便閱讀進(jìn)行了部分刪減：

無界 AI 的定位

AIGC的過程特別像是光合作用，“光”是文本、語音、圖像等外界的信息輸入，“二氧化碳和水”是訓(xùn)練的數(shù)據(jù)集，“碳水化合物”是生成的圖片。無界AI的定位相當(dāng)于生態(tài)中的葉綠體，從宏觀層面來說就是這個(gè)生態(tài)中的植物。生態(tài)中的動(dòng)物是那些把我們模型能力應(yīng)用得好，做出現(xiàn)象級(jí)、殺手級(jí)，或者國民級(jí)應(yīng)用的生態(tài)合作伙伴。

定位有toB和toC之分。 toB是一個(gè)效率工具，能夠節(jié)省時(shí)間；toC是一個(gè)情感陪伴，消磨時(shí)間。無界AI更偏向于toB，我非常相信將來生態(tài)伙伴能做出現(xiàn)象級(jí)的應(yīng)用。當(dāng)前，無界更希望將模型能力賦能生態(tài)合作伙伴，專注幫企業(yè)降本增效。

模型訓(xùn)練的兩大流派

模型訓(xùn)練分為兩個(gè)流派：參數(shù)派和像素派。

參數(shù)派，就是各種追求CLIP（生成圖片與提示詞的一致性）、FID（生成圖片與訓(xùn)練素材的一致性）等這些可以用算法來評(píng)價(jià)的參數(shù)，通過優(yōu)化參數(shù)實(shí)現(xiàn)霸榜。他們非常關(guān)注參數(shù)的規(guī)模，而忽視人類的審美，因?yàn)閷徝篮茈y用算法來評(píng)價(jià)。無界屬于像素派，也就是說我們更注重在像素層面的優(yōu)化。我們非常關(guān)注人類審美的反饋，也就是社區(qū)用戶的反饋。

說到像素派，我們就要提到 Midjourney，它的審美是一直在線的，它也屬于像素派。我們和Midjourney有什么不一樣呢？

模型規(guī)劃不同

最大的區(qū)別就是我們?cè)诋a(chǎn)品的模型規(guī)劃上有很大不同。Midjourney本質(zhì)上只有兩個(gè)模型，一個(gè)是對(duì)應(yīng)通用的方向的Midjourney模型；另外是對(duì)應(yīng)二次元的方向的Niji模型。我們不太一樣，我們把模型細(xì)分為汽車設(shè)計(jì)、產(chǎn)品設(shè)計(jì)、服裝設(shè)計(jì)、建筑設(shè)計(jì)等不同的垂直領(lǐng)域，同時(shí)要做到美學(xué)上比Midjourney表現(xiàn)更好。

上圖是無界AI與其他模型在生成效果上的評(píng)分示意圖，如果SDXL是平均分70分的模型，Midjourney的得分是80分。我們對(duì)美學(xué)的要求更高，在細(xì)分賽道的模型要做到80分以上，才能達(dá)到模型上線的標(biāo)準(zhǔn)。

美學(xué)風(fēng)格不同

無界 AI 與Midjourney 在理念上也不太一樣。Midjourney有非常強(qiáng)烈的美學(xué)特征，下圖中左邊的圖片很容易看出是Midjourney畫的，它有很強(qiáng)烈的MJ藝術(shù)風(fēng)格，個(gè)性化，具有辨識(shí)度。我們更強(qiáng)調(diào)的是模型藝術(shù)上的多樣性，因?yàn)楹茈y用單一的標(biāo)準(zhǔn)來評(píng)價(jià)美，所以我們盡可能還原美。

產(chǎn)品體驗(yàn)不同

如果把Midjourney比作米其林大廚，無界AI就是魔法師。米其林大廚把菜做到了90%，用戶只需要簡單的熱一下，就可以直接享用。我們更希望用戶自己成為魔法師，在不同的瓶瓶罐罐里添入不同的材料、不同的配方，調(diào)配出專屬于自己的藝術(shù)風(fēng)格。

易用性和靈活性不同

Midjourney的產(chǎn)品易用性更高，只需要簡單的提示詞就可以生成非常漂亮的圖片。無界AI產(chǎn)品的靈活度更高，支持圖片的后期處理。

我們?cè)谘邪l(fā)工藝美術(shù)模型時(shí)，和十幾個(gè)高校和博物館進(jìn)行了學(xué)術(shù)上的交流。例如，在訓(xùn)練過程中，我們生成了一幅畫琺瑯鼻煙壺的圖像，并向山東工藝美術(shù)學(xué)院韓明老師請(qǐng)教。他給出的指導(dǎo)意見是，胎底材料應(yīng)為琉璃而非陶瓷，所以應(yīng)該帶有一點(diǎn)半透明的質(zhì)感。我們迅速用工藝美術(shù)模型搭配玻璃質(zhì)感的LoRA，將權(quán)重設(shè)為0.8，很快就調(diào)出了韓明老師描述的質(zhì)感，這就是無界產(chǎn)品的靈活性體現(xiàn)。

靈活性和易用性是可以兼?zhèn)涞摹ｋm然我們的用戶一開始入手難度可能會(huì)比較高，但我們可以通過產(chǎn)品上的設(shè)計(jì)，比如工作流的機(jī)制，把所有參數(shù)設(shè)置都封裝好。我這里要提前透露一下，我們將來可能會(huì)支持Midjourney controller的一些應(yīng)用，也就是說用戶可以直接在無界上使用MJ的模型，同時(shí)可以獲得非常豐富的后期處理功能。

審美偏好不同

我們畫一張穿著漢服的女孩圖像，MJ V6的效果確實(shí)非常驚艷，但畫出來是一個(gè)穿和服的女子，說明它可能不是特別懂中國的審美。右邊是我用無界AI 的漢服模型畫的漢服女孩，得到了理想的效果。我們是一個(gè)國內(nèi)的團(tuán)隊(duì)，立足本土，所以在更懂中國的審美。

人類反饋不同

在人類反饋方面，Midjourney 就做了一個(gè)簡單的處理，每生成4張圖片，用戶挑選最好的一張，這樣也是幫它做了反饋。無界 AI 基于APP可以收集到非常多元的用戶反饋數(shù)據(jù)，有點(diǎn)贊、收藏、同款、用戶的調(diào)研等等。

版權(quán)邏輯的不同

產(chǎn)品理念的不一樣，也會(huì)導(dǎo)致版權(quán)的邏輯不一樣。根據(jù) Midjourney的版權(quán)規(guī)定，免費(fèi)的用戶不可以商業(yè)使用，但付費(fèi)用戶可以獲得商業(yè)使用授權(quán)。我們要注意到，這是一個(gè)商業(yè)使用的授權(quán)，不是版權(quán)著作權(quán)，也不是所有權(quán)。

無界AI很早之前就宣布，凡是用無界AI創(chuàng)作的圖片，版權(quán)歸創(chuàng)作者所有，這個(gè)理念是比較超前的。我們每一張作品都是上鏈存證的，而且和杭州互聯(lián)網(wǎng)法院是打通的。當(dāng)時(shí)存在較大爭議，人們認(rèn)為用提示詞創(chuàng)作并不是原創(chuàng)。但現(xiàn)在已經(jīng)有越來越多的案例顯示，用戶在創(chuàng)作圖片的過程中有非常多智力的參與，應(yīng)該尊重創(chuàng)作者的智力成果。比如前段時(shí)間互聯(lián)網(wǎng)AI圖片侵權(quán)第一案，北京互聯(lián)網(wǎng)法院就支持了這樣的觀念。

無界 AI 模型訓(xùn)練成果

在過去一年，無界 AI 訓(xùn)練了大概1000萬張圖片素材。同時(shí)，我們還和國內(nèi)50多所高校、博物館都建立了數(shù)據(jù)上的合作。

我們來看一下無界 AI 訓(xùn)練的模型：

1.漢服模型。這也是我們第一個(gè)出圈的模型，右邊這4張圖是我們的用戶結(jié)合水墨風(fēng)格創(chuàng)作的一組漢服圖片，參加了浙江省委宣傳部舉辦的“夢(mèng)溪杯”。

2.汽車設(shè)計(jì)模型。一言以蔽之，無論是100多年來汽車工業(yè)出現(xiàn)的所有汽車品牌和產(chǎn)品，還是現(xiàn)在的國產(chǎn)新勢(shì)力最新的車型，我們的汽車設(shè)計(jì)模型都能畫。即便是設(shè)計(jì)未來的概念車型，也不在話下。

3.工藝美術(shù)模型。這個(gè)模型我們是把市面上能收集到所有擁有數(shù)字博物館資源都訓(xùn)練了一遍，相當(dāng)于一個(gè)變化的國家版本館。國家版本館大家都知道，它有非常豐富的數(shù)字資源，但它的數(shù)字資源是一種靜態(tài)的展示。當(dāng)工藝美術(shù)模型訓(xùn)練過以后，它就變成了流動(dòng)的資源或者變化的資源，用戶可以非常方便地使用提示詞實(shí)現(xiàn)不同博物館館藏之間的聯(lián)名，把它們的風(fēng)格結(jié)合起來。

壁紙模型。這個(gè)模型的使用率很高，看到這些圖片我就不禁感慨，以后誰還會(huì)用那些圖庫的網(wǎng)站呢？用戶生成的每一張圖片都比它精美，而且著作權(quán)還屬于自己。所以這就隱含著一個(gè)邏輯，每個(gè)模型背后就對(duì)應(yīng)著一個(gè)一個(gè)行業(yè)的顛覆。

5. 私人影像模型。這個(gè)模型就是非常精準(zhǔn)對(duì)標(biāo)影樓這個(gè)場(chǎng)景或者行業(yè)，凡是拍寫真、證件照、婚紗照，以后都可以在家里直接進(jìn)行。影樓這個(gè)行業(yè)我認(rèn)為也會(huì)被顛覆。

同樣我們最近也上線了“個(gè)性相機(jī)”，支持用戶使用一張照片訓(xùn)練私人模型，實(shí)現(xiàn)快速換臉。最近我們和熱播大劇《神隱》合作，粉絲上傳一張自己的照片，就能穿上劇中女主的穿著。

（點(diǎn)擊鏈接解鎖神隱同款寫真 https://mp.weixin.qq.com/s/BLtFC25WNImQouWKC30-hA）

6. 產(chǎn)品美學(xué)模型。這個(gè)模型使用率同樣很高。下面這幾張圖形都是我創(chuàng)作的。左上角大家可以猜猜使用了什么樣的提示詞，其實(shí)非常簡單，我大概是使用了“陰陽、太極，減振、氣墊、發(fā)光材料，耐克鞋”這些提示詞，就可以出這樣的效果。這將是電商和產(chǎn)品設(shè)計(jì)行業(yè)的一個(gè)利器。

7. 建筑模型。不管是現(xiàn)代還是古典的建筑藝術(shù)風(fēng)格都可以出，也包括世界各地和國內(nèi)各種城市的地標(biāo)。