無界 AI 首席技術官張飛彪:未來將開放生態(tài)服務,擁抱更多的開發(fā)者丨中國 AIGC 產業(yè)應用峰會
AI 新智界訊,1 月 5 日,“智求共贏?中國 AIGC 產業(yè)應用峰會暨無界 AI 生態(tài)合作伙伴大會”在杭州未來科技城召開。大會由杭州未來科技城管委會、余杭區(qū)科技局和余杭區(qū)企業(yè)(人才)綜合服務中心聯(lián)合指導,時戳科技主辦,AI 新智界提供媒體特別支持。大會上,無界 AI 首席技術官張飛彪發(fā)表“無界 AI 企業(yè)服務:一站式 AIGC 解決方案”主題演講。
據(jù)張飛彪介紹,無界 AI 提供一站式產品、模型、算力 AIGC 解決方案,具體包括軟件、模型、開放平臺、算力、賽事及培訓 6 大項目。談及未來規(guī)劃,張飛彪稱,無界 AI 將開放生態(tài)服務,擁抱更多的開發(fā)者,支持自定義工作流、插件、模型等;同時,無界 AI 將支持企業(yè)協(xié)同管理,包括賬號、專用算力、網盤管理、數(shù)據(jù)羅盤等。
以下是 AI 新智界根據(jù)速記整理的演講內容,為方便閱讀已進行部分刪減:
今天我將為大家介紹無界 AI 的企業(yè)服務,我們的定位是“一站式的產品、模型、算力 AIGC 解決方案”。
首先從整體上了解一下無界 AI 對外提供的整體服務。
軟件服務上,對外有通用版,包含 PC 網站、H5 站點以及相關的安卓和 iOS App;專業(yè)版軟件的功能非常豐富,包含了工作流機制及相關的插件功能。除此之外,我們還支持漫畫、視頻和 3D 的生成。另外,我們也對外輸出了無界自研大語言模型集對應的智能體。
今天,我會重點介紹模型服務、API 服務和算力服務,另外我們也相關的創(chuàng)意賽事服務及培訓服務。
模型服務
首先,先看一下無界的行業(yè)模型。剛才長鋏已經詳細介紹了該模型,這里我不做贅述。我一直持有的觀點是,如何用行業(yè)模型解決專業(yè)領域的問題,是 AIGC 落地應用的關鍵。本身無界 AI 的立足之本也是我們的行業(yè)模型,我們會針對每一個細分領域訓練出對應的行業(yè)模型。
行業(yè)模型的訓練主要分成三大步驟:
首先是數(shù)據(jù)部分,大家要知道數(shù)據(jù)對于一個模型的好壞是至關重要的,它本身也是 AIGC 這一塊的基礎燃料。在該流程中,模型主理人會做好數(shù)據(jù)的收集及數(shù)據(jù)質量的評估,然后交由算法同學做尺寸處理,因為不同的尺寸會應對不同的需求場景,比如說 1:1 比較適合做頭像,16:9 比較適合做壁紙。完了之后,做出對應的數(shù)據(jù)清洗,包含水印的去除、背景的整體優(yōu)化。此外,我們還會對特定場景的數(shù)據(jù)做針對性的優(yōu)化,其中也包含局部的數(shù)據(jù)優(yōu)化。大家知道在 AI 繪畫中,手部、耳部、眼部容易出現(xiàn)問題,所以我們在這方面也做了特殊優(yōu)化,后面也會訓練出對應的 LoRA,往后會跟大家介紹。
有了數(shù)據(jù)部分之后,如何針對數(shù)據(jù)進行相關的標注也是非常關鍵的。不同于常規(guī)的模型訓練,我們除了使用圖片包含的信息,我們還會使用圖片相關的描述信息,比如標題、正文描述,還有客戶標簽。經過無界的多模態(tài)大模型,將其轉化為自然語言描述,再經過無界的自然語言模型進行數(shù)據(jù)標簽,最終輸出為體系化的結構標簽。強調一下,無界的標簽不只用于訓練階段、強化學習,而且在生成階段也會作為觸發(fā)詞,輔助我們精準控制,減少開盲盒的效果。整個數(shù)據(jù)標注的服務功能,目前我們也會對外提供,如果大家有這塊的需求,也可以關注一下。
有了數(shù)據(jù),做好了數(shù)據(jù)標準,最后就是進入對應的模型訓練階段。模型訓練的時候,很關鍵的是要使用什么樣的底模。因為現(xiàn)在的 SD 有 1.5,也有 SDXL,還有 SD 2.1,到底使用哪個相關模型?我們會根據(jù)多融的消融實驗,做好對比測試,最終確定出最優(yōu)的訓練底模。在此之上,通過相關的模型訓練算法,比如說微調模式、Dreambooth、LoRA、融合實驗等。這是我們常見的訓練模式。另外,不同的模型以及不同的數(shù)據(jù)有不同的特點,我們會根據(jù)對應的特點做好訓練參數(shù)的調整。這一塊需要再強調一下,本身無界的行業(yè)模型大概有十幾個,所以我們投入的資源非常大,目前的訓練算力也是以高階的 A800 和 H800 為主,整體使用的算力比較豐富;此外,從訓練的方式上,我們也有一套標準化的訓練模式,也能做到分布式訓練。
目前,無界對外提供的模型訓練服務主要包含這幾種:
一方面是大模型訓練,我們已經跟一些大型車企和快消品牌,還有萬事利、三維家進行了合作;我們還有對應的 LoRA 訓練,一些前沿的技術我們也都支持,比如目前流行的潛在一致模型(LCM),它能夠大幅提升訓練和推理效率。對應的,手部、眼部這一類容易出現(xiàn)崩壞的情況,我們會結合優(yōu)化 LoRA,去輔助模型推理生成,減少這類情況的出現(xiàn)。最后,重點提一下個性寫真服務,我們結合了自己的人臉融合算法,去提升圖像的相似度。這方面主要是高階版,使用多張圖片(目前是 6 張以上),可以訓練一個精美的寫真,最終可以媲美線下影樓的效果,它結合的是人臉 LoRA 以及底層私人影像模型。我們還有一個是基礎版,或者叫快捷版,可以用單張或多張圖在 3 分鐘內完成 LoRA 訓練,整體效果也很不錯,而且模板可以自定義。剛才提到的神隱活動,使用的就是這種快捷模式。
開放平臺
接下來是整體的開放平臺,也就是對應的相關的 API 服務。
首先是企業(yè)賬號的開通,包含密鑰、接口的整體調試。完了之后,可能需要做業(yè)務相關的參數(shù)配置,比如存儲、內容審核選擇等。再來是套餐選擇,包含積分和時長模式,之后商務同學會重點介紹。
在管理平臺部分,為了方便企業(yè)使用,我們也提供企業(yè)控制臺,方便客戶做好系統(tǒng)管理、對應的參數(shù)配置以的數(shù)據(jù)看板和監(jiān)控告警服務。
上面只是簡要的列舉,實際上整個 API 服務要豐富得多,大體可以分為:基礎作畫相關、模型相關,還有現(xiàn)在比較火熱的視頻。視頻服務目前還處于初級階段,大家可以根據(jù)自己的實際業(yè)務和場景來選用,包括文生視頻、圖生視頻、視頻轉視頻等。訓練上,除了前面提到的個性相機、LoRA 訓練,我們還支持訓練素材的管理以及數(shù)據(jù)標注服務。另外還有比較特色的功能,比如說咒語生成器、咒語解析器,這都是無界的特色服務。另外我們還有大語言模型,能把自然語言轉化為相關的繪畫提示詞,同時進一步推薦繪畫模型及參數(shù)配置。
前面提到的這么多功能,如果沒有穩(wěn)定可靠的服務支撐,就很難保障良好的用戶體驗。這里,我們快速看一下無界 AI 的架構圖,最上層還是相關的軟件服務及開放平臺,也就是 API 部分;業(yè)務部分,主要包含繪畫、訓練以及視頻相關的。往后還有一些插件和工作流機制。再往下則是后端服務。其中比較特色的,就是算力調度及管理平臺。
算力調度上,最關鍵的是我們自研了一套模型動態(tài)切換算法。大家知道繪畫的時間跟算力配置、模型數(shù)量有一定關系。我們在這一塊做了自動啟停服務,當隊列排隊較多的時候,我們會自動啟動新的機器來加入到創(chuàng)作的服務。當有閑置資源的時候,我們又會逐步釋放,以提升 GPU 算力的利用率。而模型動態(tài)切換上,目前使用的是大內存的緩存方案。經過緩存以后的模型,A 模型切換到 B 模型,加載和卸載,我們能大致做到 3 秒完成。如果是磁盤或者網盤的模型,比如剛才提到的個性相機訓練,一般是 30 秒內就可以完成模型切換。通過這一套機制,我們可以在充分保障用戶良好體驗的情況,也進一步提升 GPU 算力的利用率,同時把成本做到更低。
接下來是數(shù)據(jù)看板和監(jiān)控告警服務,這是非常關鍵的。比如異常告警,我們不可能永遠看監(jiān)控看板,只能配置一定的閾值,當出現(xiàn)異常的時候,它會通過告警服務收到通知,再靈活作出對應的處理。乃至到后面,可以做到自動化的運維。在數(shù)據(jù)看板上,主要包含對應的業(yè)務指標和技術指標。
算力服務
在介紹完開放平臺后,最后給大家介紹一下算力服務。我們的算力主要由無界 AI 子業(yè)務矩池云承接。矩池云成立于 2019 年,比無界 AI 還要早,也是專注于人工智能領域的 GPU 云平臺。目前,對外能夠提供分布式的 AI 計算服務,包含網盤、彈性調度算力等。另外,在技術上我們也有自研的輕量級容器技術,以及內核機的微 GPU 技術。像常見的 AI 框架,目前都是支持的。因為它本身是一個比較完整的云服務平臺,我們也能夠提供開源的大語言模型的鏡像,以及 SDXL 文生圖的鏡像。
在以往的合作中,有一類客戶有自建算力的需求,我們提供了從硬件的采購,再到整個系統(tǒng)的設計的全鏈路解決方案,幫助把本地資源上云,做到整體的混合調度,相當于把私有云和公有云整體結合起來使用。這個服務經過了五年的打磨和迭代,整體非常成熟。如果有企業(yè)比較看重數(shù)據(jù)保護,需要做一些數(shù)據(jù)隱私的考慮,比如說系統(tǒng)隔離的話,可以考慮算力的私有化部署方案。
最后就是我們的混合云彈性調度。我們能夠根據(jù)實時算力需求,去靈活調度多家云廠商的算力需求,能夠靈活應對大型活動的波峰波谷。通過一個平臺,去對接多家廠家。我們現(xiàn)在也跟市面上常見的華為云、騰訊云、火山引擎都做了對接,包括國內外的軟件系統(tǒng)以及芯片都做的兼容支持,能夠通過一個平臺去靈活調度公有云、私有云及專有云。
介紹完模型服務、開放平臺以及算力服務,其實無界還做好了一些相關服務。在未來,我們希望能開放生態(tài),擁抱更多的開發(fā)者和企業(yè),一起加入到無界的生態(tài)體系中,由各自開發(fā)者和企業(yè)來做相關定義;還有模型的訓練和托管,乃至到最后做到低代碼平臺,靈活搭建產品和管理平臺。最后還有在企業(yè)協(xié)同方面提供的服務,包含企業(yè)賬號、子賬號、虛擬賬號,以及相關企業(yè)算力的租用和網盤管理。在數(shù)據(jù)上,希望能給對應企業(yè)提供更好的數(shù)據(jù)洞察以及分析能力。
我的演講到這里,也期待新的一年里,無界 AI 能給大家提供更加優(yōu)質的企業(yè)服務。
本文鏈接:https://www.aixinzhijie.com/article/6843050,轉載請注明文章出處。