視覺模型底座超越OpenAI,格靈深瞳開啟多模態落地的Scaling Law
大模型時代,有個大家普遍焦慮的問題:如何落地?往哪落地?
聚光燈下最耀眼的OpenAI,最近也先被曝出資金告急,后又尋求新一輪10億美元新融資。
但在中國,有這么一家公司:
它的多模態大模型不僅在多個權威數據集上的表現超過了OpenAI,更是用一個個落地案例告訴大家,大模型并不僅僅包括大語言模型,視覺大模型和多模態大模型在產業界有更大的想象空間。
這家公司就是格靈深瞳,它曾因“A股AI視覺第一股”的標簽為人熟知,如今以新姿態再次刷新外界認知:大模型落地先行者。
- 銀行安防領域,AI算法規?;瘧?,落地10000+銀行網點
- 城市管理領域,交通治理業務在10余個省市開展試點及落地應用
- 商業零售領域,智慧案場解決方案落地全國20余省市近1000個項目
- 體育教育領域,相關產品方案已在全國多個校園試點應用,為100000+名在校師生提供日常教學支持與考試服務
……
取得這樣的成績背后,離不開格靈深瞳在大模型技術層面取得的進展:
- 自研視覺大模型Unicom v2,在多業務數據集上平均優于OpenAI的CLIP、Meta的DINOv2和蘋果的DFN
- 基于Unicom的深瞳靈感-7B多模態大模型在業界同等規模的VLM模型中居領先地位,優于業界普遍使用的OpenAI CLIP和谷歌 SigLIP
其中,Unicom v2相關論文還入選AI頂會ECCV 2024。
雖然現在不加限定的使用“大模型”一詞,默認就是指“大型語言模型”,Large Language Model。
但從格靈深瞳的故事中可以看到,視覺大模型、多模態大模型在原本視覺AI的存量市場依然大有可為,而且壁壘依然深厚。
多模態給傳統視覺AI帶來什么改變?
早在2022年,格靈深瞳就開始自研視覺大模型,但當時想要推進落地,還是遇到了瓶頸:
今天已為人熟知的大模型、Transformer、Scaling Law等等,當時還未成為行業共識。彼時的主流是不斷優化卷積神經網絡,把模型做小、最好能直接在邊緣設備運行。
總而言之,當時很難說服客戶接受大模型這一前沿但成本高昂的技術。
然而ChatGPT橫空出世,徹底改變了這一切。
一方面,它以直觀的人機對話方式向公眾展示了算力與效果的正相關,人們終于意識到“大量投入算力,才能獲得理想中的效果”。
另一方面,硬件也開始主動適配Transformer算法,比如英偉達在Hopper架構GPU中首次引入專用Transformer引擎。
從某種意義上說,ChatGPT是替所有AI公司做好了教育市場的工作。
視覺AI在這一階段經歷了與語言模型類似的,從“模塊化”到“一體化”的范式轉變。
傳統的檢測、分割、分類等任務需要針對性設計復雜的特征工程和網絡結構,而視覺大模型則以統一的Transformer骨干直接學習圖像到特征再到應用輸出的端到端映射。
格靈深瞳自研視覺大模型Unicom系列就是這一轉變的成果,通過做大數據的規模、做大計算的規模來做強通用能力,讓模型以統一的方式對世界進行“理解”和“泛化”。
如果說視覺大模型是讓AI“看到了世界”,再結合語言模型則是讓AI升級為“看懂了世界”,大大拓寬了應用邊界。
以格靈深瞳多年深耕的銀行安防行業為例,如何讓AI判斷攝像頭畫面中是否有人在打架?
這涉及動作識別、對視角遮擋的推斷等等多項難點,在AI 1.0時代需要復雜的規則和閾值設計,再加上難以采集的數據樣本,工程量巨大且效果有限。
而加入語言模型后,只需把視頻幀連續輸入并描述場景,模型就能從語義層面判斷這是否屬于打斗行為。
“面對各種長尾、復雜場景,多模態的優勢就體現出來了。”格靈深瞳工程研發副總裁周瑞認為,“它讓以前難以想象的應用變成了可能。”
同樣,在工業質檢領域,以前要針對每種缺陷去采集標注數據,代價高昂且泛化性差,更何況一些稀有缺陷數據總量根本就不夠。
而通用視覺大模型具備少樣本學習、跨場景泛化的能力,再結合上語言模型的多模態生成范式,現在AI只要智能識別到缺陷,同時就能給出文字描述,供現場工作人員參考。
除了在單項任務中,多模態大模型的推理和生成能力,還可以在整個系統中承擔任務分配的“路由”作用。
例如格靈深瞳覆蓋某銀行10000+網點的解決方案,形成總-分-支三層架構:總行利用大模型訓練通用模型,分發至各地分行。各省分行結合自身業務特點,定期微調優化模型。支行則直接應用本地分行下發的模型調用服務。
在視頻結構化方面,邊緣端負責提取人、車、物等目標的實時信息并上傳。若無法判別的復雜場景,則發送至中心端請求二次識別。云端利用多模態大模型,從語義層面對場景內容做更全面的理解。
此外,基于多模態大模型強大的數據匯聚與語義理解能力,該行還打通了原本割裂的各類監控數據。目前正著手建設一套覆蓋全行的“AI中臺”,可靈活調度跨網點、跨系統的數據和算力,快速響應總分支的各種臨時需求。
這套架構能隨時利用零散的多模態數據對大模型做增量學習提升,讓整個銀行集團的AI平臺像一個不斷進化的“中央大腦”。
弱監督學習開啟視覺的Scaling Law
格靈深瞳視覺大模型的進化之路,開始于做自研的視覺基座模型Unicom。
最初的v1版本參考人臉識別的特征學習方式,把網絡直接改成了ViT結構,數據也從人臉擴展到4億通用圖像,精度就超過了當時最好的對比學習模型。
但圖像數據不像文本,天然就有高密度的語義信息,無需標注就能通過“預測下一個token”任務進行無監督學習。
如何擴大視覺大模型數據規模,無需標注也能利用好更多圖像數據呢?
格靈深瞳團隊逐漸探索出一種新穎的弱監督方式:先用一個特征聚類模型,把相似圖片自動歸類到一起,視為同一類別。然后基于聚類結果,為每張圖像分配一個“軟標簽”,作為訓練目標。
這種做法為無標簽數據注入了豐富的語義信息。
具體來說,格靈深瞳開發了多標簽聚類辨別 (MLCD)方法,在聚類步驟中為每個圖像選擇多個最近的聚類中心作為輔助類標簽,以考慮圖像中不同粒度的視覺信號。
與此配合,他們還設計了一種消除多標簽分類歧義的損失函數。
不同于常規的多標簽損失函數通過縮小類內相似度和類間相似度的相對差距來優化,本文引入了另外兩個優化目標:最小化類間相似度和最大化類內相似度,從而可以優雅地分離正類損失和負類損失,減輕決策邊界上的歧義。
團隊在更大規模的模型和數據集上進行了實驗驗證,進一步證明了所提出方法的有效性和可擴展性。
Unicom v2正是基于這一思路,將數據規模、參數規模再次擴大,精度再創新高,成功刷新多項記錄。
有了Unicom強大的通用視覺理解能力,再結合上語言模型,就組成了深瞳靈感-7B多模態大模型。
該模型不僅在傳統的單圖問答上表現優異,在多圖推理、圖文增量學習等前沿任務上也展現出了巨大潛力。
正如格靈深瞳在22年就開始探索ViT架構的視覺大模型落地,現在研究團隊也在思考什么是能超越Transformer的下一代架構。
最近,他們嘗試用RWKV(Receptance Weighted Key Value)這一基于RNN的序列建模方法替代主流的ViT架構,訓練出了視覺語言模型RWKV-CLIP。
RWKV能在線性時間內處理任意長度序列,大幅降低推理時的計算復雜度,有望釋放多模態AI能力在更多邊緣、終端設備上。
值得一提的是,格靈深瞳還將RWKV-CLIP代碼和模型權重開源到GitHub,供業界一起探討,共同進步。
視覺AI公司做多模態,是一種不同的打法
放眼當下,不乏大模型公司試水多模態應用。
但多是簡單的技術Demo、帶上傳圖片的聊天機器人、個人AI助手等輕量級形態切入,真正深入產業的尚不多見。
歸根到底,把AI算法與特定行業場景深度融合的經驗,是難以在短期內獲得的。
讓多模態大模型技術在更多地方發揮價值,還需要有視覺AI基因、掌握行業場景的公司。
拿著大模型到處找落地場景,和在已深耕多年的場景用大模型做升級改造,是兩種完全不同的打法。
縱觀歷史,互聯網作為現代社會的一種基礎設施,幾十年來積累的大量文本數據,最終成就了大語言模型公司。
接下來,視覺AI時代建設的大量攝像頭、積累的圖像視頻數據也會成就一批多模態大模型公司。
至于為什么是語言模型先一步完成蛻變,格靈深瞳認為是圖像數據中的分布更不均勻,比如很容易獲得一家上市公司的財報文檔,但很難通過開放數據來獲取一家公司大量的圖像。
到了專業細分場景,如醫療影像、工業缺陷,可獲取的訓練數據體量更是遠不及互聯網語料。
但換個角度從應用價值來看,視覺數據直接反映現實世界,與城市治理、工業生產、商業運營等領域的痛點訴求高度契合。
從圖像數據中提取出價值更難,也更值得做。
格靈深瞳正是這樣一家將技術創新與行業理解相結合的先行者。十多年來,公司始終堅持在智慧金融、城市治理等領域精耕細作,打磨出一整套面向行業的數字化解決方案。
這些方案不僅考慮了算法本身的創新,更融入了大量行業知識和實踐經驗,形成獨特的競爭壁壘。
這種積淀,讓格靈深瞳在多模態大模型應用落地中先人一步:既能洞悉行業痛點,設計好落地路徑,又能調動資源快速迭代。大到頂層的商業模式設計,小到一線的模型適配、部署,公司上下形成了一套成熟的方法論。
大模型帶來的是一個構建行業AI應用的全新技術范式。多模態感知、跨域推理、小樣本學習等能力的提升,從根本上拓展了AI的想象空間。
但歸根結底,技術只是實現愿景的工具,行業才是應用的土壤。惟有深耕行業,AI才能開花結果。