譯者 | 涂承燁
審校 | 重樓
不到十年前,能與計(jì)算機(jī)進(jìn)行有意義的對(duì)話的想法還只是科幻小說(shuō)。但今天,數(shù)以百萬(wàn)計(jì)的人與AI助手聊天,根據(jù)文本描述創(chuàng)作令人驚嘆的藝術(shù)作品,并每天使用這些AI工具/系統(tǒng)來(lái)理解圖像和執(zhí)行高級(jí)任務(wù)。這一進(jìn)步由許多專業(yè)AI模型驅(qū)動(dòng),每個(gè)模型都有其獨(dú)特的功能和應(yīng)用。本文將介紹八種正在重塑數(shù)字格局并可能塑造我們未來(lái)的專業(yè)AI模型。
1.LLMs:大型語(yǔ)言模型(Large Language Models)
還記得科幻電影里人類過(guò)去常常與計(jì)算機(jī)正常交談的情景嗎?大型語(yǔ)言模型創(chuàng)造了一種虛構(gòu)已成為現(xiàn)實(shí)的氛圍。這些模型理解并生成人類語(yǔ)言,構(gòu)成了現(xiàn)代AI助手的支柱。
LLMs的架構(gòu):
LLMs本質(zhì)上建立在變換器(Transformer)之上,變換器由堆疊的編碼器和/或解碼器塊組成。典型的實(shí)現(xiàn)包括使用以下組件:
- 多頭注意力層(Multi-Head Attention Layers):不同的注意力層允許模型同時(shí)關(guān)注輸入的各個(gè)部分,每層計(jì)算 Q、K、V 矩陣。
- 前饋神經(jīng)網(wǎng)絡(luò)(Feed-Forward Neural Networks):當(dāng)這些網(wǎng)絡(luò)接收注意力輸出時(shí),它們實(shí)現(xiàn)兩個(gè)線性變換,中間有一個(gè)非線性激活函數(shù),通常是 ReLU 或 GELU。
- 殘差連接與層歸一化(Residual Connections and Layer Normalization):通過(guò)允許梯度在深度網(wǎng)絡(luò)中流動(dòng)并通過(guò)歸一化網(wǎng)絡(luò)激活來(lái)使訓(xùn)練穩(wěn)定。
- 位置編碼(Positional Encoding):當(dāng)變換器并行處理詞元(token)時(shí),它使用正弦或?qū)W習(xí)得到的位置嵌入來(lái)注入位置信息。
- 多階段訓(xùn)練(Multi-Phase Training):在精選數(shù)據(jù)集上進(jìn)行微調(diào)之前的預(yù)訓(xùn)練,隨后進(jìn)行對(duì)齊(alignment),其中人類反饋強(qiáng)化學(xué)習(xí)(RLHF)是方法之一。
LLMs的關(guān)鍵特性:
- 自然語(yǔ)言理解與生成
- 在較長(zhǎng)詞元跨度上的上下文感知
- 從海量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)知識(shí)表示
- 零樣本學(xué)習(xí)(無(wú)需任何特定訓(xùn)練即可執(zhí)行任務(wù)的能力)
- 上下文學(xué)習(xí)(in-context learning),即通過(guò)示例適應(yīng)新格式的能力
- 遵循指令進(jìn)行復(fù)雜的多步推理
- 用于解決問(wèn)題的思維鏈(Chain-of-thought)推理能力
LLMs的示例:
- GPT-4(OpenAI):最具先進(jìn)性的語(yǔ)言模型之一,具有多模態(tài)能力,驅(qū)動(dòng)著 ChatGPT 和數(shù)千個(gè)應(yīng)用程序。
- Claude(Anthropic):以產(chǎn)生深思熟慮、細(xì)致入微的輸出和良好推理而聞名。
- Llama 2 & 3(Meta):強(qiáng)大的開(kāi)源模型,將AI帶給大眾。
- Gemini(Google):谷歌的最先進(jìn)模型,具有極強(qiáng)的推理和多模態(tài)能力。
LLMs的用例:
想象你是一個(gè)遭遇寫作瓶頸的內(nèi)容創(chuàng)作者。LLMs可以生成想法、創(chuàng)建文章大綱或?yàn)槟闫鸩輧?nèi)容供你潤(rùn)色。設(shè)想你是一個(gè)遇到編碼問(wèn)題的開(kāi)發(fā)者;這些模型可以調(diào)試你的代碼、提出解決方案,甚至用淺顯的英語(yǔ)解釋復(fù)雜的編程概念或術(shù)語(yǔ)。
2.LCMs:大型概念模型(Large Concept Models)
LLMs 專注于語(yǔ)言,而 LCMs 則側(cè)重于理解思想之間更深層次的概念關(guān)系。你可以把它們看作是掌握概念而不僅僅是單詞的模型。
LCMs的架構(gòu):
LCMs 在變換器架構(gòu)基礎(chǔ)上構(gòu)建,增加了用于概念理解的專業(yè)組件,通常包括:
- 增強(qiáng)的交叉注意力機(jī)制(Enhanced Cross-Attention Mechanisms): 將文本詞元連接到概念表示,并將單詞連接到潛在概念。
- 知識(shí)圖譜集成(Knowledge Graph Integration):直接在架構(gòu)中或通過(guò)預(yù)訓(xùn)練目標(biāo)間接集成結(jié)構(gòu)化知識(shí)。
- 分層編碼層(Hierarchical Encoding Layers):這些層級(jí)在不同抽象層次上捕獲概念,從具體實(shí)例到抽象類別。
- 多跳推理模塊(Multi-Hop Reasoning Modules):允許多步跟蹤概念關(guān)系鏈。
預(yù)訓(xùn)練通常針對(duì)概念預(yù)測(cè)、概念消歧、層次關(guān)系建模以及從抽象到具體的映射。此外,許多實(shí)現(xiàn)采用專門的注意力機(jī)制,該機(jī)制為與概念相關(guān)的詞元分配與一般上下文相關(guān)的詞元不同的權(quán)重。
LCMs的關(guān)鍵特性:
- 將抽象思想概念化,超越語(yǔ)言的表層
- 在邏輯和因果推理方面表現(xiàn)出色
- 改進(jìn)的常識(shí)推理和推斷能力
- 連接不同領(lǐng)域的相關(guān)概念
- 對(duì)層次結(jié)構(gòu)的語(yǔ)義概念化
- 概念消歧和實(shí)體鏈接
- 類比與學(xué)習(xí)遷移
- 從多樣信息源組合知識(shí)
LCMs的頂級(jí)示例:
- Gato(Deepmind):一個(gè)通用智能體,使用一個(gè)簡(jiǎn)單模型執(zhí)行數(shù)百項(xiàng)任務(wù)。
- 悟道 2.0(Wu Dao 2.0, 北京智源人工智能研究院):一個(gè)用于概念理解的超大規(guī)模多模態(tài) AI 系統(tǒng)。
- Minerva(Google):專長(zhǎng)于數(shù)學(xué)和科學(xué)推理。
- Flamingo(DeepMind):通過(guò)概念框架橋接視覺(jué)和語(yǔ)言理解。
LCMs的用例:
對(duì)于試圖將來(lái)自不同科學(xué)論文的見(jiàn)解整合起來(lái)的研究員,LCM 將揭示那些原本隱藏的概念聯(lián)系。教育工作者可以與 LCMs 合作設(shè)計(jì)教學(xué)材料,以增強(qiáng)概念學(xué)習(xí),而不是直接記憶。
3.LAMs:大型動(dòng)作模型(Large Action Models)
大型動(dòng)作模型是 AI 進(jìn)化的下一階段,這些模型不僅能理解或生成內(nèi)容,還能在數(shù)字環(huán)境中采取有意義的有向動(dòng)作。它們?cè)诶斫馀c行動(dòng)之間架起橋梁。
LAMs的架構(gòu):
LAMs 通過(guò)多組件設(shè)計(jì)將語(yǔ)言理解與動(dòng)作執(zhí)行結(jié)合起來(lái):
- 語(yǔ)言理解核心(Language Understanding Core):基于變換器的LLM 用于處理指令并生成推理步驟。
- 規(guī)劃模塊(Planning Module):分層規(guī)劃系統(tǒng),將高級(jí)目標(biāo)分解為可操作的步驟,通常使用蒙特卡洛樹搜索(Monte Carlo Tree Search)或分層強(qiáng)化學(xué)習(xí)(hierarchical reinforcement learning)等技術(shù)。
- 工具使用接口(Tool Use Interface):用于外部工具交互的 API 層,包括發(fā)現(xiàn)機(jī)制、參數(shù)綁定、執(zhí)行監(jiān)控和結(jié)果解析。
- 記憶系統(tǒng)(Memory Systems):同時(shí)使用短期工作記憶和長(zhǎng)期情景記憶來(lái)維持跨動(dòng)作的上下文。
計(jì)算流程經(jīng)歷指令生成與解釋、規(guī)劃、工具選擇、執(zhí)行、觀察和計(jì)劃調(diào)整的循環(huán)。訓(xùn)練通常結(jié)合使用監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的方法。另一個(gè)關(guān)鍵特征是存在一個(gè)“反思機(jī)制(reflection mechanism)”,模型在其中判斷其動(dòng)作的效果并相應(yīng)地調(diào)整所應(yīng)用的策略。
LAMs的關(guān)鍵特性:
- 根據(jù)以自然語(yǔ)言形式傳遞的指令采取行動(dòng)
- 多步驟規(guī)劃以實(shí)現(xiàn)需要如此的目標(biāo)
- 無(wú)需人工干預(yù)即可使用工具和進(jìn)行 API 交互
- 通過(guò)演示學(xué)習(xí)而非編程
- 從環(huán)境中接收反饋并自我適應(yīng)
- 單智能體決策,安全第一
- 狀態(tài)跟蹤和跨越順序交互
- 自我糾正和錯(cuò)誤恢復(fù)
LAMs的頂級(jí)示例:
- AutoGPT:一個(gè)用于任務(wù)執(zhí)行的實(shí)驗(yàn)性自主 GPT-4。
- 帶工具的 Claude Opus:通過(guò)函數(shù)調(diào)用實(shí)現(xiàn)復(fù)雜任務(wù)的高級(jí)自主性。
- LangChain Agents:用于創(chuàng)建面向動(dòng)作的 AI 系統(tǒng)的框架。
- BabyAGI:自主任務(wù)管理和執(zhí)行的演示。
LAMs的用例:
想象要求一個(gè) AI “研究本地承包商,匯編他們的評(píng)分,并為我們的廚房改造項(xiàng)目安排與前三名的面試”。LAMs 可以執(zhí)行這種需要理解與行動(dòng)相結(jié)合的多步驟復(fù)雜任務(wù)。
4.MoEs:專家混合模型(Mixture of Experts)
考慮一組專家而不是一個(gè)單一的通才,這就是MoE設(shè)計(jì)所暗示的。這些模型由多個(gè)專家神經(jīng)網(wǎng)絡(luò)組成,每個(gè)網(wǎng)絡(luò)都經(jīng)過(guò)訓(xùn)練以處理特定的任務(wù)或知識(shí)領(lǐng)域。
MoE的架構(gòu):
MoE 實(shí)現(xiàn)條件計(jì)算(Conditional Computation),使得不同的輸入激活不同的專門子網(wǎng)絡(luò):
- 門控網(wǎng)絡(luò)(Gating Network):將輸入發(fā)送到適當(dāng)?shù)膶<易泳W(wǎng)絡(luò),決定模型內(nèi)的哪些“記憶”應(yīng)處理每個(gè)詞元或序列。
- 專家網(wǎng)絡(luò)(Expert Networks):多路、專門的神經(jīng)子網(wǎng)絡(luò)(專家),通常是嵌入變換器塊中的前饋網(wǎng)絡(luò)。
- 稀疏激活(Sparse Activation):每個(gè)輸入只激活一小部分參數(shù)。這是通過(guò) top-k 路由(top-k routing)實(shí)現(xiàn)的,其中只允許得分最高的前k個(gè)專家處理每個(gè)詞元。
現(xiàn)代實(shí)現(xiàn)用變換器中的 MoE 層替代標(biāo)準(zhǔn)的 FFN(前饋網(wǎng)絡(luò))層,保持注意力機(jī)制為密集的。訓(xùn)練涉及負(fù)載平衡(Load Balancing)、損失和專家丟棄(Expert Dropout)等技術(shù),以避免病態(tài)路由模式。
MoE的關(guān)鍵特性:
- 高效擴(kuò)展到巨大參數(shù)數(shù)量,而無(wú)需按比例增加計(jì)算量
- 實(shí)時(shí)將輸入路由到專門網(wǎng)絡(luò)
- 由于條件計(jì)算,參數(shù)效率更高
- 在專門的領(lǐng)域-任務(wù)上表現(xiàn)更好
- 對(duì)于新穎輸入具有優(yōu)雅降級(jí)(Graceful degradation)能力
- 更擅長(zhǎng)多領(lǐng)域知識(shí)
- 訓(xùn)練時(shí)減少災(zāi)難性遺忘(Catastrophic Forgetting)
- 領(lǐng)域平衡的計(jì)算資源
MoE的頂級(jí)示例:
- Mixtral AI:一個(gè)采用稀疏專家混合架構(gòu)的開(kāi)源模型。
- Switch Transformer(Google):最早的 MoE 架構(gòu)之一。
- GLaM(Google):谷歌在 MoE 架構(gòu)上構(gòu)建的擁有1.2萬(wàn)億參數(shù)的語(yǔ)言模型。
- Gemini Ultra(Google):采用基于 MoE 的方法來(lái)提升性能。
MoE的用例:
考慮一個(gè)需要 AI 系統(tǒng)能夠處理和管理從客戶服務(wù)到技術(shù)文檔再到創(chuàng)意營(yíng)銷等一切事務(wù)的企業(yè)。MoE 模型最擅長(zhǎng)這種靈活性,因?yàn)樗鼈兪沟貌煌摹皩<摇蹦軌蚋鶕?jù)所執(zhí)行的工作被激活。
5.VLMs:視覺(jué)語(yǔ)言模型(Vision Language Models)
用最簡(jiǎn)單的話說(shuō),VLMs 是視覺(jué)與語(yǔ)言之間的橋梁。VLM 具有理解圖像并使用自然語(yǔ)言傳達(dá)相關(guān)信息的能力,本質(zhì)上賦予 AI 系統(tǒng)“看見(jiàn)”并“討論”所見(jiàn)內(nèi)容的能力。
VLMs的架構(gòu):
VLMs 通常為視覺(jué)和語(yǔ)言流實(shí)現(xiàn)雙流架構(gòu):
- 視覺(jué)編碼器(Visual Encoder):通常是視覺(jué)變換器(Vision Transformer, ViT)或卷積神經(jīng)網(wǎng)絡(luò)(CNN),將圖像分割成小塊(Patches)并進(jìn)行嵌入(Embedding)。
- 語(yǔ)言編碼器-解碼器(Language Encoder-Decoder):通常是基于變換器的語(yǔ)言模型,接收文本輸入并輸出文本。
- 跨模態(tài)融合機(jī)制(Cross-Modal Fusion Mechanism):此機(jī)制通過(guò)以下方式連接視覺(jué)和語(yǔ)言流:
A.早期融合(Early Fusion):將視覺(jué)特征投影到語(yǔ)言嵌入空間。
B.晚期融合(Late Fusion):分別處理,然后在更深層通過(guò)注意力連接。
C.交錯(cuò)融合(Interleaved Fusion):在整個(gè)網(wǎng)絡(luò)中設(shè)置多個(gè)交互點(diǎn)。
D.聯(lián)合嵌入空間(Joint Embedding Space):一個(gè)統(tǒng)一的表示空間,視覺(jué)概念和文本概念被映射到可比較的向量。
預(yù)訓(xùn)練通常采用多目標(biāo)訓(xùn)練機(jī)制,包括圖像-文本對(duì)比學(xué)習(xí)、帶視覺(jué)上下文的掩碼語(yǔ)言建模、視覺(jué)問(wèn)答和圖像描述生成。這種方法培養(yǎng)了能夠在多種模態(tài)之間進(jìn)行靈活推理的模型。
VLMs的關(guān)鍵特性:
- 解析和整合視覺(jué)與文本信息
- 圖像理解和細(xì)粒度描述能力
- 視覺(jué)問(wèn)答和推理
- 場(chǎng)景解讀,包括物體和關(guān)系識(shí)別
- 關(guān)聯(lián)視覺(jué)和文本概念的跨模態(tài)推理
- 基于視覺(jué)輸入的文本生成
- 關(guān)于圖像內(nèi)容的空間推理
- 理解視覺(jué)隱喻和文化參照
VLMs的頂級(jí)示例:
- GPT-4(OpenAI):支持視覺(jué)功能的 GPT-4 版本,可以分析和討論圖像。
- Claude 3 Sonnet/Haiku(Anthropic):具有強(qiáng)大視覺(jué)推理能力的模型。
- Gemini Pro Vision(Google):在文本和圖像方面具有先進(jìn)的多模態(tài)能力。
- DALLE-3 & Midjourney:雖然主要以圖像生成聞名,但也包含了視覺(jué)理解組件。
VLMs的用例:
想象一位皮膚科醫(yī)生上傳一張皮膚狀況的圖像,AI 立即提供帶有推理的潛在診斷。或者一位游客將手機(jī)對(duì)準(zhǔn)一個(gè)地標(biāo),即時(shí)獲取其歷史意義和建筑細(xì)節(jié)。
6.SLMs:小型語(yǔ)言模型(Small Language Models)
人們將注意力給予越來(lái)越大的模型,但我們通常忘記了小型語(yǔ)言模型(SLMs) 涵蓋了一個(gè)同樣重要的趨勢(shì):設(shè)計(jì)用于在無(wú)法訪問(wèn)云端的個(gè)人設(shè)備上高效工作的 AI 系統(tǒng)。
SLMs的架構(gòu):
SLMs 開(kāi)發(fā)了針對(duì)計(jì)算效率優(yōu)化的專門技術(shù):
- 高效注意力機(jī)制(Efficient Attention Mechanisms):替代標(biāo)準(zhǔn)自注意力的系統(tǒng)(標(biāo)準(zhǔn)自注意力復(fù)雜度為平方級(jí) O(n2)),包括:
A.線性注意力(Linear attention):通過(guò)核近似將復(fù)雜度降低到 O(n)。
B.局部注意力(Local attention):僅在局部窗口內(nèi)進(jìn)行注意力計(jì)算,而不是在整個(gè)序列上。
- 狀態(tài)空間模型(State Space Models):另一種具有線性復(fù)雜度的序列建模方法。
- 參數(shù)高效變換器(Parameter Efficient Transformers):減少參數(shù)數(shù)量的技術(shù)包括:
A.低秩分解(Low-Rank Factorization):將權(quán)重矩陣分解為較小矩陣的乘積。
B.參數(shù)共享(Parameter Sharing):跨層重用權(quán)重。
C.深度可分離卷積(Depth-wise Separable Convolutions):用更高效的層替換密集層(dense layers)。
- 量化技術(shù)(Quantization Techniques):降低權(quán)重和激活值的數(shù)值精度,通過(guò)訓(xùn)練后量化、量化感知訓(xùn)練或混合精度方法實(shí)現(xiàn)。
- 知識(shí)蒸餾(Knowledge Distillation):通過(guò)基于響應(yīng)的、基于特征的或基于關(guān)系的蒸餾模型,轉(zhuǎn)移封裝在大型模型中的知識(shí)。
所有這些創(chuàng)新使得一個(gè) 1-100 億參數(shù)的模型能夠在消費(fèi)級(jí)設(shè)備上運(yùn)行,其性能接近更大的云端托管模型。
SLMs的關(guān)鍵特性:
- 執(zhí)行完全在應(yīng)用程序內(nèi)進(jìn)行,無(wú)需云端依賴或連接
- 增強(qiáng)數(shù)據(jù)隱私,因?yàn)閿?shù)據(jù)永遠(yuǎn)不會(huì)從設(shè)備卸載
- 由于沒(méi)有網(wǎng)絡(luò)往返,能夠提供非常快速的響應(yīng)
- 節(jié)能且對(duì)電池友好
- 完全離線操作,無(wú)需檢查遠(yuǎn)程服務(wù)器,對(duì)于高度安全或遠(yuǎn)程環(huán)境特別有用
- 更便宜,無(wú) API 使用費(fèi)
- 可針對(duì)特定設(shè)備或應(yīng)用進(jìn)行升級(jí)
- 針對(duì)特定領(lǐng)域或任務(wù)進(jìn)行針對(duì)性優(yōu)化
SLMs的頂級(jí)示例:
- Phi-3 Mini(Microsoft):一個(gè) 38 億參數(shù)的模型,在其規(guī)模上表現(xiàn)非常出色。
- Gemma(Google):一個(gè)旨在進(jìn)行設(shè)備端部署的輕量級(jí)開(kāi)源模型系列。
- Llama 3 8B(Meta):Meta 的 Llama 家族中更小的變體,旨在高效部署。
- MobileBERT(Google):專為移動(dòng)設(shè)備定制,同時(shí)仍保持類似 BERT 的性能。
SLMs的用例:
SLMs 可以真正幫助那些幾乎沒(méi)有任何連接但需要可靠 AI 支持的人。注重隱私的客戶可以選擇將不必要的私人數(shù)據(jù)保留在本地。打算在資源可能受限的環(huán)境中為應(yīng)用程序提供強(qiáng)大 AI 功能的開(kāi)發(fā)者可以隨時(shí)利用它。
7、MLMs:掩碼語(yǔ)言模型(Masked Language Models)
掩碼語(yǔ)言模型采用一種不同尋常的語(yǔ)言理解方式:它們通過(guò)完成填空練習(xí)來(lái)學(xué)習(xí),在訓(xùn)練過(guò)程中隨機(jī)“掩碼”掉一些詞,使得模型必須從周圍的上下文中找出那個(gè)缺失的詞元。
MLMs的架構(gòu):
MLM 通過(guò)雙向架構(gòu)以實(shí)現(xiàn)整體上下文理解:
- 僅編碼器變換器(Encoder-only Transformer):與嚴(yán)格從左到右處理文本的基于解碼器(decoder-based)的模型不同,MLMs 通過(guò)編碼器塊(encoder blocks)雙向關(guān)注整個(gè)上下文。
- 掩碼自注意力機(jī)制(Masked Self-Attention Mechanism):每個(gè)詞元都可以通過(guò)縮放點(diǎn)積注意力(scaled dot-product attention)關(guān)注序列中的所有其他詞元,無(wú)需應(yīng)用任何因果掩碼(causal mask)。
- 詞元嵌入、位置嵌入和段落嵌入(Token, Position, and Segment Embeddings):這些嵌入組合形成包含內(nèi)容和結(jié)構(gòu)信息的輸入表示。
預(yù)訓(xùn)練目標(biāo)通常包括:
- 掩碼語(yǔ)言建模(Masked Language Modelling):隨機(jī)詞元被替換為[MASK]詞元,然后模型根據(jù)雙向上下文預(yù)測(cè)原始詞元。
- 下一句預(yù)測(cè)(Next Sentence Prediction):判斷兩個(gè)段落是否在原始文本中相互跟隨,不過(guò)像 RoBERTa 這樣的更新變體移除了此目標(biāo)。
這種架構(gòu)產(chǎn)生的是詞元的上下文相關(guān)表示,而不是下一個(gè)詞元預(yù)測(cè)。基于此,MLMs 更傾向于用于理解任務(wù)而非生成任務(wù)。
MLMs的關(guān)鍵特性:
- 雙向建模利用更廣泛的上下文增強(qiáng)理解
- 更擅長(zhǎng)語(yǔ)義分析和分類
- 強(qiáng)大的實(shí)體識(shí)別和關(guān)系抽取能力
- 使用更少樣本進(jìn)行表示學(xué)習(xí)
- 在結(jié)構(gòu)化抽取任務(wù)上達(dá)到最先進(jìn)水平
- 向下游任務(wù)的可遷移性強(qiáng)
- 處理一詞多義的上下文詞表示
- 易于針對(duì)專業(yè)領(lǐng)域進(jìn)行微調(diào)
MLMs的頂級(jí)示例:
- BERT(Google):第一個(gè)帶來(lái) NLP 范式轉(zhuǎn)變的雙向編碼器模型
- RoBERTa(Meta):采用更好訓(xùn)練方法進(jìn)行魯棒優(yōu)化的 BERT
- DeBERTa(Microsoft):具有解耦注意力的增強(qiáng)版 BERT
- ALBERT(Google):采用參數(shù)高效技術(shù)的輕量級(jí) BERT 平臺(tái)
MLMs的用例:
想象一位律師必須從數(shù)千份合同中提取某些條款。MLMs 非常擅長(zhǎng)此類有針對(duì)性的信息提取,有足夠的上下文來(lái)識(shí)別相關(guān)部分,即使它們的描述方式截然不同。
8.SAMs:分割任意模型(Segment Anything Models)
分割任意模型(SAM) 是計(jì)算機(jī)視覺(jué)領(lǐng)域的一項(xiàng)專業(yè)技術(shù),用于以近乎完美的精度從圖像中識(shí)別和分離對(duì)象。
SAM的架構(gòu):
SAM 的架構(gòu)是多組件的,用于圖像分割:
- 圖像編碼器(Image encoder): 這是一個(gè)視覺(jué)變換器(Vision Transformer, ViT)主干網(wǎng)絡(luò),對(duì)輸入圖像進(jìn)行編碼以產(chǎn)生密集的特征表示。SAM 使用 VIT-H 變體,包含 32 個(gè)變換器塊,每塊有 16 個(gè)注意力頭。
- 提示編碼器(Prompt Encoder): 處理各種類型的用戶輸入,例如:
A.點(diǎn)提示(Point Prompts): 帶有背景指示符的空間坐標(biāo)。
B.框提示(Box Prompts): 兩點(diǎn)坐標(biāo)。
C.文本提示(Text Prompts): 通過(guò)文本編碼器處理。
D.掩碼提示(Mask Prompts): 編碼為密集的空間特征。
- 掩碼解碼器(Mask Decoder): 一個(gè)結(jié)合圖像和提示嵌入以產(chǎn)生掩碼預(yù)測(cè)的變換器解碼器,由交叉注意力層(cross-attention layers)、自注意力層(self-attention layers)和一個(gè) MLP 投影頭組成。
訓(xùn)練包括三個(gè)階段:在1100萬(wàn)個(gè)掩碼上的監(jiān)督訓(xùn)練、模型蒸餾和針對(duì)特定提示的微調(diào)。這種訓(xùn)練可以實(shí)現(xiàn)對(duì)未見(jiàn)過(guò)的對(duì)象類別和領(lǐng)域的零樣本遷移,從而在其他分割任務(wù)中實(shí)現(xiàn)廣泛用途。
SAM的關(guān)鍵特性:
- 零樣本遷移到訓(xùn)練中從未見(jiàn)過(guò)的新對(duì)象和類別
- 靈活的提示類型,包括點(diǎn)、框和文本描述
- 在超高分辨率下實(shí)現(xiàn)像素級(jí)完美分割
- 對(duì)各類圖像具有領(lǐng)域無(wú)關(guān)的行為
- 多對(duì)象分割,了解對(duì)象之間的關(guān)系
- 通過(guò)提供多個(gè)正確分割來(lái)處理歧義
- 可作為組件集成到更大的下游視覺(jué)系統(tǒng)中
SAM的頂級(jí)示例:
- Segment Anything(Meta): Meta Research 的原始模型。
- MobileSAM: 為移動(dòng)設(shè)備優(yōu)化的輕量級(jí)變體。
- HQ-SAM: 具有更好邊緣檢測(cè)的更高質(zhì)量變體。
- SAM-Med2D: 用于醫(yī)療成像的醫(yī)學(xué)適配版本。
SAM的用例:
照片編輯者可以使用 SAM 以手動(dòng)需要數(shù)分鐘或數(shù)小時(shí)才能達(dá)到的精度即時(shí)將主體與背景分離。另一方面,醫(yī)生可以使用 SAM 的變體在診斷影像中勾畫解剖結(jié)構(gòu)。
你應(yīng)該選擇哪種模型?
模型的選擇完全取決于你的需求:
模型類型 | 最佳用例 | 計(jì)算要求 | 部署選項(xiàng) | 關(guān)鍵優(yōu)勢(shì) | 限制條件 |
LLM | 文本生成、客戶服務(wù)、內(nèi)容創(chuàng)作 | 非常高 | 云端、企業(yè)服務(wù)器 | 多功能語(yǔ)言能力、通用知識(shí) | 資源密集、可能產(chǎn)生幻覺(jué) |
LCM | 研究、教育、知識(shí)組織 | 高 | 云端、專用硬件 | 概念理解、知識(shí)連接 | 仍是新興技術(shù)、實(shí)現(xiàn)有限 |
LAM | 自動(dòng)化、工作流執(zhí)行、自主智能體 | 高 | 云端(帶API訪問(wèn)) | 動(dòng)作執(zhí)行、工具使用、自動(dòng)化 | 設(shè)置復(fù)雜、可能不可預(yù)測(cè) |
MoE | 多領(lǐng)域應(yīng)用、專業(yè)知識(shí) | 中-高 | 云端、分布式系統(tǒng) | 規(guī)模化效率高、特定領(lǐng)域知識(shí) | 訓(xùn)練復(fù)雜、路由開(kāi)銷 |
VLM | 圖像分析、可訪問(wèn)性、視覺(jué)搜索 | 高 | 云端、高端設(shè)備 | 多模態(tài)理解、視覺(jué)上下文 | 實(shí)時(shí)使用需要大量計(jì)算 |
SLM | 移動(dòng)應(yīng)用、注重隱私的用途、離線使用 | 低 | 邊緣設(shè)備、移動(dòng)端、瀏覽器 | 隱私、離線能力、可訪問(wèn)性 | 與更大模型相比能力有限 |
MLM | 信息提取、分類、情感分析 | 中 | 云端、企業(yè)部署 | 上下文理解、針對(duì)性分析 | 不太適合開(kāi)放式生成 |
SAM | 圖像編輯、醫(yī)學(xué)成像、物體檢測(cè) | 中-高 | 云端、GPU工作站 | 精確的視覺(jué)分割、交互式使用 | 專精于分割而非通用視覺(jué)任務(wù) |
結(jié)論
專業(yè)AI模型代表了各項(xiàng)改進(jìn)之間的新成果。也就是說(shuō),機(jī)器能夠越來(lái)越像人類一樣理解、推理、創(chuàng)造和行動(dòng)。然而,該領(lǐng)域最令人興奮的可能不是任何一種模型類型的承諾,而是當(dāng)這些類型開(kāi)始融合時(shí)將會(huì)出現(xiàn)什么。這樣的系統(tǒng)將整合 LCMs 的概念理解能力、LAMs 的行動(dòng)能力、MOEs 的高效選擇能力以及 VLMs 的視覺(jué)理解能力,所有這些似乎都可以通過(guò) SLM 技術(shù)在本地設(shè)備上運(yùn)行。
問(wèn)題不在于這是否會(huì)改變我們的生活,而在于我們將如何利用這些技術(shù)來(lái)解決最大的挑戰(zhàn)。工具已經(jīng)在這里,可能性是無(wú)限的,未來(lái)取決于它們的應(yīng)用。
譯者介紹
涂承燁,51CTO社區(qū)編輯,具有15年以上的開(kāi)發(fā)、項(xiàng)目管理、咨詢?cè)O(shè)計(jì)等經(jīng)驗(yàn),獲得信息系統(tǒng)項(xiàng)目管理師、信息系統(tǒng)監(jiān)理師、PMP,CSPM-2等認(rèn)證。
原文標(biāo)題:Top 8 Specialized AI Models,作者:Riya Bansal