Jamba前生今世：1.5開源來襲

發布于 2024-8-27 12:01

瀏覽

0收藏

AI21服務于企業，為企業構建基礎模型和AI系統以加速GenAI在生產中的使用。AI21 成立于2017年，已從NVIDIA、Intel、Google等公司共籌集了3.36億美元。它是最早將生成式AI推向大眾的公司之一，借助AI21平臺，企業可以構建自己的生成式AI的應用程序和服務。

Jamba算是世界上第一款基于Mamba的生產級別的模型。近日AI21 Labs發布Jamba 1.5系列開放模型，包括Jamba 1.5 Mini和Jamba 1.5 Large，這些模型建立在新穎的SSM-Transformer架構之上，某種意義上也算是AI技術的突破。

1.Jamba

Jamba 1.5創新的核心是其令人印象深刻的256K上下文窗口，這是目前最長上下文的開放模型。在單個實例中處理和理解如此大量信息的能力允許在各種任務中實現更細致、更全面和更準確的輸出。Jamba 1.5 Mini可以在單個GPU上處理高達140K令牌的上下文長度。

Jamba前生今世：1.5開源來襲-AI.x社區圖片

AI21 Labs的原話是：“大多數其他模型聲稱具有較長的上下文窗口，但無法在其上下文窗口的上限處保持相同的性能質量，而Jamba 1.5系列在其 256K上下文窗口的整個跨度內保持其長上下文處理。”

能夠有效處理很長的上下文模型對于幾乎企業級生成式的應用程序都至關重要。除了徹底、精確地總結和分析冗長的文檔外，長上下文模型還通過消除連續分塊和重復檢索的需要，大大提高了RAG和代理工作流程的質量，并降低了它們的成本。

Jamba前生今世：1.5開源來襲-AI.x社區圖片

上圖為Jamba 1.5 Mini在2片A100 80GB GPU進行延遲評估，而Jamba 1.5 Large則是在8塊A100 80GB GPU上完成的，整體表現不錯。下圖為

Jamba前生今世：1.5開源來襲-AI.x社區圖片

上表是Jamba和其他模型整體參數規模和實際運行激活參數規模的對比。Jamba 1.5 Large算是巔峰之作，它雖然具備398B的總參數，然而運行時僅僅有94B的活躍參數。而Jamba 1.5 Mini具有52B的總參數和12B的活躍參數。<MoE!!>

2.SSM-Transformer

Jamba 1.5基于混合SSM-Transformer構建，它結合了兩種強大的AI 范式的優勢：Mamba和Transformer。讀者是否還記得Mamba系列？！Mamba為模型帶來了卓越的效率和速度，而Transformer架構則在各種 NLP任務中保持高質量輸出和穩健的性能。

Jamba前生今世：1.5開源來襲-AI.x社區圖片

在Jamba的這個版本中，AI21試驗了Mamba-2，這是Mamba的更快和改進版本，它的性能分別優于Mamba和Transformers。在實驗中如上圖所示在混合架構中，Mamba-1+Attention組合比Mamba-2+Attention效果更好，因此本次在Jamba-1.5-Large中使用Mamba-1。

當然在這個過程中還發現混合架構的性能優于純Mamba-2。通過推測可能是因為在 Mamba層之間交錯有完整的Tranformer層時，Mamba-2相對于Mamba-1 的優勢就不那么明顯了，Mamba-2雖然可以具備更大狀態存儲能力，然而Mamba-1通過Transformer可以匯集來自整個上下文的信息。

Jamba前生今世：1.5開源來襲-AI.x社區圖片