成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

非Transformer模型終于來(lái)了!

原創(chuàng) 精選
人工智能
TII 的 Falcon 系列語(yǔ)言模型下載量已超過(guò) 4500 萬(wàn)次,成為阿聯(lián)酋最成功的 LLM 版本之一。

Falcon Mamba 7B 強(qiáng)大的新 AI 架構(gòu)為 Transformer 模型提供了替代方案。

8月12日,阿布扎比技術(shù)創(chuàng)新研究所(TII)發(fā)布了一款名為 Falcon Mamba 7B 的新開源模型。同時(shí),這款模型已經(jīng)放在了Hugging Face平臺(tái)。

Mamba 7B 采用了一種新穎的Mamba狀態(tài)空間語(yǔ)言模型(SSLM)架構(gòu)來(lái)處理各種文本生成任務(wù),并在選定基準(zhǔn)測(cè)試中優(yōu)于其尺寸類別中的主流模型,包括Meta的Llama 3 8B、Llama 3.1 8B和Mistral 7B。

盡管,它是繼Falcon  180B、Falcon  40B 和Falcon  2 之后 TII 的第四個(gè)開放模型,但令人興奮的點(diǎn)在于,它是非Transformer架構(gòu)的第一個(gè)類別,意義非比尋常。它正在迅速成為人工智能領(lǐng)域基于Transformer的大型語(yǔ)言模型 (LLM) 的新替代品。

據(jù)介紹,該模型采用了“Falcon License 2.0”,一種基于 Apache 2.0 的許可證。

01、Falcon Mamba 7B 有何優(yōu)勢(shì)?

盡管變換模型繼續(xù)在生成式人工智能領(lǐng)域占據(jù)主導(dǎo)地位,但研究人員指出,該架構(gòu)在處理較長(zhǎng)的文本時(shí)可能會(huì)遇到困難。

本質(zhì)上,Transformer 的注意力機(jī)制通過(guò)將每個(gè)單詞(或標(biāo)記)與文本中的每個(gè)單詞進(jìn)行比較來(lái)理解上下文,它需要更多的計(jì)算能力和內(nèi)存來(lái)處理不斷增長(zhǎng)的上下文窗口。

如果不相應(yīng)地?cái)U(kuò)展資源,推理速度就會(huì)變慢,并達(dá)到無(wú)法處理超過(guò)一定長(zhǎng)度的文本的程度。

為了克服這些障礙,狀態(tài)空間語(yǔ)言模型(SSLM) 架構(gòu)應(yīng)運(yùn)而生,該架構(gòu)通過(guò)在處理單詞時(shí)不斷更新“狀態(tài)”來(lái)工作,已成為一種有前途的替代方案。一些組織已經(jīng)部署了它——TII 是最新的采用者。

據(jù) TII 介紹,其全新的 Falcon 型號(hào)采用了 Mamba SSM 架構(gòu),該架構(gòu)最初由卡內(nèi)基梅隆大學(xué)和普林斯頓大學(xué)的研究人員在 2023 年 12 月的一篇論文中提出。

該架構(gòu)使用一種選擇機(jī)制,允許模型根據(jù)輸入動(dòng)態(tài)調(diào)整其參數(shù)。這樣,模型可以關(guān)注或忽略特定輸入,類似于注意力機(jī)制在 Transformer 中的工作方式,同時(shí)提供處理長(zhǎng)文本序列(例如整本書)的能力,而無(wú)需額外的內(nèi)存或計(jì)算資源。

TII 指出,該方法使模型適用于企業(yè)級(jí)機(jī)器翻譯、文本摘要、計(jì)算機(jī)視覺(jué)和音頻處理任務(wù)以及估計(jì)和預(yù)測(cè)等任務(wù)。

02、挑戰(zhàn) Meta、Google 和 Mistral

為了了解 Falcon Mamba 7B 與同尺寸級(jí)別領(lǐng)先的 transformer 模型的表現(xiàn)如何,該研究所進(jìn)行了一項(xiàng)測(cè)試,以確定使用單個(gè) 24GB A10GPU 時(shí)模型可以處理的最大上下文長(zhǎng)度。

結(jié)果顯示,F(xiàn)alcon Mamba“可以適應(yīng)比基于 SoTA Transformer 的模型更大的序列,同時(shí)理論上如果逐個(gè)處理整個(gè)上下文標(biāo)記,或者按適合 GPU 的大小處理標(biāo)記塊(稱為順序并行),則能夠適應(yīng)無(wú)限的上下文長(zhǎng)度。”

圖片

Falcon  7B

在單獨(dú)的吞吐量測(cè)試中,它的表現(xiàn)優(yōu)于 Mistral 7B 高效的滑動(dòng)窗口注意力架構(gòu),能夠以恒定的速度生成所有 token,并且不會(huì)增加 CUDA 峰值內(nèi)存。

即使在標(biāo)準(zhǔn)行業(yè)基準(zhǔn)中,新模型的性能也優(yōu)于或幾乎與流行的變壓器模型以及純和混合狀態(tài)空間模型的性能相同。

例如,在 Arc、TruthfulQA 和 GSM8K 基準(zhǔn)測(cè)試中,F(xiàn)alcon Mamba 7B 得分分別為 62.03%、53.42% 和 52.54%,明顯優(yōu)于 Llama 3 8B、Llama 3.1 8B、Gemma 7B和 Mistral 7B。

然而,在 MMLU 和 Hellaswag 基準(zhǔn)測(cè)試中,它緊隨所有這些模型之后。

但這僅僅是一個(gè)開始。下一步,TII 計(jì)劃進(jìn)一步優(yōu)化模型設(shè)計(jì),以提高其性能并覆蓋更多的應(yīng)用場(chǎng)景。

TII 人工智能跨中心部門代理首席研究員 Hakim Hacid 博士在一份聲明中表示:“此次發(fā)布代表著向前邁出的重大一步,它激發(fā)了新的觀點(diǎn),并進(jìn)一步推動(dòng)了對(duì)智能系統(tǒng)的探索。在 TII,我們正在突破 SSLM 和 transformer 模型的界限,以激發(fā)生成式人工智能的進(jìn)一步創(chuàng)新。”

總體而言,TII 的 Falcon 系列語(yǔ)言模型下載量已超過(guò) 4500 萬(wàn)次,成為阿聯(lián)酋最成功的 LLM 版本之一。

責(zé)任編輯:龐桂玉 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2025-06-06 08:13:47

2024-10-06 10:30:00

AI機(jī)器人神經(jīng)網(wǎng)絡(luò)

2024-10-16 07:58:48

2009-10-22 08:50:33

Windows 7上市新聞

2013-07-12 09:59:58

Android 5.0

2017-04-17 09:01:39

科技新聞早報(bào)

2023-05-29 08:38:56

popover控制懸浮層

2024-08-13 13:30:00

2021-04-20 08:03:26

單播協(xié)議TCP

2023-02-13 09:31:07

CSS前端

2025-03-11 09:42:00

2013-08-28 10:27:14

騰訊云百度云

2021-10-22 15:45:32

開發(fā)技能React

2024-07-17 10:16:21

2023-09-22 12:27:18

微軟Windows 1

2019-05-14 09:00:54

Linux 系統(tǒng) 數(shù)據(jù)

2023-10-25 16:06:29

iOS 18ChatGPT

2024-01-30 00:09:29

iOS 17.3蘋果

2024-04-28 09:01:06

React 19更新前端

2022-04-11 09:20:00

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 啪一啪 | 日韩欧美一级片 | 中文字幕在线观看 | 91久久国产 | 波多野结衣中文字幕一区二区三区 | 在线视频 亚洲 | 999热精品 | 久草久 | 国产精品极品美女在线观看免费 | 人人干超碰| 久久99网 | 亚洲欧美日韩精品久久亚洲区 | 精品视频国产 | 国产伦精品一区二区三区照片91 | 丝袜一区二区三区 | 综合久久网| 日韩毛片在线视频 | 日韩欧美在线播放 | 午夜天堂精品久久久久 | 91色综合 | 男人天堂久久久 | 国产精品久久9 | 国产精品精品视频一区二区三区 | 精品乱码一区二区 | 成人黄色在线视频 | 国产精品毛片 | 亚洲精品二区 | 成人毛片视频在线播放 | 欧美在线一区二区三区 | 久久精品国产清自在天天线 | 在线播放中文字幕 | 国产精品亚洲一区二区三区在线 | 99热热| 日本在线视频一区二区 | 午夜视频导航 | 久草网站 | 国产精品99精品久久免费 | 台湾av在线| 国产一伦一伦一伦 | 日韩视频在线观看中文字幕 | 荷兰欧美一级毛片 |