成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

碾壓LLaMA,「獵鷹」徹底開源!400億參數(shù),萬億token訓(xùn)練,霸榜Hugging Face

人工智能 新聞
來自阿聯(lián)酋的免費(fèi)商用開源大模型登頂Hagging Face排行榜,AI大模型創(chuàng)業(yè)者的春天就這樣到來了。

大模型時代,什么最重要?

LeCun曾經(jīng)給出的答案是:開源。

圖片

當(dāng)Meta的LLaMA的代碼在GitHub上被泄露時,全球的開發(fā)者們都可以訪問這個第一個達(dá)到GPT水平的LLM。

接下來,各種各樣的LLM給AI模型開源賦予了各種各樣的角度。

LLaMA給斯坦福的Alpac和Vicuna等模型鋪設(shè)了道路,搭好了舞臺,讓他們成為了開源的領(lǐng)頭羊。

而就在此時,獵鷹「Falcon」又殺出了重圍。

Falcon 獵鷹

「Falcon」由阿聯(lián)酋阿布扎比的技術(shù)創(chuàng)新研究所(TII)開發(fā),從性能上看,F(xiàn)alcon比LLaMA的表現(xiàn)更好。

目前,「Falcon」有三個版本——1B、7B和40B。

TII表示,F(xiàn)alcon迄今為止最強(qiáng)大的開源語言模型。其最大的版本,F(xiàn)alcon 40B,擁有400億參數(shù),相對于擁有650億參數(shù)的LLaMA來說,規(guī)模上還是小了一點(diǎn)。

規(guī)模雖小,性能能打。

先進(jìn)技術(shù)研究委員會(ATRC)秘書長Faisal Al Bannai認(rèn)為,「Falcon」的發(fā)布將打破LLM的獲取方式,并讓研究人員和創(chuàng)業(yè)者能夠以此提出最具創(chuàng)新性的使用案例。

FalconLM的兩個版本,F(xiàn)alcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前兩名,而Meta的LLaMA位于第三。

圖片

值得一提的是,Hugging Face是通過四個當(dāng)前比較流形的基準(zhǔn)——AI2 Reasoning Challenge,HellaSwag,MMLU和TruthfulQA對這些模型進(jìn)行評估的。

盡管「Falcon」的論文目前還沒公開發(fā)布,但Falcon 40B已經(jīng)在經(jīng)過精心篩選的1萬億token網(wǎng)絡(luò)數(shù)據(jù)集的上進(jìn)行了大量訓(xùn)練。

研究人員透露,「Falcon」在訓(xùn)練過程非常重視在大規(guī)模數(shù)據(jù)上實(shí)現(xiàn)高性能的重要性。

我們都知道的是,LLM對訓(xùn)練數(shù)據(jù)的質(zhì)量非常敏感,這就是為什么研究人員會花大量的精力構(gòu)建一個能夠在數(shù)萬個CPU核心上進(jìn)行高效處理的數(shù)據(jù)管道。

目的就是,在過濾和去重的基礎(chǔ)上從網(wǎng)絡(luò)中提取高質(zhì)量的內(nèi)容。

目前,TII已經(jīng)發(fā)布了精煉的網(wǎng)絡(luò)數(shù)據(jù)集,這是一個經(jīng)過精心過濾和去重的數(shù)據(jù)集。實(shí)踐證明,非常有效。

僅用這個數(shù)據(jù)集訓(xùn)練的模型可以和其它LLM打個平手,甚至在性能上超過他們。這展示出了「Falcon」卓越的質(zhì)量和影響力。

圖片

此外,F(xiàn)alcon模型也具有多語言的能力。

它理解英語、德語、西班牙語和法語,并且在荷蘭語、意大利語、羅馬尼亞語、葡萄牙語、捷克語、波蘭語和瑞典語等一些歐洲小語種上也懂得不少。

Falcon 40B還是繼H2O.ai模型發(fā)布后,第二個真正開源的模型。然而,由于H2O.ai并未在此排行榜上與其他模型進(jìn)行基準(zhǔn)對比,所以這兩個模型還沒上過擂臺。

而回過頭看LLaMA,盡管它的代碼在GitHub上可以獲取,但它的權(quán)重(weights)從未開源。

這意味著該模型的商業(yè)使用受到了一定程度的限制。

而且,LLaMA的所有版本都依賴于原始的LLaMA許可證,這就使得LLaMA不適合小規(guī)模的商業(yè)應(yīng)用。

在這一點(diǎn)上,「Falcon」又拔得了頭籌。

唯一免費(fèi)的商用大模型!

Falcon是目前唯一的可以免費(fèi)商用的開源模型。

在早期,TII要求,商業(yè)用途使用Falcon,如果產(chǎn)生了超過100萬美元以上的可歸因收入,將會收取10%的「使用稅」。

可是財大氣粗的中東土豪們沒過多長時間就取消了這個限制。

至少到目前為止,所有對Falcon的商業(yè)化使用和微調(diào)都不會收取任何費(fèi)用。

土豪們表示,現(xiàn)在暫時不需要通過這個模型掙錢。

而且,TII還在全球征集商用化方案。

對于有潛力的科研和商業(yè)化方案,他們還會提供更多的「訓(xùn)練算力支持」,或者提供進(jìn)一步的商業(yè)化機(jī)會。

圖片

項(xiàng)目提交郵箱:Submissions.falconllm@tii.ae

這簡直就是在說:只要項(xiàng)目好,模型免費(fèi)用!算力管夠!錢不夠我們還能給你湊!

對于初創(chuàng)企業(yè)來說,這簡直就是來自中東土豪的「AI大模型創(chuàng)業(yè)一站式解決方案」。

高質(zhì)量的訓(xùn)練數(shù)據(jù)

根據(jù)開發(fā)團(tuán)隊(duì)稱,F(xiàn)alconLM 競爭優(yōu)勢的一個重要方面是訓(xùn)練數(shù)據(jù)的選擇。

研究團(tuán)隊(duì)開發(fā)了一個從公共爬網(wǎng)數(shù)據(jù)集中提取高質(zhì)量數(shù)據(jù)并刪除重復(fù)數(shù)據(jù)的流程。

在徹底清理多余重復(fù)內(nèi)容后,保留了 5 萬億的token——足以訓(xùn)練強(qiáng)大的語言模型。

40B的Falcon LM使用1萬億個token進(jìn)行訓(xùn)練, 7B版本的模型訓(xùn)練token達(dá)到 1.5 萬億。

圖片

(研究團(tuán)隊(duì)的目標(biāo)是使用RefinedWeb數(shù)據(jù)集從Common Crawl中僅過濾出質(zhì)量最高的原始數(shù)據(jù))

更加可控的訓(xùn)練成本

TII稱,與GPT-3相比,F(xiàn)alcon在只使用75%的訓(xùn)練計(jì)算預(yù)算的情況下,就實(shí)現(xiàn)了顯著的性能提升。

圖片

圖片

而且在推斷(Inference)時只需要只需要20%的計(jì)算時間。

Falcon的訓(xùn)練成本,只相當(dāng)于Chinchilla的40%和PaLM-62B的80% 。

成功實(shí)現(xiàn)了計(jì)算資源的高效利用。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-09-07 13:25:00

AI模型

2024-04-09 13:21:00

AI開源

2023-06-09 12:56:17

AlpacaWizardLMVicuna

2023-11-06 11:26:55

模型開源

2024-05-20 15:19:41

AI數(shù)據(jù)

2023-09-18 09:36:58

微軟模型

2023-07-18 15:05:00

開源大模型

2023-06-07 14:08:00

計(jì)算機(jī)代碼

2024-05-06 12:22:00

AI訓(xùn)練

2024-01-02 09:10:17

k開源數(shù)據(jù)

2024-04-01 12:10:48

數(shù)據(jù)訓(xùn)練

2023-07-10 14:35:53

2023-05-19 10:26:01

谷歌模型

2023-10-08 09:00:00

LLMGitHub人工智能

2023-10-04 08:16:04

2023-02-28 07:03:09

AIMeta大型語言

2025-01-24 13:56:25

2023-06-27 13:48:00

清華開源

2023-12-06 15:40:17

AI

2024-08-28 08:25:25

Python預(yù)訓(xùn)練模型情緒數(shù)據(jù)集
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 一区二区三区中文字幕 | 日韩成人在线视频 | 羞羞视频在线观看 | 久久国产精品99久久久大便 | 成人av免费看 | 成人免费大片黄在线播放 | 成人羞羞国产免费视频 | 精品久久一区 | 国产乱码久久久久久一区二区 | 91在线精品视频 | 亚洲天堂999 | 色在线看 | 自拍偷拍亚洲一区 | 久久99一区二区 | 欧美成人精品在线观看 | 成人a免费 | 久久综合一区二区 | 天天搞天天操 | 日日干夜夜干 | 亚洲啊v在线| 亚洲精品一区二区冲田杏梨 | av不卡一区 | 欧美性受xxxx| 91成人免费观看 | 欧美日一区二区 | 一区二区视频在线观看 | 男人天堂av网 | 国产亚洲精品精品国产亚洲综合 | 青青草在线视频免费观看 | 亚洲国产精品久久久久 | 中文在线一区二区 | 亚洲国产精品激情在线观看 | 欧美不卡| 成人精品久久久 | 欧美午夜精品 | 黄片毛片在线观看 | 人人澡人人射 | 91在线电影| 国产激情视频网站 | 久久久久久免费毛片精品 | 成人一级黄色毛片 |