成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<center id="gsack"></center>

<pre id="gsack"><blockquote id="gsack"></blockquote></pre>

<ul id="gsack"></ul>

<noscript id="gsack"><strong id="gsack"></strong></noscript>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

開(kāi)源大型語(yǔ)言模型(llm)總結(jié)

作者：Varun Mathur 2023-06-19 16:05:22

大型語(yǔ)言模型（LLM）是人工智能領(lǐng)域中的一個(gè)重要研究方向，在ChatGPT之后，它經(jīng)歷了快速的發(fā)展。

大型語(yǔ)言模型（LLM）是人工智能領(lǐng)域中的一個(gè)重要研究方向，在ChatGPT之后，它經(jīng)歷了快速的發(fā)展。這些發(fā)展主要涉及以下幾個(gè)方面：

模型規(guī)模的增長(zhǎng)：LLM的規(guī)模越來(lái)越大，參數(shù)數(shù)量顯著增加。這種擴(kuò)展使得模型能夠處理更復(fù)雜、更長(zhǎng)的輸入序列，并生成更準(zhǔn)確、更具連貫性的輸出。同時(shí)，更大規(guī)模的模型還能夠涵蓋更廣泛的知識(shí)和語(yǔ)言上下文，提供更全面的回答和解決方案。
領(lǐng)域?qū)＞篖LM在不同領(lǐng)域的專(zhuān)精化得到了進(jìn)一步的發(fā)展。研究人員通過(guò)對(duì)特定領(lǐng)域的訓(xùn)練數(shù)據(jù)進(jìn)行更多的優(yōu)化，使得模型在特定領(lǐng)域的問(wèn)答、文本生成等任務(wù)中表現(xiàn)更出色。這使得LLM能夠?yàn)樘囟ㄐ袠I(yè)或?qū)I(yè)領(lǐng)域提供更精準(zhǔn)的支持和咨詢(xún)。
提升對(duì)語(yǔ)義理解和推理能力：研究人員致力于提高LLM對(duì)語(yǔ)義理解和推理的能力。通過(guò)引入更多的上下文信息、關(guān)聯(lián)知識(shí)和邏輯推理機(jī)制，LLM能夠更好地理解復(fù)雜問(wèn)題，進(jìn)行推理和分析，并給出更深入、準(zhǔn)確的回答。
模型訓(xùn)練的效率和速度提升：研究人員提出了一系列技術(shù)來(lái)提高LLM的訓(xùn)練效率和推理速度。例如，采用分布式訓(xùn)練方法，利用多臺(tái)計(jì)算機(jī)進(jìn)行并行訓(xùn)練，加快模型收斂速度。此外，還有一些壓縮和加速技術(shù)，可以在保持性能的同時(shí)減少模型的計(jì)算資源消耗。
理解和應(yīng)對(duì)偏見(jiàn)：LLM的發(fā)展也關(guān)注了如何更好地理解和應(yīng)對(duì)模型中的偏見(jiàn)。研究人員努力解決模型在生成結(jié)果時(shí)可能存在的性別、種族、文化等偏見(jiàn)問(wèn)題，以確保模型的輸出更加公正和中立。

本文將總結(jié)目前能見(jiàn)到的所有開(kāi)源的大語(yǔ)言模型。

Falcon-40B-Instruct

Falcon-40B- instruct是TII基于Falcon-40B構(gòu)建的40B參數(shù)因果解碼器模型，在Baize上進(jìn)行微調(diào)。

位于阿布扎比的技術(shù)創(chuàng)新研究所(TII)宣布了其開(kāi)源大型語(yǔ)言模型(LLM)——Falcon-40B。Falcon-40B擁有400億個(gè)參數(shù)，是阿聯(lián)酋首個(gè)大型人工智能模型，表明了該國(guó)在人工智能領(lǐng)域的雄心以及推動(dòng)創(chuàng)新和研究的承諾。

與大多數(shù)llm(通常只向非商業(yè)用戶提供訪問(wèn))不同，F(xiàn)alcon-40B對(duì)研究和商業(yè)用途都開(kāi)放。TII還將模型的權(quán)重包含在開(kāi)源包中，這將增強(qiáng)模型的功能并允許更有效的微調(diào)。

自2023年3月亮相以來(lái)，F(xiàn)alcon-40B的表現(xiàn)令人印象深刻。當(dāng)使用斯坦福大學(xué)的HELM工具進(jìn)行基準(zhǔn)測(cè)試時(shí)，與OpenAI的GPT-3、DeepMind的Chinchilla AI和谷歌的PaLM-62B等其他知名模型相比，它使用的訓(xùn)練計(jì)算能力更少。

Vicuna

Vicuna是一個(gè)開(kāi)源聊天機(jī)器人，通過(guò)從ShareGPT收集的用戶共享對(duì)話進(jìn)行訓(xùn)練。使用GPT-4作為評(píng)判的初步評(píng)估顯示，Vicuna-13B的質(zhì)量達(dá)到了OpenAI ChatGPT和Google Bard的90%以上，訓(xùn)練Vicuna-13B的費(fèi)用約為300美元。代碼和權(quán)重以及在線演示都是公開(kāi)的，可供非商業(yè)用途。

在對(duì)Vicuna與70K用戶共享的ChatGPT對(duì)話進(jìn)行微調(diào)后，我們發(fā)現(xiàn)與Alpaca相比，Vicuna能夠生成更詳細(xì)和結(jié)構(gòu)良好的答案，質(zhì)量與ChatGPT相當(dāng)。

Vicuna是通過(guò)微調(diào)LLaMA基礎(chǔ)模型創(chuàng)建的，該模型使用了從ShareGPT收集的大約70K用戶共享對(duì)話和公共api。

訓(xùn)練也有以下改進(jìn)。

內(nèi)存優(yōu)化：將最大上下文長(zhǎng)度從512擴(kuò)展到2048，通過(guò)利用梯度檢查點(diǎn)和flash attention解決內(nèi)存壓力。

多輪對(duì)話：調(diào)整訓(xùn)練損失以考慮多輪對(duì)話，并僅根據(jù)聊天機(jī)器人的輸出計(jì)算微調(diào)損失。

通過(guò)Spot實(shí)例降低成本：使用SkyPilot管理的spot來(lái)降低成本，利用更便宜的spot實(shí)例來(lái)自動(dòng)恢復(fù)搶占和自動(dòng)區(qū)域切換。這個(gè)解決方案將訓(xùn)練7B模型的成本從500美元削減到140美元左右，將訓(xùn)練13B模型的成本從1000美元左右削減到300美元左右。

Alpaca

Alpaca，在Meta的LLaMA 7B模型上進(jìn)行了微調(diào)。使用text-davinci-003以自指導(dǎo)的方式生成52K指令跟隨LLaMA 模型。在評(píng)估集上，Alpaca表現(xiàn)出許多與OpenAI的text- davincic -003相似的行為，但但是他卻非常的小，且易于地復(fù)制。

下圖說(shuō)明了Alpaca是如何訓(xùn)練的。

使用HuggingFace的訓(xùn)練框架對(duì)LLaMA模型進(jìn)行了微調(diào)，利用了完全分片數(shù)據(jù)并行和混合精確訓(xùn)練等技術(shù)。在8臺(tái)80GB的a100上微調(diào)7B LLaMA模型花了3個(gè)小時(shí)，在大多數(shù)云計(jì)算提供商那里，a100的成本不到100美元。

LLaMA

LLaMA(Large Language Model Meta AI)，一個(gè)最先進(jìn)的基礎(chǔ)大型語(yǔ)言模型，旨在幫助研究人員推進(jìn)他們?cè)谌斯ぶ悄苓@一子領(lǐng)域的工作。

與其他大型語(yǔ)言模型一樣，LLaMA的工作方式是將單詞序列作為輸入，并預(yù)測(cè)下一個(gè)單詞以遞歸地生成文本。從使用人數(shù)最多的20種語(yǔ)言中選擇了文本，重點(diǎn)關(guān)注那些帶有拉丁和西里爾字母的語(yǔ)言

在大多數(shù)基準(zhǔn)測(cè)試中，LLaMA- 13b優(yōu)于GPT-3(175B)，而LLaMA- 13b優(yōu)于GPT-3(175B)，而65B與Chinchilla-70B和PaLM-540B類(lèi)似。

GPT J

gpt - j6b是使用Ben Wang的Mesh Transformer JAX訓(xùn)練的Transformer 模型?！癎PT-J”表示模型的類(lèi)別，“6B”表示可訓(xùn)練參數(shù)的個(gè)數(shù)。模型共28層，模型維數(shù)為4096，前饋維數(shù)為16384。模型維度被分成16個(gè)頭，每個(gè)頭的維度為256。該模型使用50257的標(biāo)記化詞匯表進(jìn)行訓(xùn)練，使用與GPT-2/GPT-3相同的bp集。該模型由EleutherAI發(fā)布。GPT-J的核心功能是獲取一串文本并預(yù)測(cè)下一個(gè)令牌。

GPT-J是在Pile上訓(xùn)練的，這是一個(gè)已知包含褻瀆、猥褻和其他粗暴語(yǔ)言的數(shù)據(jù)集。所以GPT-J可能會(huì)產(chǎn)生社會(huì)上不可接受的文本。

Dolly

Databricks的Dolly-V2-12B，一個(gè)在Databricks機(jī)器學(xué)習(xí)平臺(tái)上訓(xùn)練的大型語(yǔ)言模型。基于Pythia-12B, Dolly接受了約15k條指令/響應(yīng)調(diào)優(yōu)記錄，這些記錄是由Databricks員工在基于InstructGPT論文領(lǐng)域中生成的，包括頭腦風(fēng)暴、分類(lèi)、封閉QA、生成、信息提取、開(kāi)放QA和總結(jié)。

總結(jié)

大型語(yǔ)言模型在ChatGPT以后經(jīng)歷了快速的發(fā)展。這些發(fā)展包括模型規(guī)模的增加、領(lǐng)域?qū)＞?、語(yǔ)義理解和推理能力的提升、訓(xùn)練效率和速度的提高，以及對(duì)偏見(jiàn)的理解和應(yīng)對(duì)等方面。除了以上6個(gè)比較好的開(kāi)源大語(yǔ)言模型外，還有各種不同版本，所以HuggingFace創(chuàng)建了一個(gè)排行榜（leaderboard）

有興趣的可以看看：

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

責(zé)任編輯：華軒來(lái)源： DeepHub IMBA

大型語(yǔ)言模型人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：人人做人人澡人人爽欧美 | 成人精品网 | 麻豆天堂 | 日韩欧美二区 | 日韩欧美二区 | 日韩三级 | 国产精品久久久久免费 | 成人精品国产 | 日本中文字幕一区 | 久久久久久久97 | 亚洲欧美精品在线观看 | 亚洲欧美在线视频 | 国产一区二区影院 | julia中文字幕久久一区二区 | 福利视频亚洲 | 91大神在线看 | 成人欧美一区二区三区黑人孕妇 | 国产精品视频在线播放 | 欧美一区二区在线观看 | 狠狠爱免费视频 | 99精品视频一区二区三区 | 国产视频久久久 | 久久久久久亚洲 | 亚洲91精品 | 国产精品免费一区二区三区四区 | 亚洲第一av | 日韩国产精品一区二区三区 | 国产精品一区二区三区四区五区 | av在线一区二区三区 | 精品亚洲一区二区 | 日本免费一区二区三区四区 | 国产精品爱久久久久久久 | 蜜桃视频在线观看免费视频网站www | 国产精品一级 | 日韩成人免费视频 | 草草草影院 | 日本91av视频| 国产一区免费视频 | 久久久国产一区二区三区四区小说 | 中文字幕日韩欧美一区二区三区 | 一区二区在线观看av |

<option id="w84qs"></option><noscript id="w84qs"><strong id="w84qs"></strong></noscript><samp id="w84qs"></samp>

<rt id="w84qs"><object id="w84qs"></object></rt>

<center id="w84qs"></center>