成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

賈佳亞韓松團隊新作:兩行代碼讓大模型上下文窗口倍增 | GitHub熱榜

人工智能 新聞
賈佳亞韓松聯(lián)合團隊提出的這個基于LoRA的全新大模型微調(diào)方法,登上了GitHub熱榜。

只要兩行代碼+11個小時微調(diào),就能把大模型4k的窗口長度提高到32k。

規(guī)模上,最長可以擴展到10萬token,一口氣就能讀完長篇小說的多個章節(jié)或中短篇小說。

賈佳亞韓松聯(lián)合團隊提出的這個基于LoRA的全新大模型微調(diào)方法,登上了GitHub熱榜。

這種方式叫做LongLoRA,由來自香港中文大學和MIT的全華人團隊聯(lián)合出品。

在一臺8個A100組成的單機上,增大窗口長度的速度比全量微調(diào)快數(shù)倍。

網(wǎng)友看了之后不禁表示,這個效率實在是令人印象深刻:

圖片

那么,用LongLoRA微調(diào)之后,模型會有什么樣的變化呢?

一口氣讀完一部小說

研究團隊的實驗當中使用的模型是Llama 2。

經(jīng)過LongLoRA方法微調(diào)之后,Llama 2-7B的窗口長度最高可提升到10萬token。

實測發(fā)現(xiàn),微調(diào)后的模型可以一口氣讀完一部小說,然后回答各種問題。

比如總結一下大劉在《三體》第三部中體現(xiàn)的中心思想,比總結內(nèi)容還高出了一個層次。

模型給出的答案是與外星文明首次接觸的危險性、星際旅行之困難與人類文明之脆弱,以及團結協(xié)作的重要性等內(nèi)容。

的確每條在原著中都有所體現(xiàn),而且也比較全面了。

圖片

除了對整部作品進行概括提煉,局部內(nèi)容當然也可以詢問。

小說中的角色也能對答如流,比如《西游記》中孫悟空是怎么開花成長的。

模型告訴我們,孫悟空很有智慧,但又有一顆頑皮的心,在伴隨唐僧取經(jīng)的過程中走向了成熟。

這次的總結依舊是很到位。

圖片

而且不僅是單個角色,不同人物之間復雜的關系也能了如指掌。

提問的方式可以簡單粗暴些,直接要求描述這本書(《哈利波特》)中的人物關系。

模型以哈利·波特為中心,介紹了他的朋友韋斯萊、赫敏,敵人馬爾福,以及鄧布利多教授等人物。

圖片

除了看小說,LongLoRA微調(diào)后的Llama還可以讀論文,生產(chǎn)力一下子就提高了(喜)。

無論是整體概括還是局部詢問,微調(diào)后的模型都能準確地給出答案:

圖片

△中文部分為谷歌機翻

圖片

為了從宏觀上把握模型的表現(xiàn),研究團隊用了如下數(shù)據(jù)集進行了測試:

  • PG19:來自書籍的長篇文檔數(shù)據(jù)集,用來測試語言建模效果。
  • Proof-pile:來自arXiv的數(shù)學論文數(shù)據(jù)集,用來測試語言建模效果。
  • LongQA:作者自行構建的長序列問答數(shù)據(jù)集,用于有監(jiān)督的微調(diào)。
  • LongChat:第三方構建的長對話理解數(shù)據(jù)集,用來測試長序列敘述理解效果。

結果顯示,LongLoRA在PG19和Proof-pile上的困惑度與全量微調(diào)接近。

圖片

在問答數(shù)據(jù)集上,LongLoRA微調(diào)出的模型表現(xiàn)也很優(yōu)異,長文本理解方面更是達到了SOTA水平。

圖片

當然,LongLoRA的意義不僅在于提高了窗口長度,關鍵在于用更少的消耗提高了窗口長度。

以7B參數(shù)量的Llama-2為例,如果使用全量微調(diào),從4k提升到32k,在一臺8個A100的單機上需要五天。

而改用LongLoRA方式,則只用11.3小時就能完成,連半天都不到,效率提升近十倍。

如果提升到65k,全量微調(diào)所需時間將超過1000小時,LongLoRA卻只用52.4小時。

圖片

那么LongLoRA又是怎么做到的呢?

“大而化小”降低計算量

LongLoRA建立在LoRA的基礎之上,引入了一種稱為“移位短注意力”(shift short attention)的機制。

這種機制只需要兩行代碼就能實現(xiàn):

圖片

Transformer架構的核心是自注意力(Self-attention)計算。

短注意力就是將訓練文本劃分為多個組,使自注意力計算在每個組內(nèi)分別進行,從而達到降低運算量的目的。

而在這一過程中注意力頭也被進行了分組,通過注意力頭的位移,就實現(xiàn)了組間的信息交互。

劃分出的每個組之間有重疊部分,確保了數(shù)據(jù)可以在全文中流通。

這樣一來,每次計算都只需要對組內(nèi)的token進行操作,運算量大大降低。

圖片

除了對輸入進行分割之外,LongLoRA相比于Lora還可以微調(diào)embedding層和normalization層。

這兩項內(nèi)容占的參數(shù)量很小,以Llama 2-7B為例,embedding層只占1.94%,normalization層更是不到十萬分之四。

消融實驗結果表明,除了核心的Attention層,這兩個占比很小的部分也起到了重要作用。

圖片

除了核心的短注意力機制,研究團隊引入了DeepSpeed和FlashAttention方式,進一步降低了訓練消耗。

目前,LongLoRA微調(diào)過后不同參數(shù)量和窗口長度的Llama 2已經(jīng)開源,感興趣的話可以到GitHub頁面中查看。

論文地址:https://arxiv.org/abs/2309.12307
GitHub項目頁:https://github.com/dvlab-research/LongLoRA

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-07-08 08:38:00

模型推理

2023-10-09 14:17:00

AI模型

2024-04-15 12:28:00

AI模型

2024-01-08 12:47:02

代碼模型Mistral

2024-07-18 12:56:29

2024-03-14 08:11:45

模型RoPELlama

2023-08-10 14:04:15

代碼模型

2023-08-09 17:38:47

模型AI

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2023-12-10 15:05:47

AI模型

2023-10-09 12:36:08

人工智能數(shù)據(jù)

2025-03-18 08:14:05

2025-01-24 14:14:35

模型框架視頻

2023-07-28 12:13:28

模型語言性能

2025-04-03 11:16:10

2017-05-11 14:00:02

Flask請求上下文應用上下文

2025-01-14 12:22:06

2025-03-17 12:55:18

2024-01-29 08:49:36

RAG模型檢索

2012-12-31 10:01:34

SELinuxSELinux安全
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区精品视频在线观看 | 国产精品久久久久无码av | 6080亚洲精品一区二区 | 欧美精品一区二区三区在线播放 | 羞羞视频网站 | 97精品久久 | 亚洲成人自拍 | 日韩午夜 | 在线观看a视频 | 99国产精品久久久久老师 | 亚洲精品www久久久久久广东 | 久久国产精品免费视频 | 日本精品一区二区 | 免费视频一区二区 | 国产亚洲精品精品国产亚洲综合 | 三级成人片 | 国产一区二区三区在线免费 | 日韩精品久久 | 亚洲福利在线观看 | 国产剧情久久 | 国产区在线观看 | 欧美日韩在线一区二区 | 日日噜噜噜夜夜爽爽狠狠视频, | 狠狠av| 欧美精品在线免费观看 | caoporn视频 | 欧美精品v国产精品v日韩精品 | 中文天堂在线观看 | 三级黄色网址 | 中文字幕1区 | 免费成人高清在线视频 | 亚洲毛片在线 | 福利视频二区 | 久久国产精品久久久久久 | 欧美在线视频一区二区 | 亚洲精品68久久久一区 | 操网站| 国产精品123区 | 国产一区二区三区精品久久久 | 请别相信他免费喜剧电影在线观看 | 一区二区三区高清在线观看 |