成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

四行代碼讓大模型上下文暴增3倍,羊駝Mistral都適用

開發 前端
近日,來自得克薩斯農工大學等機構的華人學者們發布了全新的大模型窗口擴展方法SelfExtended(簡稱SE)。在Mistral上,研究者在24k長度的文本中隨機插入5位數字讓模型搜索,結果經SE處理后,呈現出了全綠(通過)的測試結果。

無需微調,只要四行代碼就能讓大模型窗口長度暴增,最高可增加3倍!

而且是“即插即用”,理論上可以適配任意大模型,目前已在Mistral和Llama2上試驗成功。

有了這項技術,大模型(LargeLM)就能搖身一變,成為LongLM。

圖片

近日,來自得克薩斯農工大學等機構的華人學者們發布了全新的大模型窗口擴展方法SelfExtended(簡稱SE)

在Mistral上,研究者在24k長度的文本中隨機插入5位數字讓模型搜索,結果經SE處理后,呈現出了全綠(通過)的測試結果。

而未經處理的版本,在6k長度時就已經開始“見紅”了。

圖片圖片

GitHub Copilot主創Alex Graveley也激動地宣布,在Llama2上進行的實驗同樣取得了成功。

圖片圖片

在網友的進一步詢問之下,Alex解釋了推文中“work”的具體含義:原先在4k長度時就會出現的噪聲,現在已經消失了。

圖片圖片

而對于SE窗口長度的極限,一位根據論文復現SE代碼的大佬表示,理論上(只要算力足夠)可以達到無限長。

圖片圖片

那么,SE具體能達到什么樣的效果呢?

長文本能力顯著增強

在窗口長度從4096增長到16384的過程中,Llama 2的困惑度從一開始變飆升了兩個數量級。

但使用SE后,文本長度變成了原來的4倍,困惑度卻只增加了0.4。

而在Mistral上,SE比Mistral自身采用的滑動窗口(SWA)機制帶來了更低的困惑度。

圖片圖片

△左下圖使用對數坐標

在專為長文本模型設計的LongBench數據集中,SE處理后的模型在單/多文檔問答、總結、少樣本學習、代碼等任務中,評分均相比起原始版本有所提升。

特別是在一個名為SOLAR的模型上,處理后的模型在16k長度下的表現比原始版本在4k長度下的表現還要優異。

SOLAR由兩個羊駝掐頭去尾拼接而成,這種拼接的方式,使得其注意力層結構與其他基于Transformer的模型形成了一定差異。

圖片

同時,在GSM等由考試題組成的閉域問答任務中,SE優化后的模型也都相比原始版本取得了更高的平均成績,在Mistral上稍遜于其自身的SWA方法。

圖片圖片

而長文本能力的增強,并沒有帶來模型在短文本上的能力下降。

在HuggingFace的OpenLLM基準下,SE版Llama2的測評成績相比原版均為發生顯著降低。

圖片圖片

目前,SE的開箱即用版支持Phi、Llama和Mistral三種模型,在這三種模型上只需4行代碼就能進行窗口擴增。

對于其他模型,則需要對代碼進行一定修改。

圖片圖片

那么,SE是如何給模型增加窗口長度的呢?

兩種注意力機制共同作用

研究者認為,長文本能力是大模型本身就具有的,但需要通過一定方法激發才能實現。

其中最主要的問題是,大模型在處理長文本時,會遇到相對位置編碼超出訓練時所見范圍的情況。

針對這一情況,作者采用了FLOOR注意力機制作為解決策略。

FLOOR對輸入的文本序列進行分組,然后用組數對某一token的絕對位置做取整除,就可以長距離將映射到較短的范圍。

然后,對這些映射值進行注意力運算,就解決了位置編碼超限的問題,實現了長文本的處理。

圖片圖片

而在處理中短長度文本時,仍然使用模型原有的注意力機制,從而確保了模型不會“顧此失彼”,避免因長文本能力的增長導致短文本能力損失。

此外,在Mistral上復現SE的作者還坦言,目前該模型并不完美,可能存在計算量暴增的問題。

圖片圖片

同時,SE的原作者也說,目前SE方法的確還沒有做過效率方面的優化,未來計劃通過引入FlashAttention機制等策略來解決這一問題。

圖片

論文地址:https://arxiv.org/abs/2401.01325

責任編輯:武曉燕 來源: 量子位
相關推薦

2023-08-24 15:57:41

模型文檔檢索

2024-05-06 13:01:21

數據模型

2023-06-28 18:10:27

羊駝家族大模型集體進化

2024-03-14 08:11:45

模型RoPELlama

2025-01-14 12:22:06

2023-05-22 09:28:30

模型AI

2023-10-04 10:38:38

模型方法

2025-03-18 09:23:22

2025-03-18 08:14:05

2024-04-07 08:50:00

谷歌框架

2017-05-11 14:00:02

Flask請求上下文應用上下文

2024-03-25 00:05:00

開源模型AI

2023-08-10 14:04:15

代碼模型

2012-12-31 10:01:34

SELinuxSELinux安全

2022-09-14 13:13:51

JavaScript上下文

2023-10-23 13:23:03

數據訓練

2025-03-18 09:10:00

MCPAI模型上下文協議

2024-07-19 12:45:23

2022-04-19 07:45:40

代碼Python美圖秀秀
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲在线一区 | 在线亚洲免费视频 | 免费麻豆视频 | 老外黄色一级片 | 亚洲国产成人av | 亚洲男人天堂 | 米奇成人网 | 国产精品一区三区 | 中日韩av| 欧美日韩精品专区 | 狠狠干狠狠操 | 国产午夜久久 | 国际精品久久 | 欧美国产亚洲一区二区 | 99精品国产一区二区青青牛奶 | 中文字幕成人av | 久久在线 | 亚洲国产精品一区二区久久 | 欧美aaaaa | 国产高清美女一级a毛片久久w | 日韩欧美视频在线 | 亚洲欧洲在线观看视频 | 九九热精品视频 | 国产羞羞视频在线观看 | 91久久久www播放日本观看 | 视频二区| 日本亚洲一区 | 久久草在线视频 | 韩国欧洲一级毛片 | 青草视频在线 | 在线欧美亚洲 | 国产精品美女久久久久aⅴ国产馆 | 91精品国产色综合久久 | 国产精品不卡 | 欧美高清成人 | 久久久网 | 一区二区在线免费观看 | 免费在线日韩 | 国产99久久精品 | 嫩草91在线 | 99久久精品免费视频 |