成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

羊駝家族大模型集體進化!32k上下文追平GPT-4,田淵棟團隊出品

人工智能 算法
Meta AI這篇剛剛提交的論文表示,LLaMA上下文窗口從2k擴展到32k后只需要小于1000步的微調。

開源羊駝大模型LLaMA上下文追平GPT-4,只需要一個簡單改動!

Meta AI這篇剛剛提交的論文表示,LLaMA上下文窗口從2k擴展到32k后只需要小于1000步的微調。

與預訓練相比,成本忽略不計。

圖片

擴展上下文窗口,就意味著AI的“工作記憶”容量增加,具體來說可以:

  • 支持更多輪對話,減少遺忘現象,如更穩定的角色扮演
  • 輸入更多資料完成更復雜的任務,如一次處理更長文檔或多篇文檔

更重要的意義在于,所有基于LLaMA的羊駝大模型家族豈不是可以低成本采用此方法,集體進化?

羊駝是目前綜合能力最強的開源基礎模型,已經衍生出不少完全開源可商用大模型和垂直行業模型。

圖片

論文通信作者田淵棟也激動地在朋友圈分享這一新進展。

圖片

基于RoPE的大模型都能用

新方法名為位置插值(Position Interpolation),對使用RoPE(旋轉位置編碼)的大模型都適用。

RoPE早在2021年就由追一科技團隊提出,到現在已成為大模型最常見的位置編碼方法之一。

圖片

但在此架構下直接使用外推法(Extrapolation)擴展上下文窗口,會完全破壞自注意力機制。

具體來說,超出預訓練上下文長度之外的部分,會使模型困惑度(perplexity)飆升至和未經訓練的模型相當。

新方法改成線性地縮小位置索引,擴展前后位置索引和相對距離的范圍對齊。

圖片

用圖表現二者的區別更加直觀。

圖片

實驗結果顯示,新方法對從7B到65B的LLaMA大模型都有效。

在長序列語言建模(Long Sequence Language Modeling)、密鑰檢索(Passkey Retrieval)、長文檔摘要(Long Document Summarization)中性能都沒有明顯下降。

圖片

除了實驗之外,論文附錄中也給出了對新方法的詳細證明。

圖片

Three More Thing

上下文窗口曾經是開源大模型與商業大模型之間一個重要差距。

比如OpenAI的GPT-3.5最高支持16k,GPT-4支持32k,AnthropicAI的Claude更是高達100k。

與此同時許多開源大模型如LLaMA和Falcon還停留在2k。

現在,Meta AI的新成果直接把這一差距抹平了。

擴展上下文窗口也是近期大模型研究的焦點之一,除了位置插值方法之外,還有很多嘗試引起業界關注。

1、開發者kaiokendev在一篇技術博客中探索了一種將LLaMa上下文窗口擴展到8k的方法。

圖片

2、數據安全公司Soveren機器學習負責人Galina Alperovich在一篇文章中總結了擴展上下文窗口的6個技巧。

圖片

3、來自Mila、IBM等機構的團隊還在一篇論文中嘗試了在Transformer中完全去掉位置編碼的方法。

圖片

有需要的小伙伴可以點擊下方鏈接查看~

Meta論文:https://arxiv.org/abs/2306.15595

Extending Context is Hard…but not Impossiblehttps://kaiokendev.github.io/context

The Secret Sauce behind 100K context window in LLMshttps://blog.gopenai.com/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c

無位置編碼論文https://arxiv.org/abs/2305.19466

責任編輯:武曉燕 來源: 量子位
相關推薦

2023-08-24 15:57:41

模型文檔檢索

2023-06-30 09:49:23

模型Meta

2023-03-17 08:28:17

GPT-4AI

2023-05-19 10:16:27

AIGPT-4

2023-08-29 12:45:32

2024-01-08 12:47:02

代碼模型Mistral

2024-02-26 00:20:00

AI模型

2024-03-25 00:05:00

開源模型AI

2023-05-14 14:15:00

GPT-4AI

2023-11-17 18:06:15

2024-12-19 09:48:07

2023-12-07 06:51:18

AI模型

2025-06-18 16:42:38

2024-04-01 00:00:00

馬斯克Grok 1.5HumanEval

2024-04-12 17:41:28

GPT-4TurboClaude

2024-02-07 12:39:00

AI數據

2024-03-14 08:11:45

模型RoPELlama

2023-08-14 08:04:13

2024-06-03 14:24:00

2023-12-11 13:20:00

數據訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 蜜桃视频在线观看www社区 | 欧美精品久久久 | 999久久久久久久久6666 | 99久久国产综合精品麻豆 | 午夜成人在线视频 | 国产91av视频在线观看 | 欧美精品在线一区 | 日韩中文在线视频 | 久久精品国产一区二区电影 | 一区二区久久 | 三级特黄特色视频 | 欧美一区二区在线观看 | 国产精品久久久久久久 | 日中文字幕在线 | 成人在线一区二区 | 免费在线观看av网站 | www.日本国产 | 欧美日韩国产在线观看 | 精品视频一区二区三区在线观看 | 亚洲成人久久久 | 久久狠狠| 久久久久久成人 | 99精品国产一区二区三区 | 国产999精品久久久 日本视频一区二区三区 | 久优草| 伊人亚洲 | 羞羞视频免费观看 | 不卡一区二区在线观看 | 国产日韩欧美一区二区 | 亚洲精品电影在线 | 国产乱码精品一品二品 | 黄色亚洲网站 | 日日操视频 | 久久精品国产亚洲a | 日韩欧美不卡 | 国产精品1区| 精品乱码一区二区 | 大乳boobs巨大吃奶挤奶 | 欧美美女爱爱 | 日本久久福利 | 成人免费网视频 |