成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

4k窗口長度就能讀長文,陳丹琦高徒聯(lián)手Meta推出大模型記憶力增強(qiáng)新方法

人工智能 新聞
研究團(tuán)隊(duì)創(chuàng)建了一種名為MemWalker的樹形記憶策略,可以突破模型本身的窗口長度限制。

只有4k窗口長度的大模型,也能閱讀大段文本了!

普林斯頓的華人博士生的一項(xiàng)最新成果,成功“突破”了大模型窗口長度的限制。

不僅能回答各種問題,而且整個實(shí)現(xiàn)的過程全靠prompt就能完成,不需要任何的額外訓(xùn)練

圖片

研究團(tuán)隊(duì)創(chuàng)建了一種名為MemWalker的樹形記憶策略,可以突破模型本身的窗口長度限制。

測試過程中,模型閱讀的最長文本包含了1.2萬+token,成績相比LongChat大幅提高。

圖片

相比于相似的TreeIndex,MemWalker可以進(jìn)行推理并回答任何問題,而不是只做概括。

MemWalker的研發(fā)利用到了“分而治之”的思想,就此有網(wǎng)友這樣評論:

每次我們讓大模型的思考過程更像人類,它們的表現(xiàn)就會越好

圖片

那么,具體什么是樹形記憶策略,又是如何用有限的窗口長度閱讀長文本的呢?

一個窗口不夠,就多開幾個

模型上,MemWalker使用Stable Beluga 2作為基本模型,它是Llama 2-70B經(jīng)過指令調(diào)優(yōu)得到的。

在選擇該模型之前,開發(fā)者對比了其與原始Llama 2的表現(xiàn),并最終確定選用。

圖片

就像MemWalker這個名字一樣,它的工作過程就像記憶流在行走。

具體來看,大致分為記憶樹構(gòu)建導(dǎo)航檢索兩個階段。

圖片

構(gòu)建記憶樹時,長文本會被分割成多個小段(seg1-6),并由大模型分別針對每一段做出總結(jié),得到“葉子節(jié)點(diǎn)(leaf nodes,summ1-6)

分割時,每段的長度越長,層級就會越少,有利于后續(xù)檢索,但其本身過長又會導(dǎo)致準(zhǔn)確度下降,因此需要綜合考慮確定每段長度。

作者認(rèn)為,每一段合理的長度是500-2000token,而實(shí)驗(yàn)中使用的為1000token。

圖片

然后,模型遞歸地對這些葉子節(jié)點(diǎn)的內(nèi)容再次進(jìn)行總結(jié),形成“非葉節(jié)點(diǎn)(non-leaf nodes,summ7-8)

二者的另一個區(qū)別是,葉子節(jié)點(diǎn)包含了原始信息,非葉節(jié)點(diǎn)只有概括得到的二級信息

作用上,非葉節(jié)點(diǎn)用于導(dǎo)航定位答案所在的葉子節(jié)點(diǎn),而葉子節(jié)點(diǎn)則用于推理出答案。

其中的非葉節(jié)點(diǎn)可以有多個層級,模型逐步進(jìn)行總結(jié)概括,直到得到“根節(jié)點(diǎn)”,形成完整的樹形結(jié)構(gòu)。

記憶樹建立完畢后,就可以進(jìn)入導(dǎo)航檢索階段來生成答案了。

圖片

這一過程中,模型從根節(jié)點(diǎn)開始,逐一讀取下級子節(jié)點(diǎn)的內(nèi)容,然后推理出應(yīng)該進(jìn)入這個節(jié)點(diǎn)還是返回。

決定進(jìn)入這個節(jié)點(diǎn)之后,再次重復(fù)這樣的過程,直到讀取到葉節(jié)點(diǎn)。如果葉節(jié)點(diǎn)的內(nèi)容合適則生成答案,否則返回。

為了確保答案的完整性,這個過程的結(jié)束條件并非發(fā)現(xiàn)了一個合適的葉節(jié)點(diǎn),而是模型認(rèn)為得到了完整答案,或者達(dá)到最大步數(shù)。

導(dǎo)航過程中,如果模型發(fā)現(xiàn)進(jìn)入了錯誤的路徑,還可以導(dǎo)航回退。

此外,MemWalker中還引入了工作記憶機(jī)制來來提高準(zhǔn)確度。

圖片

該機(jī)制會將已經(jīng)訪問過的節(jié)點(diǎn)內(nèi)容加入到當(dāng)前內(nèi)容的上下文中。

當(dāng)模型進(jìn)入一個新節(jié)點(diǎn)時,當(dāng)前節(jié)點(diǎn)內(nèi)容都會被加入到記憶中。

這一機(jī)制讓模型在每一步都可以利用訪問過的節(jié)點(diǎn)內(nèi)容,避免重要信息的丟失。

實(shí)驗(yàn)結(jié)果顯示,工作記憶機(jī)制可以將MemWalker的準(zhǔn)確率提升10%左右。

而且,上面所說的過程只依靠prompt就能完成,不需要進(jìn)行額外的訓(xùn)練。

圖片

理論上,只要有足夠的算力,MemWalker可以閱讀無限長的文本。

不過,記憶樹構(gòu)建時的時間和空間復(fù)雜度隨著文本長度的增長是呈指數(shù)型的。

作者簡介

論文第一作者是普林斯頓大學(xué)NLP實(shí)驗(yàn)室華人博士生Howard Chen。

清華姚班校友陳丹琦是Howard的導(dǎo)師,她今年在ACL上的學(xué)術(shù)報告也與搜索有關(guān)。

這項(xiàng)成果是Howard在Meta實(shí)習(xí)期間完成的,Meta AI實(shí)驗(yàn)室的Ramakanth Pasunuru,Jason Weston和Asli Celikyilmaz三位學(xué)者也參與了本項(xiàng)目。

論文地址:https://arxiv.org/abs/2310.05029

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-07-26 09:56:48

模型AI

2023-09-25 10:04:37

模型AI

2024-08-23 11:30:18

2025-01-16 09:00:00

2017-09-10 14:29:03

眼力

2024-04-17 12:55:05

谷歌模型注意力

2024-02-21 12:10:00

模型數(shù)據(jù)

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2024-01-29 12:49:00

AI模型

2023-10-12 12:13:16

AI訓(xùn)練

2015-07-20 11:49:56

Wi-Fi

2024-11-04 15:30:00

機(jī)器人訓(xùn)練

2025-01-08 13:05:56

2015-08-21 09:14:40

大數(shù)據(jù)

2010-04-01 09:30:57

2024-07-10 12:42:53

2023-07-11 10:14:52

2025-06-25 09:15:38

AI模型LLM

2022-02-21 17:22:35

模型

2019-07-12 13:50:36

物聯(lián)網(wǎng)大數(shù)據(jù)安全
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 蜜臀网 | 日本高清在线一区 | 日韩中文字幕视频 | 成人毛片在线观看 | 视频三区 | 精品亚洲一区二区三区四区五区 | 国产色99精品9i | 国产99精品 | 韩日一区二区 | 国产在线精品一区二区三区 | 日韩一区欧美一区 | 成人av一区 | 国产高清在线视频 | 97av视频在线 | 午夜激情视频 | 久久久久久高潮国产精品视 | 日韩欧美在线播放 | 久在线观看 | 欧美精品a∨在线观看不卡 欧美日韩中文字幕在线播放 | 真人女人一级毛片免费播放 | 国产乱码精品一品二品 | 成人福利视频网站 | 国产在线看片 | 99精品99| 久久久精品一区 | 日韩电影一区二区三区 | 亚洲精品电影在线观看 | 色婷婷av一区二区三区软件 | 天天亚洲| 国产精品久久久亚洲 | 久久伊人一区 | 久久成人一区二区三区 | 视频一区二区在线观看 | 成人一区二区三区视频 | 日日摸日日碰夜夜爽2015电影 | 在线高清免费观看视频 | 欧美男人天堂 | 日韩毛片中文字幕 | 欧美精品一二三区 | 一级免费毛片 | 日韩精品成人一区二区三区视频 |