成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

語(yǔ)言模型是如何感知時(shí)間的?「時(shí)間向量」了解一下

人工智能 新聞
最近,來(lái)自華盛頓大學(xué)和艾倫人工智能研究所的一項(xiàng)研究提供了一些見(jiàn)解。他們的實(shí)驗(yàn)結(jié)果表明,時(shí)間變化在一定程度上被編碼在微調(diào)模型的權(quán)重空間中,并且權(quán)重插值可以幫助自定義語(yǔ)言模型以適應(yīng)新的時(shí)間段。

語(yǔ)言模型究竟是如何感知時(shí)間的?如何利用語(yǔ)言模型對(duì)時(shí)間的感知來(lái)更好地控制輸出甚至了解我們的大腦?最近,來(lái)自華盛頓大學(xué)和艾倫人工智能研究所的一項(xiàng)研究提供了一些見(jiàn)解。他們的實(shí)驗(yàn)結(jié)果表明,時(shí)間變化在一定程度上被編碼在微調(diào)模型的權(quán)重空間中,并且權(quán)重插值可以幫助自定義語(yǔ)言模型以適應(yīng)新的時(shí)間段。

圖片

具體來(lái)說(shuō),這篇論文提出了時(shí)間向量(time vectors)的概念,這是一種讓語(yǔ)言模型適應(yīng)新時(shí)間段的簡(jiǎn)單方法。論文發(fā)布后立即引起了一些研究者的注意。新加坡海事智能公司 Greywing 聯(lián)合創(chuàng)始人、CTO Hrishi Olickel 稱贊這篇論文是他今年讀過(guò)最好的論文之一。

圖片

他將本文的核心步驟概括為:

  1. 獲取 Twitter 和新聞數(shù)據(jù),并按年份和月份進(jìn)行分類;
  2. 選擇一個(gè) LLM,并按月或按年對(duì)其副本分別進(jìn)行微調(diào),更新模型權(quán)重;
  3. 從原始 LLM 的權(quán)重中分別減去微調(diào)后模型的權(quán)重,得到「時(shí)間向量」。

權(quán)重差值此時(shí)可以作為一種向量,用于探索模型在這段時(shí)間內(nèi)學(xué)到了什么。那么具體來(lái)說(shuō)能用這個(gè)向量做些什么呢?

圖片

首先,可以檢查微調(diào)是否有效 —— 從結(jié)果來(lái)說(shuō)微調(diào)確實(shí)有效。模型困惑度和 F1 值強(qiáng)烈表明,當(dāng)輸入的數(shù)據(jù)符合微調(diào)后的時(shí)間時(shí),任務(wù)性能有相應(yīng)的提高!

圖片

同樣有趣的是,隨著訓(xùn)練數(shù)據(jù)時(shí)間的推移,模型的性能呈線性下降。這一點(diǎn)在月份粒度和年份粒度上的結(jié)果都是如此。同時(shí)在特定月份訓(xùn)練的模型在同年其他某幾個(gè)月份的表現(xiàn)也會(huì)相對(duì)較好(如下圖中的對(duì)角線條紋現(xiàn)象)。

圖片

Hrishi Olickel 猜想這是由于語(yǔ)義上存在的相似性(相同的月份名稱),不是因?yàn)槟P彤a(chǎn)生了深層次的理解。并且如果能研究一下不同模型對(duì)應(yīng)層之間的差值有多大,也許就能知道這種影響有多深。同樣有趣的是向量的組織方式。

Hrishi Olickel 認(rèn)為能夠提出一個(gè)存在內(nèi)部時(shí)間的模型,是相當(dāng)驚人的。人類到現(xiàn)在都不知道時(shí)間是如何在大腦中工作的,但如果我們是語(yǔ)言驅(qū)動(dòng)的學(xué)習(xí)者(如 LLM),而「意識(shí)」是一個(gè)內(nèi)心里循環(huán)啟動(dòng)的「進(jìn)程」,那么人和 LLM 可能會(huì)有相似之處。

更有趣的地方在于,有了這些向量之后,就可以在它們之間進(jìn)行插值,從而在沒(méi)有進(jìn)行微調(diào)的年份也獲得較好的性能!向量之間的插值是簡(jiǎn)單的算術(shù)運(yùn)算 —— 系數(shù)加法。

圖片

圖片

與之前的基于任務(wù)進(jìn)行訓(xùn)練得到的模型權(quán)重向量一樣,這種插值方法可能是在找出真正的遷移學(xué)習(xí)之前,可行的訓(xùn)練方法之一。如果能從微調(diào)中進(jìn)行插值,就能對(duì)模型輸出進(jìn)行精細(xì)且低成本的控制,省去微調(diào)的成本和時(shí)間。

基于此,Hrishi Olickel 提出了幾個(gè)猜想:

  • 這項(xiàng)工作是在標(biāo)準(zhǔn)預(yù)訓(xùn)練模型(三種規(guī)模的 T5)上完成的。如果在開(kāi)始訓(xùn)練模型時(shí)設(shè)置一些約束條件,強(qiáng)制對(duì)隱空間中的概念和時(shí)間進(jìn)行更好的聚類,那么這種方法很可能會(huì)帶來(lái)更強(qiáng)的結(jié)果。
  • 另一個(gè)可能會(huì)有趣的探索是通過(guò)觀察模型的激活情況來(lái)了解對(duì)應(yīng)的時(shí)間段。
  • 論文中依靠模型從 prompt 中「找出」時(shí)間和概念,并激活正確的部分。如果加入一些模塊也許會(huì)有意想不到的效果,比如類似于 MoE 風(fēng)格的路由。路由經(jīng)過(guò)訓(xùn)練后,可以在同一模型的不同微調(diào)版本之間進(jìn)行 token-to-token 的轉(zhuǎn)換。

Hrishi Olickel 認(rèn)為這個(gè)章節(jié)非常有趣。從這段文字中不能確定他們的意思是否是交換權(quán)重時(shí)只交換插值,如果是并且能奏效,那就太棒了。

Hrishi Olickel 表示,對(duì)人工智能(至少是基于語(yǔ)言模型的人工智能)的新理解來(lái)自于我們能夠?qū)崟r(shí)編輯和利用這些模型權(quán)重的能力 —— 他強(qiáng)烈懷疑(或希望)其中一些能力將幫助我們理解人類的大腦。 

以下是論文的具體內(nèi)容。

論文概覽

時(shí)間變化是語(yǔ)言的一個(gè)基本特征。正如本文第 3 章中所提到的,時(shí)間變化在語(yǔ)言模型開(kāi)發(fā)中表現(xiàn)為時(shí)間錯(cuò)位(temporal misalignment),即訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的時(shí)間偏差會(huì)導(dǎo)致模型在時(shí)間段不同的情況下性能大幅下降。這就需要采用適應(yīng)技術(shù),根據(jù)需要定制特定時(shí)間段的模型。然而,由于時(shí)間尺度眾多,而且可能無(wú)法獲得目標(biāo)時(shí)間段的數(shù)據(jù),因此設(shè)計(jì)此類技術(shù)十分困難。

最近的研究表明,神經(jīng)網(wǎng)絡(luò)的行為可以通過(guò)微調(diào)模型參數(shù)之間的閉式插值進(jìn)行編輯。本文證明了權(quán)重空間的插值也可用于低成本地編輯語(yǔ)言模型,創(chuàng)造模型在不同時(shí)期的行為。

在第 4 章中,本文引入了時(shí)間向量,作為任務(wù)向量的擴(kuò)展(參見(jiàn)論文「Editing Models with Task Arithmetic」)。即在單個(gè)時(shí)間段的文本上對(duì)預(yù)訓(xùn)練的語(yǔ)言模型進(jìn)行微調(diào)后,減去原預(yù)訓(xùn)練模型的權(quán)重,得到一個(gè)新向量。這個(gè)向量代表了權(quán)重空間的移動(dòng)方向,可以提高模型在處理目標(biāo)時(shí)間段文本時(shí)的性能。

在第 2 章中,本文利用按時(shí)間組織的數(shù)據(jù)集分析時(shí)間向量的結(jié)構(gòu),用于語(yǔ)言建模、分類和總結(jié)。研究結(jié)果一致表明,時(shí)間向量直觀地分布在一個(gè)流形上;在時(shí)間上更接近的年份或月份產(chǎn)生的時(shí)間向量在權(quán)重空間上也更接近。同樣,在 4.2 節(jié)中,本文還表明,年度和月度中的時(shí)間退化問(wèn)題與時(shí)間向量之間的角度密切相關(guān)。

本文利用這種時(shí)間向量結(jié)構(gòu)來(lái)引導(dǎo)模型,使其更好地覆蓋新的時(shí)間段的數(shù)據(jù)。通過(guò)在兩個(gè)時(shí)間向量之間進(jìn)行插值,可以產(chǎn)生新的向量,這些向量應(yīng)用到預(yù)訓(xùn)練模型時(shí),可以提高模型在間隔月份或年份中的性能(第 4.3 節(jié))。該結(jié)構(gòu)還可用于跨時(shí)間段泛化特定任務(wù)模型,并使用專門用于未標(biāo)記數(shù)據(jù)的類似時(shí)間向量(第 4.4 節(jié))。

本文的研究結(jié)果表明,微調(diào)模型的權(quán)重空間在一定程度上對(duì)時(shí)間變化進(jìn)行了編碼,權(quán)重插值可以幫助定制語(yǔ)言模型以適應(yīng)新的時(shí)間段。本文作者開(kāi)源了論文的代碼、數(shù)據(jù)和超過(guò) 500 個(gè)根據(jù)特定時(shí)間段微調(diào)的模型。

多時(shí)間尺度上的時(shí)間錯(cuò)位

以年為單位的模型線性性能退化

之前關(guān)于時(shí)間錯(cuò)位的研究表明,模型會(huì)隨著時(shí)間逐年退化。

為了證實(shí)這些結(jié)果,本文在每個(gè)數(shù)據(jù)集的每個(gè)年度分段上對(duì) T5-small、T5-large 和 T5-3b 進(jìn)行了微調(diào)。然后,在測(cè)試數(shù)據(jù)的每個(gè)其他時(shí)間分段上對(duì)這些經(jīng)過(guò)調(diào)整的模型進(jìn)行評(píng)估。

圖 2 中以年為單位展示了時(shí)間錯(cuò)位熱圖,以及與年平均值相比的困惑度變化百分比(避免固有的年度性能差異)。與之前的研究結(jié)果一致,本文觀察到每個(gè)任務(wù)中都存在著線性退化的特點(diǎn),無(wú)論模型的大小(更多詳情請(qǐng)參見(jiàn)表 4)。與 早先研究結(jié)果一樣,有些任務(wù)(如政治派別分類)的退化比其他任務(wù)更明顯。原文附錄中的 §A.2 中會(huì)對(duì)這些差異進(jìn)行量化。

圖片

以月為單位的模型非線性性能退化

接下來(lái),本文介紹了按月為單位的時(shí)間錯(cuò)位問(wèn)題。這個(gè)問(wèn)題尚未得到探討。論文作者在 2012-2016 年間的 WMT 數(shù)據(jù)集上,按月份分段,并訓(xùn)練了 T5-small,從而得到了 58 個(gè)經(jīng)過(guò)月份分類的模型。然后,在這些按月拆分的多個(gè)模型上,總共進(jìn)行了 3,364 次驗(yàn)證實(shí)驗(yàn)。

如圖 3 所示,在 WMT 數(shù)據(jù)集的特定月份上對(duì)模型進(jìn)行微調(diào)和評(píng)估,可以發(fā)現(xiàn)時(shí)間錯(cuò)位的非線性模式,與每年的月份周期相對(duì)應(yīng)。每隔 12 個(gè)月出現(xiàn)的平行于對(duì)角線的條紋可以捕捉到這種模式,這表明特定月份的模型在其他年份的相同月份往往表現(xiàn)更好。本文在附錄圖 12 中量化了這些困惑度差異。還在 §A.4 中總結(jié)了線上訓(xùn)練設(shè)置中的模型退化模式。 

基于時(shí)間向量的時(shí)間自適應(yīng)

時(shí)間向量相似度與時(shí)間退化的相關(guān)性

本文在圖 4 中用 UMAP 對(duì)時(shí)間向量進(jìn)行了可視化,這表明在權(quán)重空間中更接近的時(shí)間向量在時(shí)間上也更接近。為了驗(yàn)證這一假設(shè),本文測(cè)量了在不同時(shí)間段訓(xùn)練的每對(duì)時(shí)間向量的模型權(quán)重之間的余弦相似度(見(jiàn)附錄第 A.1 節(jié))。

本文的結(jié)果顯示,這一相似度指標(biāo)和性能(圖 11)隨著時(shí)間的推移,存在相似的衰減。

圖片

表 1 顯示,余弦相似度與不同年份相對(duì)性能變化之間的相關(guān)性在 WMT 語(yǔ)言建模中最高。同時(shí),這種相關(guān)性在不同規(guī)模的 T5 中也基本相似,在 WMT LM 中,T5-small 的得分高于 T5-large 和 T5-3b,且絕對(duì)值均不低于 0.6。

圖片

這種關(guān)系也延伸到按月劃分的尺度下。在兩兩月度之間, WMT 時(shí)間向量的余弦相似度中可以看到周期性條紋(見(jiàn)附圖 9)。與平均值(圖 3)和余弦相似性矩陣(圖 9)相比,月度性能下降呈負(fù)相關(guān)(Pearson r = -0.667; p < 10-16)。附錄 A.5 中分析了整個(gè)在線訓(xùn)練過(guò)程中單年時(shí)間向量的余弦相似性。

這些結(jié)果表明,時(shí)間向量的組織方式可以預(yù)測(cè)其在相應(yīng)時(shí)間段的表現(xiàn)。接下來(lái)將探討如何利用這種結(jié)構(gòu),通過(guò)時(shí)間向量之間的插值來(lái)提高新時(shí)間段的性能。

對(duì)中間時(shí)間進(jìn)行插值

存檔問(wèn)題或采樣率低會(huì)導(dǎo)致數(shù)據(jù)集在最新和最舊示例之間出現(xiàn)間隙。在沒(méi)有數(shù)據(jù)的情況下,由于時(shí)間上的錯(cuò)位,預(yù)計(jì)模型在這些 "間隙" 時(shí)間上的表現(xiàn)會(huì)更差。在本節(jié)中,可以發(fā)現(xiàn)通過(guò)對(duì)最新和最舊時(shí)間的模型進(jìn)行微調(diào),可以更好地讓模型適應(yīng)這些時(shí)間段。

方法 

對(duì)于兩個(gè)時(shí)間矢量 τ_j , τ_k, 計(jì)算它們的插值圖片。本節(jié)在最早年份時(shí)間向量 τ_0 和最晚年份時(shí)間向量 τ_n 之間進(jìn)行內(nèi)插,并對(duì)每個(gè) α∈[0.1, 0.2, ..., 1.0] 的時(shí)間 t_0, ..., t_n 進(jìn)行驗(yàn)證。

結(jié)果

如圖 5 所示,在 WMT LM 和 PoliAff 任務(wù)中,在起始年和結(jié)束年微調(diào)模型之間進(jìn)行內(nèi)插可以提高中間年份的性能。一般來(lái)說(shuō),中間年份(WMT LM 為 2014 年,PoliAff 為 2017 年)的改進(jìn)幅度最大,而在更接近起始和結(jié)束時(shí)間的年份,改進(jìn)幅度則會(huì)減小。不同設(shè)置下的改進(jìn)模式也不盡相同,與 WMT LM 相比,PoliAff 在 α = 1.0 和 0.0 附近的性能變化更為平緩,而 NewsSum 在不同 α 之間的改進(jìn)與驗(yàn)證年份之間的性能差異相比微乎其微。表 2 量化了這些變化,顯示插值法縮小了時(shí)間對(duì)齊模型和錯(cuò)位模型之間的差距。PoliAff 的改進(jìn)尤為顯著,僅平均值就提高了近 8 個(gè) macro-F1 百分點(diǎn)。

圖片

圖 6 顯示,這些結(jié)果擴(kuò)展到按月劃分的 WMT LM 后;可以在一年內(nèi) 1 月和 12 月確定的時(shí)間向量之間進(jìn)行插值,以提高這幾個(gè)月的模型表現(xiàn)。每個(gè)月的最佳插值遵循一個(gè)直觀的模式,1 月份模型的百分比越高,會(huì)導(dǎo)致前幾個(gè)月的性能更好,反之亦然。 

圖片

生成未來(lái)的時(shí)間模型

標(biāo)注數(shù)據(jù)集創(chuàng)建于過(guò)去,因此,依賴監(jiān)督進(jìn)行微調(diào)的語(yǔ)言模型很快就會(huì)過(guò)時(shí)。更新這些模型的成本可能很高,需要進(jìn)行額外的微調(diào),還需要從更多最新的文本中創(chuàng)建標(biāo)注數(shù)據(jù)集。本節(jié)將介紹一種新技術(shù),使用任務(wù)類比算法,將在源時(shí)間段 j 上微調(diào)過(guò)的任務(wù)模型,更新至目標(biāo)時(shí)間段 k,并且只包含 j 中未標(biāo)記數(shù)據(jù)。 

方法 

給定語(yǔ)言模型,其權(quán)重圖片圖片是根據(jù) j、k 時(shí)間段的未標(biāo)注文本微調(diào)的,而任務(wù)特定模型的權(quán)重 θ_j 是根據(jù) j 時(shí)間段的標(biāo)注數(shù)據(jù)微調(diào)的,對(duì)向量進(jìn)行如下運(yùn)算:

本文在每個(gè)目標(biāo)時(shí)間 t_k 上驗(yàn)證估計(jì)的 θ_k,遍歷 α_1 ∈ [0.6, 0.8, . . 2.2]、α_2、α_3 ∈ [0.1, . . 0.6] 的所有組合,并報(bào)告與原始模型 θ_j 相比的最佳結(jié)果。本節(jié)使用 WMT LM 和 Twitter LM 時(shí)間向量,分別將 2012 年的 NewsSum 模型更新為 2013-2016 年,將 2015 年的 PoliAff 模型更新為 2016-2020 年。

結(jié)果 

任務(wù)類比算法提高了 PoliAff 和 NewsSum 任務(wù)在未來(lái)年份的性能。圖 7 顯示,隨著目標(biāo)年份和起始年份的錯(cuò)位越來(lái)越大,與起始年份的微調(diào)相比,改進(jìn)幅度也越來(lái)越大。模型大小也會(huì)影響性能,T5-large 和 T5-3b 的改進(jìn)幅度更大。在 PoliAff 中,T5- small 與基線相比沒(méi)有改善,而 T5-large 任務(wù)類比在 2016 和 2017 年的表現(xiàn)比基線差,在 2019 和 2020 年才有所改善。奇怪的是,作者發(fā)現(xiàn)只是縮放 α_1 也能提高模型完成未來(lái)幾年任務(wù)的性能。附錄 A.6 中報(bào)告了 α 消減和其他兩個(gè)分類任務(wù)的結(jié)果。在這些任務(wù)中,研究者觀察到的結(jié)果大多相似,但也有因任務(wù)而異的不一致之處。

圖片

更多細(xì)節(jié)請(qǐng)參見(jiàn)原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-08-22 12:31:05

2019-03-11 14:33:21

Redis內(nèi)存模型數(shù)據(jù)庫(kù)

2019-02-20 14:16:43

2011-10-12 11:07:12

iCloudiOS5蘋果

2020-02-10 14:26:10

GitHub代碼倉(cāng)庫(kù)

2022-03-24 13:36:18

Java悲觀鎖樂(lè)觀鎖

2020-12-10 08:44:35

WebSocket輪詢Comet

2020-03-01 17:53:38

Excel大數(shù)據(jù)微軟

2024-04-11 12:19:01

Rust數(shù)據(jù)類型

2018-06-05 17:40:36

人工智能語(yǔ)音識(shí)別

2020-08-27 15:35:01

存儲(chǔ)

2018-04-25 06:46:52

2023-03-02 08:00:55

包管理工具pnpm 包

2021-11-09 08:57:13

元宇宙VR平行時(shí)空

2022-03-07 06:34:22

CQRS數(shù)據(jù)庫(kù)數(shù)據(jù)模型

2023-07-11 09:51:04

訓(xùn)練模型

2018-07-17 14:42:50

2023-11-18 09:09:08

GNUBSD協(xié)議

2024-02-28 18:22:13

AI處理器

2019-08-07 15:42:14

區(qū)塊鏈區(qū)塊鏈技術(shù)開(kāi)發(fā)言語(yǔ)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 五月婷婷在线视频 | 麻豆国产一区二区三区四区 | 免费成人国产 | 久久机热| 精品婷婷 | 免费毛片在线 | 日韩中出| 91麻豆精品一区二区三区 | 欧美中文字幕一区二区三区 | 欧美精品一区久久 | 中文字幕精品一区 | 男人的天堂久久 | 黄色片大全在线观看 | 激情自拍偷拍 | 久草免费在线视频 | 黑人成人网 | a毛片| 毛片视频免费观看 | 欧美一区二区三区一在线观看 | 亚洲电影免费 | 国产精品视频免费观看 | 天堂久久天堂综合色 | 欧美一区不卡 | 欧美在线精品一区 | 免费成人午夜 | 亚洲人在线播放 | 久久天天综合 | 2023亚洲天堂| 欧美一级免费看 | 色综合久久天天综合网 | 欧美中文字幕一区二区三区亚洲 | 性色网站 | 天堂网av在线 | 亚洲精品国产成人 | 激情五月婷婷丁香 | 婷婷色国产偷v国产偷v小说 | 国产女人第一次做爰毛片 | 久久久久国产一区二区三区 | 国产免费自拍 | 99久久精品免费 | 男人的天堂在线视频 |