成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

幾何視角下的大語言模型推理

發布于 2024-7-19 11:00
瀏覽
0收藏

幾何視角下的大語言模型推理-AI.x社區

一、結論寫在前面

論文標題:Reasoning in Large Language Models: A Geometric Perspective

論文鏈接:??https://arxiv.org/pdf/2407.02678??

大語言模型在實際應用中的進步關鍵取決于其推理能力的提升。論文在此介紹了DNN和LLMs幾何學的一些方面,特別是展示了由MLP利用其分段線性公式引起的輸入空間劃分的重要性。DNN的適應性劃分在其逼近能力中起著巨大的作用。事實上,與傳統的樣條相比,MLP在其輸入空間中引起的區域是數據依賴的,因此是在訓練過程中確定的。論文展示了這種逼近與區域數量之間的相互作用如何影響LLMs逼近函數的能力。

論文的分析表明,這些圖的密度定義了輸入到MLP塊的內在維度。論文通過理論分析和玩具示例證明,更高的內在維度意味著LLM具有更大的表達能力。論文進一步提供了經驗證據,將這一幾何框架與旨在增強LLMs推理能力的方法的最新進展聯系起來。

?二、論文的簡單介紹

2.1 論文的背景?

大型語言模型(LLMs),如GPT-4 、Llama 3 ,在廣泛的任務上取得了令人印象深刻的性能。尋找更好的LLMs關鍵取決于這些模型的推理性能。然而,目前尚不清楚語言模型的哪些方面對于實現這一目標至關重要。目前,社區普遍認為推進推理的方法包括(i)增加模型規模(更大的模型導致更好的推理能力)和(ii)增加上下文長度,通過思維鏈、檢索增強生成或示例提示等方式,為LLM提供更多的輸入文本或標記。

盡管這些方法已經足夠,但它們僅代表了改進潛力的一部分途徑。此外,更長的輸入和更大的模型對應著實際應用場景中計算成本和推理延遲的增加。在這項工作中,論文采取了一種原則性的方法來理解并闡明大型語言模型(LLMs)的特性,這些特性有助于提升和改善推理能力。論文的研究利用了transformer層的幾何結構,這是LLMs的關鍵組成部分,并通過模擬以及Llama 3系列模型的實證證據來支持論文的觀點。

特別地,論文描述了與transformer層容量或表達能力相關的關鍵特性。論文表明,(i)自注意力或多頭注意力(MHA)模塊中token間交互的密度體現了后續多層感知機(MLP)層所能實現的函數表示復雜度,以及(ii)模型尺寸和上下文長度的增加促進了更高的注意力密度,從而改善了推理能力。論文的分析為提升推理能力、推進LLMs發展開辟了道路,同時加深了論文對模型及其行為的理解。論文注意到,論文伴隨的工作[11]在此工作中展示了通過LLM幾何視角分析RLHF獲得的毒性防護機制的脆弱性。

在這項工作中,論文特別感興趣的是理解LLM的幾何結構與其推理能力之間的關聯。此外,論文還在探究增加輸入序列長度以及注意力頭數量如何影響LLM的幾何結構。事實上,已有實證研究表明這些是提升LLMs推理能力的關鍵因素。

2.2 輸入空間劃分與表達能力

論文深入探討了支撐深度神經網絡(DNNs)基本方面的一個幾何直覺:DNN輸入空間的自適應劃分。這一過程導致了輸入空間內區域的形成,每個區域都與一個仿射映射相關聯,該映射描述了網絡如何處理該區域的輸入。然后,論文利用這一觀點與轉換器模塊中的多頭注意力(MHA)層相結合,為LLMs開發了一種新穎的幾何視角。這一視角使論文能夠假設模型大小和上下文長度在現代LLMs中的作用,并提出了一條通向改進推理能力的替代思想的路徑。    

2.2.1 深度神經網絡

論文描述深度神經網絡的連續分段仿射形式化,以闡明其誘導的局部線性映射概念。特別地,論文聚焦于從樣條幾何視角出發,通常用于變換器中的單隱藏層多層感知器(MLP)的簡單情況。隨后,論文通過模擬實驗直觀展示其逼近能力,強調自適應分區特性的重要性以及輸入空間維度的作用。

深度神經網絡的連續分段仿射形式化:采用非線性激活函數(如((leaky-)ReLU、絕對值和最大池化)的MLP的幾何特性已從連續分段線性算子的角度得到廣泛研究,導致輸入空間的分區。因此,定義為帶有參數Θ的f的DNN可以重寫為

幾何視角下的大語言模型推理-AI.x社區

分區、區域數量與函數逼近:對于輸入空間中的給定區間,DNN的逼近能力與該區間內的區域數量及其相關映射直接成正比。根據公式1中定義的DNN連續分段仿射特性,考慮兩種可能的逼近場景:(1)目標函數在給定區間內是線性的,此時單一區域已足夠;

幾何視角下的大語言模型推理-AI.x社區

圖1:MLP的連續分段仿射視圖。使用標準偏置(左)和零偏置(右)隨機初始化的一隱藏層MLP所誘導的輸入空間劃分的二維可視化    

為了近似目標函數,DNN可能需要:(i)在區間內函數是線性的,此時DNN僅需要調整其斜率和偏置;或者(ii)在區間內函數是非線性的,此時DNN需要多個區域來近似目標函數的曲率;區間內區域越多,函數近似效果越好。

在圖2中,論文驗證了上述說法,并在DNN中展示了這種現象的可視化。待近似的目標函數是一個簡單的正弦函數,輸入空間為[-2π, 2π]。首先,神經元數量越多,近似能力越強。特別是,只要有足夠的區域,DNN可以在輸入空間內近似任意復雜的函數。理論上,論文知道具有無限數量神經元的DNN是通用近似器,而幾何視圖提供了同一理論的不同視角。其次,每個區間內的近似誤差與該區間內DNN可用的區域數量直接成正比。最后,這些區域的定位是數據驅動的,盡管架構變化會引入偏置,DNN可以根據訓練數據的均勻性和大小在其輸入空間中增加或減少分區,以適應更多的曲率。

幾何視角下的大語言模型推理-AI.x社區

圖2:DNN近似與誘導的輸入空間區域數量。一個MLP對正弦函數的真實值與近似(頂部),該MLP在其輸入空間中誘導的關聯區域數量(中部),以及近似誤差(底部)。論文展示了具有50個神經元的1隱藏層MLP(左側)和具有500個神經元的MLP(右側)的結果。論文注意到,模型在DNN引入新區域時脫離其線性行為,每當MLP映射中發生方向變化時都會引入新區域。隨后,根據公式1,論文為模型創建的每個新區域獲得一個新的仿射映射,在區域數量較多的空間中進行更精細的近似,如具有500個神經元的更寬MLP所示。DNN的關鍵優勢在于它們能夠適應這些區域的定位并學習數據驅動的分區

增加神經元數量會增加區域數量,因此DNN的近似能力確實會提高。論文現在的問題是,是否存在另一種方法可以在不影響架構的情況下增加DNN的容量。特別是,論文研究了區域數量與輸入空間的內在維度之間的相互作用。在圖3中,論文展示了不同大小的1隱藏層MLP,區域數量隨內在維度呈指數級增長。    

接下來論文將利用MLP的幾何特性,即近似、表達能力和維度,結合多頭注意力層來理解LLMs中transformer模塊的幾何結構。特別是,論文提出了一個通過這些幾何概念理解LLMs的框架,從理論和實證兩個角度出發。

結合多頭部注意力層,以理解大型語言模型(LLMs)的幾何結構。特別是,論文提出一個框架,通過這些幾何特征來理解LLMs。圖3展示了區域數量隨輸入維度變化的上限,涉及1個隱藏層的多層感知機(MLP)在輸入空間內在維度上的影響(50、100和500個神經元)。論文觀察到,增加輸入空間的內在維度會增加區域數量。因此,對于給定數量的神經元,可以通過增加輸入空間的內在維度來人為增加區域數量。這對于理解為何通過多示例或思維鏈(CoT)增加提示規模能提升LLMs的推理能力是一個關鍵組成部分。這將成為第2.2小節以及第3節的核心要點。    

幾何視角下的大語言模型推理-AI.x社區

2.2.2 大語言模型

這里論文將解釋LLM的架構組件及其變體,這些變體有助于提升LLMs的表達能力。具體而言,論文將研究LLM誘導的分區對增加注意力頭數量以及上下文長度(作為輸入傳遞的token序列)的影響。為此,論文將利用[11]中的結果,表明隨著自注意力層內在維度的增加,LLM的表達能力也隨之增強。    

內在維度與多頭注意力圖密度:論文從定義因果語言模型中的transformer層開始,引入以下符號

幾何視角下的大語言模型推理-AI.x社區

從公式6可以看出,注意力層的輸出是一個右隨機矩陣,它定義了一個圖,其中圖的節點是序列中的標記,邊(權重)由注意力值定義。在表示圖的連通性水平時,論文通常會提到自注意力圖的密度,即有邊的標記數量。

在定理2.1中,論文明確地捕捉了如公式5所定義的多頭注意力層的輸出與每個單獨注意力層所誘導的維度之和驅動的內在維度之間的關系。

幾何視角下的大語言模型推理-AI.x社區

從公式 7 可以看出,內在維度可以通過以下兩種方式增加:(i)強化高度連接的注意力圖,或(ii)增加更多的注意力頭。接下來,論文將利用這一特性,并將其與大型語言模型(LLMs)的表達能力聯系起來。

內蘊維度 (Intrinsic Dimension,ID): 嵌入空間的內蘊維度指的是在保持其結構不變的情況下,描述該空間所需的最少參數數量 。內蘊維度估計方法通常依賴于構建基于相似性的圖。然而,在大型語言模型 (LLMs) 中,相似性圖以注意力值的形式直接可用。論文定義了一個軟性的內蘊維度概念,等同于定理 2.1 中的定義,即:    

幾何視角下的大語言模型推理-AI.x社區

直觀上,ID是指在定義第i^th 嵌入時,超過閾值的影響力token的數量。在實踐中,論文根據多個示例中注意力值的統計和分布來設置閾值(所有實驗中均采用 O.1)。

LLM 表達能力與內蘊維度:定理 2.1 具有重要意義,特別是圖 3 時。論文證明了:(i) 區域數量越多,DNN 的近似能力越強;(ii) 區域數量可以通過增加 MLP 輸入的內蘊維度,而不僅僅是增加神經元數量來增加。

從公式 2 到公式 5 以及定理 2.1 描述的 transformer 架構中,論文還知道 MLP 輸入的內蘊維度受注意力圖驅動。因此,注意力圖的密度越高,MLP 誘導的區域數量越多,從而其表達能力越強。

現在可以明確的是,通過以下兩種方式可以增強大型語言模型(LLM)的表達能力:(i)根據方程7的加性特性增加頭數,(ii)進行提示修改以增加注意力圖的密度。需要注意的是,這兩種方法在過去幾年中在多個方面已被廣泛采用。

在圖4中,論文提出重新使用論文的正弦函數玩具示例。具體來說,論文展示了由不同上下文長度和頭數的MLP引起的區域數量。論文考慮一個單層LLM,即嵌入、自注意,然后是1個隱藏層MLP。為了將一維時間維度編碼到更高維空間,論文將嵌入層視為“位置編碼”。具體地,每個時間箱t被映射到一個正弦波,其頻率取決于上下文長度和位置。論文觀察到,輸入空間中由MLP引起的區域數量隨著上下文長度和頭數的增加而增加。與子節2.1中的MLP示例類似,LLM的能力與區域數量相關,即,輸入空間中區域越密集,近似效果越好。

在圖5中,論文提供了關于上下文長度和注意力頭數對MLP引起的區域數量的更定量實驗。再次觀察到,為了增加區域數量從而提高LLM的近似能力,可以增加自注意力塊中的頭數或增加上下文長度。

現在可以清楚地看到,這些相關性是定理2.1以及圖3中展示的超平面排列結果的共同結果。也就是說,隨著內在維度空間的增加,超平面排列所誘導的區域數量呈指數級增長。在大型語言模型(LLMs)中,論文發現了這一點。    

幾何視角下的大語言模型推理-AI.x社區

圖4:LLM近似與誘導的輸入空間區域數量 - sin(t)(1000個時間區間)通過一個1塊LLM的近似,即嵌入 -> 注意力塊(如公式3所示) -> 1隱藏層MLP。論文展示了sin函數的近似結果以及MLP在輸入空間中誘導的區域數量,針對不同的頭數和上下文長度:(左上)上下文長度:10,頭數:1,(右上)上下文長度:10,頭數:10,(左下)上下文長度:100,頭數:1,(右下)上下文長度:100,頭數:10。論文觀察到,上下文長度和頭數均能增加MLP在輸入空間中覆蓋的區域數量,從而提升LLM的近似能力。這一結果與論文的幾何描述相吻合    

論文現在提出,利用這種幾何關系作為工具來增強LLM的表達能力,可以提高其推理能力。

2.3 實驗:增強LLM的表達能力確實提高了其推理能力

論文通過前述的幾何分析視角,探討LMs回答推理問題的能力。具體來說,論文探討MLP誘導的區域數量增加如何導致更好的推理能力。事實上,近似能力和泛化能力并非等同的概念。然而,尚未確定LLM的推理能力與其泛化能力是否相關。盡管

幾何視角下的大語言模型推理-AI.x社區

圖5:LLM輸入空間區域 - (左) 描述了LLM輸入空間中由MLP塊引起的區域數量,關于注意力頭數量和上下文長度的關系。(右) 放大左圖中的兩行,特別是針對幾個注意力頭:5、10。論文觀察到,增加注意力頭和上下文長度確實會增加區域數量,正如前文所述,這會導致更好的近似性質。需要注意的是,盡管改變注意力頭數量可能繁瑣且需要預訓練或微調,但可以無縫改變上下文長度。因此,有一種方法可以在不與模型權重交互的情況下提高LLM的近似能力

盡管這些概念仍然難以精確界定,論文將在本實驗部分重點探討內在維度,即表達能力,與推理能力之間的關系。

論文提出了兩個實驗來證明它們之間存在有趣的關聯。在論文的實驗中,論文使用了GSM8K-Zero數據集來評估模型在不同少樣本場景下生成正確答案的性能,從0到10個樣本不等。具體來說,對于每個樣本和每個1到10樣本條件,論文考察了模型在不同層與O樣本基線相比的內在維度變化。此外,論文還評估了這些變化如何影響模型響應的質量。在圖6中報告的第一個實驗中,少樣本示例是從GSM8K-Zero訓練集中隨機抽取的問題-答案對。在圖7中報告的第二個實驗中,這些少樣本示例是隨機token。    

從這些實驗中,論文得出以下觀察結果:(i)在當前問題前加上任何類型的標記確實會增加第一層的內在維度。事實上,第一層的注意力圖表現為對標記的均勻分布,然而,這種增加并不一定與模型的推理能力相關,正如隨機標記實驗所示(圖7)。(ii)論文觀察到,當前置標記導致模型最后一層的內在維度增加時,大型語言模型(LLM)的推理能力顯著提升。這種提升體現在更高比例的問題被正確回答上。

在圖8中,論文展示了每一層相對于0的1到10次采樣內在維度的變化。論文清楚地看到,無論模型的大小如何,最后一層的內在維度對于響應的正確性具有高度信息量。盡管第一層的內在維度在輸出是否正確時似乎有很大變化,但這種方差過大,以至于不顯著且不可靠。

這些實驗突顯了模型表達能力與其推理能力之間的關聯。如第2節所述,增強這種表達能力可以通過增加輸入到MLP塊的維度來實現。這種關系表明,更復雜的輸入有助于提升模型的推理性能。

在LLMs中,向提示中添加上下文可以增加信息密度(ID)(取決于上下文與問題的相關性),從而增加由多層感知器(MLP)產生的分段仿射映射的數量。需要注意的是,對于LLM,自我注意力頭輸出的每個token都由MLP獨立轉換。因此,具有更精細分區的MLP將為每個token提供更自適應的仿射映射。從近似的角度考慮,由于token被線性組合以產生它們的預測,MLP獨立應用于每個token的近似誤差很容易累積,因此,LLamu3 8B Lama3 70B周圍的劃分越精確,    

幾何視角下的大語言模型推理-AI.x社區

圖6:推理與內在維度增加。關于相對內在維度變化的正確響應百分比,即推理或提取,針對Llama3 8B(左)和70B(右)Instruct模型。每個直方圖上方標注了實際正確響應的數量和每個區間關聯的示例數量以供參考。論文將GSM8K-Zero數據集中響應錯誤的輸入基礎提示示例(約300個樣本)及其前綴變體(使用1到10個固定的少量示例)作為輸入。對于每個輸入,論文收集(i)輸入相對于基礎提示的內在維度變化,其中內在維度在最后一層計算,以及(ii)LLM生成輸出的正確性。論文通過提示Mixtral 8 x 22B Instruct模型來評估生成的響應。論文觀察到,內在維度變化越大,從LLM獲得正確響應的概率越高    

幾何視角下的大語言模型推理-AI.x社區

圖7:隨機標記的消融研究。關于相對ID變化的正確響應百分比,即推理或提取,針對Llama3 8B Instruct模型與隨機(左)和打亂的少量示例文本(右)。與圖6類似,論文將GSM8K-Zero數據集中帶有錯誤響應的輸入基礎提示示例(約300個樣本)及其通過隨機采樣標記或少量示例中排列文本獲得的預置變體作為考慮對象。論文觀察到,示例中的ID增加有限(< 60),甚至在隨機標記情況下為負。因此,獲得正確響應的百分比達到飽和,平均約為40%,這與8B模型和少量示例的情況相似

這些標記,預測中的近似誤差越小。一個未在此處及大多數工作中探討的方面是,這些概念如何與LLM的泛化能力(如果有的話)相關聯。

在LLM中,將額外上下文納入提示可以增加模型的內在維度,特別是當上下文與問題緊密相關時。這種ID的增加導致由MLP產生的分段仿射映射數量增加。值得注意的是,在LLM中,由自注意力機制輸出的每個標記都獨立地由ML進行變換。因此,具有更精細分區方案的MLP將對每個標記應用更適應性的仿射映射。    

幾何視角下的大語言模型推理-AI.x社區

從近似的角度來看,由于模型的預測是通過線性組合這些嵌入的token形成的,近似誤差可以在token之間累積。因此,在token周圍進行更精細的分區可以減少最終預測中的近似誤差。

這項工作以及大多數相關研究中一個尚未深入探討的有趣方面是,這些對內在維度和仿射映射分區的幾何洞察如何與 LLM 的泛化能力相關聯。這種聯系可以為這些模型在各種環境中的魯棒性和適應性提供有價值的見解。

本文轉載自 ??AI帝國??,作者: 無影寺

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产福利资源在线 | 国产在线看片 | 日韩高清中文字幕 | 99精品视频一区二区三区 | 欧美精品一区二区三区在线播放 | 欧美美女爱爱 | 操操操日日日 | 精品综合 | 国产美女精品视频免费观看 | 一级黄色短片 | 日韩欧美在线观看 | 天天干狠狠操 | 久久综合九色综合欧美狠狠 | 国产japanhdxxxx麻豆 | 欧美激情一区二区 | 精品国产一区二区三区性色av | 亚洲 欧美 激情 另类 校园 | 在线视频 中文字幕 | 国产日韩欧美激情 | 国产乱码一二三区精品 | 91av国产在线视频 | 天天躁日日躁aaaa视频 | 精品一区二区三区中文字幕 | 国产在线视频一区 | 午夜在线| 亚州精品天堂中文字幕 | 嫩草网| 欧美男人天堂 | 在线成人av | 天堂网中文 | 国产亚洲欧美在线 | 国产高清美女一级a毛片久久w | 欧美综合国产精品久久丁香 | 国产亚洲精品美女久久久久久久久久 | 亚洲国产欧美在线 | 日韩av在线一区 | 精品在线一区二区三区 | 亚洲一区二区三区在线 | 日韩一区二区三区视频 | chengrenzaixian | 亚洲a视频 |