大模型的嵌入——Embedding與向量——Ve ctor 原創(chuàng)
最近在研究RAG然后帶來(lái)了對(duì)嵌入與向量的思考;畢竟嵌入與向量是實(shí)現(xiàn)大模型的基礎(chǔ);嵌入解決的是數(shù)據(jù)向量化的問(wèn)題,而向量解決的是數(shù)據(jù)之間的關(guān)系問(wèn)題。
Embedding中文翻譯是嵌入,但更形象的理解是——在機(jī)器學(xué)習(xí)和大模型中,嵌入是一種數(shù)據(jù)向量化或向量表示的技術(shù);簡(jiǎn)單來(lái)說(shuō)就相當(dāng)于一個(gè)轉(zhuǎn)換器,把人類能夠理解的數(shù)據(jù)包括文本,圖像等轉(zhuǎn)換為大模型方便處理的向量數(shù)據(jù)。
而向量是數(shù)學(xué)概念中的一個(gè)表示有大小和方向的量,其空間幾何意義就是一個(gè)帶有方向的箭頭,并且可以平移;而更直觀的理解可以把向量當(dāng)成一個(gè)多維矩陣,更確切的說(shuō)是用多維矩陣來(lái)描述向量。
因此,我們?cè)诖竽P图夹g(shù)中所說(shuō)的向量指的并不是空間維度;而是數(shù)據(jù)所構(gòu)成的維度。所以說(shuō),向量是一個(gè)數(shù)學(xué)概念,而矩陣是向量在計(jì)算機(jī)中的載體。
嵌入與向量
向量
向量在數(shù)學(xué)上表示的一個(gè)有方向和大小的量,在計(jì)算機(jī)中的載體是一個(gè)多維矩陣;因此向量從某些方面講就具備矩陣的性質(zhì),比如維度變換。
在大模型中數(shù)據(jù)一半通過(guò)多維矩陣來(lái)描述,比如大模型參數(shù)中有一個(gè)很重要的參數(shù)就是維度(dimension);這個(gè)維度指的就是多維矩陣的維度,維度越高,能夠表示的場(chǎng)景就越復(fù)雜。
但同樣,由于矩陣中存在著太多無(wú)用數(shù)據(jù);因此就產(chǎn)生了密集矩陣和稀疏矩陣的區(qū)別;而稀疏矩陣可以通過(guò)降維的方式來(lái)壓縮其矩陣大小,以此來(lái)獲取更高的存儲(chǔ)效率。
高維矩陣與低維矩陣的區(qū)別就類似于圖片中的像素點(diǎn);像素點(diǎn)越多,圖片質(zhì)量越好,觀感上就更細(xì)膩;而像素點(diǎn)越低,圖像就越模糊,丟失的東西就越多。
但同樣的圖片效果怎么樣,除了像素點(diǎn)之外還有你觀看距離的影響,離得越遠(yuǎn),像素點(diǎn)的影響越小。
而為了解決近距離觀看的效果,升維就有了用武之地;而遠(yuǎn)距離觀看,就可以對(duì)數(shù)據(jù)進(jìn)行降維處理,節(jié)省空間,提升效率。
而至于怎么描述數(shù)據(jù)之間的語(yǔ)義關(guān)系,就是通過(guò)向量之間的計(jì)算——比如歐式距離,余弦,內(nèi)積等。
嵌入
嵌入雖然本質(zhì)上都是把離散數(shù)據(jù)映射到高維矩陣中,通過(guò)向量的空間關(guān)系來(lái)捕捉數(shù)據(jù)之間的語(yǔ)義關(guān)系;但其在不同的場(chǎng)景中又有一定的區(qū)別。
詞嵌入
詞嵌入是將單詞映射為數(shù)值向量,以捕捉單詞間的語(yǔ)義和句法關(guān)系,為自然語(yǔ)言處理任務(wù)提供有效的特征表示。
方法與技術(shù):詞嵌入通過(guò)預(yù)測(cè)單詞上下文(如Word2Vec)或全局詞頻統(tǒng)計(jì)(如GloVe)來(lái)學(xué)習(xí),也可使用深度神經(jīng)網(wǎng)絡(luò)捕捉更復(fù)雜的語(yǔ)言特征。
圖像嵌入
圖像嵌入是將圖像轉(zhuǎn)換為低維向量,以簡(jiǎn)化處理并保留關(guān)鍵信息供機(jī)器學(xué)習(xí)使用。
方法與技術(shù):利用深度學(xué)習(xí)模型(如CNN)抽取圖像特征,通過(guò)降維技術(shù)映射到低維空間,訓(xùn)練優(yōu)化嵌入向量。
在機(jī)器學(xué)習(xí)中,Embedding 主要是指將離散的高維數(shù)據(jù)(如文字、圖片、音頻)映射到低緯度的連續(xù)向量空間。這個(gè)過(guò)程會(huì)生成由實(shí)數(shù)構(gòu)成的向量,用于捕捉原始數(shù)據(jù)的潛在的關(guān)系和結(jié)構(gòu)。
本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires
