成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

優(yōu)雅談大模型:神經(jīng)網(wǎng)絡與矩陣

發(fā)布于 2024-12-5 12:30
瀏覽
0收藏

1.向量與矩陣

上個章節(jié)的神經(jīng)網(wǎng)絡是為了解Transformer或者Mamba做好鋪墊,在和后輩交流過程中發(fā)現(xiàn)有個障礙,那就是向量和矩陣。其實向量和矩陣的表達方式不是所有人都很習慣。在繼續(xù)下面的章節(jié)之前小編認為有必要將向量、矩陣和神經(jīng)網(wǎng)絡做下補充解釋。

向量是具有方向和大小的量,用箭頭表示。向量具有下面的性質(zhì):

優(yōu)雅談大模型:神經(jīng)網(wǎng)絡與矩陣-AI.x社區(qū)

有好事者翻出來內(nèi)積的幾何含義,其實就是兩個向量的長度乘以它們的夾角,那么上面代數(shù)的表達方式和下面的帶有cosθ的表達式一樣么。是一樣的,推導過程略過一千字。

優(yōu)雅談大模型:神經(jīng)網(wǎng)絡與矩陣-AI.x社區(qū)

下圖則為矩陣運算,請讀者快速溫習一下。m*n和n*p的矩陣相乘之后一定是m*p維度的。


優(yōu)雅談大模型:神經(jīng)網(wǎng)絡與矩陣-AI.x社區(qū)



優(yōu)雅談大模型:神經(jīng)網(wǎng)絡與矩陣-AI.x社區(qū)



優(yōu)雅談大模型:神經(jīng)網(wǎng)絡與矩陣-AI.x社區(qū)



優(yōu)雅談大模型:神經(jīng)網(wǎng)絡與矩陣-AI.x社區(qū)



2.神經(jīng)網(wǎng)絡的矩陣表示

優(yōu)雅談大模型:神經(jīng)網(wǎng)絡與矩陣-AI.x社區(qū)

先來看一個例子,上圖一個簡單的神經(jīng)網(wǎng)絡,這套變量的標識方式小編比較認可,上標l代表第幾層,下面代表某一層的第幾個神經(jīng)元。w的兩個下標mn分別代表第m個輸出節(jié)點和第n個下游節(jié)點的權重。一般用z代表沒有經(jīng)過激活函數(shù)的數(shù)值,而a(ctivation)代表經(jīng)過激活函數(shù)的輸出。

優(yōu)雅談大模型:神經(jīng)網(wǎng)絡與矩陣-AI.x社區(qū)

上圖是層1到層2的計算公式,可以將這樣的運算直接轉(zhuǎn)化為矩陣表示。矩陣表達方式十分簡潔清爽,而下圖中的w矩陣就是傳說中的參數(shù),這些矩陣通過樣本訓練而得到。

優(yōu)雅談大模型:神經(jīng)網(wǎng)絡與矩陣-AI.x社區(qū)

于是到了這里,基本上從較為抽象的角度,將基于神經(jīng)網(wǎng)絡的大模型做了簡單的抽象。大模型其實就是多層級深度的神經(jīng)網(wǎng)絡,通過不斷地累加參數(shù),不斷地優(yōu)化結(jié)構,不斷地調(diào)整樣本,讓神經(jīng)網(wǎng)絡的信息編碼和激活更加的合理和高效。從另一個側(cè)面來看深度學習,其實也是一種復雜的概率轉(zhuǎn)移矩陣。

3.損失函數(shù)

為了評估每個訓練之后,真實值和預測值之間的差異,需要一個函數(shù)來評估差異化。這個函數(shù)有很多種稱呼,比如“誤差函數(shù)”、“損失函數(shù)”、“代價函數(shù)”等。代價函數(shù)是深度學習的重要組成部分,因為它提供了神經(jīng)網(wǎng)絡在給定任務上執(zhí)行情況的衡量標準。訓練深度學習模型的最終目標是最小化損失函數(shù),這意味著模型能夠做出更準確的預測并更好地泛化到新數(shù)據(jù)。

例如在回歸問題中采用的MSE來評估代價函數(shù)。

假定在某個批次的數(shù)據(jù)輸入,得到預測數(shù)據(jù)

[7.6, 8.0, 6.8, 8.9, 7.2, 8.3, 7.0, 8.8, 7.0, 7.6]。

而真實的數(shù)據(jù)為

[7.8, 8.2, 6.5, 9.1, 7.0, 8.5, 6.9, 8.7, 7.2, 7.8]。

兩者其實相當?shù)慕咏?/p>

采用MSE(Mean squared error loss)的評估模式,MSE=(1/n)*Σ(yi - ?i)^2。yi為正確值,?i為預測值,cost = (1/20) * Σ(yi - ?i)^2 = 0.045

損失函數(shù)一方面指導訓練過程,用于計算預測輸出與真實輸出之間的誤差。神經(jīng)網(wǎng)絡使用該誤差信號來調(diào)整其權重和偏差,以減少損失。這個過程稱為反向傳播,它允許神經(jīng)網(wǎng)絡從錯誤中學習并在未來做出更好的預測。另一方面它有助于避免過度擬合,當模型的過度擬合則無法泛化到新數(shù)據(jù)。通過選擇合適的損失函數(shù),可以防止過度擬合并確保模型能夠很好地泛化到未見過的數(shù)據(jù)。最后損失函數(shù)的選擇會對模型的性能產(chǎn)生重大影響。通過使用相同損失函數(shù)比較不同模型的性能,可以確定哪個模型對于給定任務最有效。深度學習的不同類型任務則采用不同的損失(評估)函數(shù)。下面展示的這些代價函數(shù)將會在LLM背后的基礎模型專欄中展開詳細的講解。

  • 回歸問題一般為均方誤差(MSE)、平均絕對誤差(MAE)損失、Huber loss和Log-cosh loss。
  • 二元分類問題一般為Binary cross-entropy loss二元交叉熵損失、Hinge loss、Focal loss和Dice loss。
  • 多類分類問題則為分類交叉熵損失、稀疏分類交叉熵損失、Kullback-Leibler (KL)散度損失和Sparsemax loss。
  • 自動編碼器問題:均方誤差(MSE)損失、二元交叉熵損失和Perceptual loss感知損失。
  • 生成對抗網(wǎng)絡損失則一般采用Adversarial loss、L1 or L2 loss、Wasserstein loss和Least squares loss。
  • 物體檢測問題對應的有Intersection over Union (IoU) loss、Focal loss、Smooth L1 loss、GIoU loss。
  • Embedding問題則采用Triplet loss、Contrastive loss、Center loss和Angular loss。

本文轉(zhuǎn)載自 ??魯班模錘??,作者: 龐德公

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲精品高清视频 | 538在线精品 | 久久天天躁狠狠躁夜夜躁2014 | 国产一区久久 | 亚洲毛片在线观看 | 男女av| 爱草在线| 99精品一区二区 | 国产成人一区二区三区精 | 亚洲综合一区二区三区 | 午夜精品久久久久久久久久久久久 | 黄色国产大片 | www.天天操 | a级在线 | 国产精品毛片 | 欧美色综合一区二区三区 | 日韩成人av在线 | 亚洲乱码国产乱码精品精的特点 | 99国产欧美| 成人av一区| 免费一区二区三区 | 久久精品亚洲 | 成人午夜网站 | 亚洲国产偷 | 请别相信他免费喜剧电影在线观看 | 欧美一区二区在线观看 | 成人在线视频免费观看 | 亚洲第一av | 国产精品久久久久久久久久久新郎 | 国产精品视频在线观看 | www.天天干.com | 天天综合91 | 欧美综合久久 | 亚洲人成网站777色婷婷 | 99资源| 国产精品久久久久久亚洲调教 | 日韩欧美亚洲一区 | 中文字幕精品一区二区三区精品 | 久久视频精品 | 国产午夜精品一区二区三区嫩草 | 亚洲性视频 |