成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

在工程領域中,機器學習的數學理論基礎尤為重要

開發 開發工具
近日加州大學圣巴巴拉分校的 Paul J. Atzberger 回顧了機器學習中的經驗風險與泛化誤差邊界,他認為在科學和工程領域中,我們需要從基本理論與數學出發高效使用現有方法,或開發新方法來整合特定領域與任務所需要的先驗知識。

數學在機器學習中非常重要,但我們通常只是借助它理解具體算法的理論與實際運算過程。近日加州大學圣巴巴拉分校的 Paul J. Atzberger 回顧了機器學習中的經驗風險與泛化誤差邊界,他認為在科學和工程領域中,我們需要從基本理論與數學出發高效使用現有方法,或開發新方法來整合特定領域與任務所需要的先驗知識。

[[240406]]

近期研究人員越來越多地關注將機器學習方法應用到科學、工程應用中。這主要是受自然語言處理(NLP)和圖像分類(IC)領域近期發展的影響。但是,科學和工程問題有其獨特的特性和要求,對高效設計和部署機器學習方法帶來了新挑戰。這就對機器學習方法的數學基礎,以及其進一步的發展產生了強大需求,以此來提高所使用方法的嚴密性,并保證更可靠、可解釋的結果。正如近期當前***結果和統計學習理論中「沒有免費的午餐」定理所述,結合某種形式的歸納偏置和領域知識是成功的必要因素。因此,即使是現有廣泛應用的方法,也對進一步的數學研究有強需求,以促進將科學知識和相關歸納偏置整合進學習框架和算法中。本論文簡單討論了這些話題,以及此方向的一些思路。

在構建機器學習方法的理論前,簡要介紹開發和部署機器學習方法的多種模態是非常重要的。監督學習感興趣的是在不***條件下找出輸入數據 x 的標注與輸出數據之間的函數關系 f,即 y = f ( x) + ξ,不***條件包括數據有限、噪聲 ξ 不等于 0、維度空間過大或其他不確定因素。其他模態包括旨在發現數據內在結構、找到簡潔表征的無監督學習,使用部分標注數據的半監督學習,以及強化學習。本文聚焦監督學習,不過類似的挑戰對于其他模態也會存在。

應該強調近期很多機器學習算法的成功(如 NLP、IC),都取決于合理利用與數據信號特質相關的先驗知識。例如,NLP 中的 Word2Vec 用于在預訓練步驟中獲取詞標識符的詞嵌入表示,這種表示編碼了語義相似性 。在 IC 中,卷積神經網絡(CNN)的使用非常普遍,CNN 通過在不同位置共享卷積核權重而整合自然圖像的先驗知識,從而獲得平移不變性這一重要的屬性。先驗知識的整合甚至包括對這些問題中數據信號的內在層級和構造本質的感知,這促進了深層架構這一浪潮的興起,深層架構可以利用分布式表征高效捕捉相關信息。

在科學和工程領域中,需要類似的思考才能獲取對該領域的洞察。同時我們需要對機器學習算法進行調整和利用社區近期進展,以便高效使用這些算法。為了準確起見,本文對監督學習進行了簡要描述。

與傳統的逼近理論(approximation theory)相反,監督學習的目的不僅是根據已知數據逼近***解 f,還要對抗不確定因素,使模型在未見過的數據上也能獲得很好的泛化性能。這可以通過最小化損失函數 L 來獲得,其中 L 的期望定義了真實風險。L 有很多不同的度量方法,如最小二乘法中的 ℓ (x, y, f) = (f (x) − y)^2,或***似然方法 ℓ (x, y, f) = − log(p (y|x, f))。但是,R (f) 在實踐中是無法計算的,因為模型從數據中獲得的關于分布 D 的信息有限,這促進我們在實踐中使用替代誤差(surrogate error),如經驗風險

從統計學上來說,使用經驗風險也有很大的成本,因為當數據量不夠大時 R hat 可能不會均勻地收斂至真實風險 R(f)。但是,因為 f 來自離散假設空間 H,且 H 在任意選擇的復雜度 c(f) 下可能都是***空間,若 c (f) 滿足時,你可以在 m 個樣本上推出泛化誤差邊界:

其中,概率 1 − δ 適用于隨機數據集。類似的邊界也可以從具備其他復雜度(如 VC 維或 Rademacher 復雜度)的連續假設空間中推導出。這在數學層面上捕捉了當前很多對應 RHS 優化的訓練方法和學習算法。常見的選擇是適用于有限空間的經驗風險最小化,使用 c(f) = log(|H|),其中 c 不再在正則化中發揮作用。

我們可以了解到如何通過對假設空間 H 和 c(f) 的謹慎選擇來實現更好的泛化與更優的性能。對于科學和工程應用而言,這可能包括通過設計 c(f) 或限制空間 H 來整合先驗信息。例如限制 H 僅保持符合物理對稱性的函數、滿足不可壓縮等限制、滿足守恒定律,或者限制 H 滿足更常見的線性或非線性 PDE 的類別。這可以更好地對齊優秀的 c(f) 和 R hat,并確保更小的真實風險 R(f)。盡管傳統上這是機器學習的重點,但這不是唯一策略。

正如近期深度學習方法所展示的那樣,你可以使用復雜的假設空間,但不再依賴于隨機梯度下降等訓練方法,而是支持更低復雜度的模型以僅保留與預測 Y 相關的輸入信號 X。類似的機會也存在于科學和工程應用中,這些應用可獲得關于輸入信號相關部分的大量先驗知識。例如,作為限制假設空間的替代方法,訓練過程中你可以在輸入數據上執行隨機旋轉,以確保選擇的模型可以在對稱情況下保持預測結果不變。還有很多利用對輸入數據和最終目標的洞察來結合這些方法的可能性。

我們看到即使在本文提到的泛化邊界類型方面也可以獲取大量新觀點。針對改進邊界和訓練方法做進一步的數學研究,可能對高效使用現有方法或開發新方法來整合先驗知識方面大有裨益。我們希望本文可以作為在一般理論和當前訓練算法中進行數學研究的開端,開發出更多框架和方法來更好地適應科學和工程應用。

原文地址:https://arxiv.org/pdf/1808.02213.pdf

【本文是51CTO專欄機構“機器之心”的原創文章,微信公眾號“機器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2011-06-10 10:01:05

數據庫性能

2018-11-14 10:32:24

互聯網

2022-12-30 17:22:29

人工智能開發

2020-09-29 09:46:16

網絡安全

2022-07-10 14:59:57

機器學習人工智能預測模型

2024-07-01 09:05:00

2012-08-10 14:35:40

云計算投資回報率ROI

2011-07-28 16:08:15

2016-11-08 18:00:44

機器學習

2017-05-12 13:00:40

2017-04-01 14:23:35

PythonR機器學習

2011-03-22 09:33:39

J-Hi

2022-02-16 07:44:48

機器學習模型

2011-08-01 14:24:42

數據加密加密

2017-02-27 14:24:12

機器學習深度學習數學

2019-08-14 07:54:08

物聯網教育領域IOT

2014-12-09 12:35:11

人工智能機器學習開源項目

2024-09-24 12:39:52

2024-10-21 17:33:58

2018-11-07 20:12:51

APP方法工具
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲国产看片 | 国产精品久久久久久久久久久久冷 | 成人免费一区二区三区视频网站 | 久草视频网站 | 国产91久久久久久 | 亚洲国产成人精品久久久国产成人一区 | 麻豆精品一区二区三区在线观看 | av片免费观看| 亚洲欧美第一视频 | 日韩精品在线播放 | 黄色一级毛片免费看 | 免费在线成人网 | 成人中文字幕在线 | 麻豆久久久久久久久久 | 午夜三区 | 国产精品成人一区二区三区 | 一区二区日韩 | 精品福利一区二区三区 | 偷拍自拍网站 | 国产精品一区二区av | 国产高清毛片 | 红色av社区| 亚洲成人三区 | 精品九九九 | 一区精品视频在线观看 | 成人一级视频在线观看 | 日韩成人精品在线观看 | 日韩精品专区在线影院重磅 | 日韩中文在线观看 | 亚洲欧美在线观看视频 | 四虎影音 | 99精品免费久久久久久日本 | 国产免费拔擦拔擦8x高清 | 一区欧美 | 亚洲精品电影网在线观看 | 自拍偷拍视频网 | 国久久| 91福利网| 一区二区三区四区不卡 | 欧美成人精品一区二区男人看 | 亚洲影视在线 |