成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Richard Sutton:經驗是AI的終極數據,四個階段通向真正AI的發展之路

人工智能 新聞
2022年5月31日,Richard Sutton在2022北京智源大會上發表了題為“The Increasing Role of Sensorimotor Experience in AI”的主題演講,對利用經驗啟發AI發展的方法進行了總結和展望。

圖片

導讀:強人工智能的發展是近年來關注的話題。讓AI從人類的感知和行為,而非單純的標注數據中學習,成為許多研究者關注的重點。其中,如何利用人類習得的日常生活經驗,啟發構建能夠適應不同環境,與外部世界交互的人工智能這成為一些領域探索的新路。

被譽為強化學習之父的Richard Sutton近日提出了利用經驗啟發AI發展的思路。他將AI從利用數據到利用經驗的過程分為四個發展階段,提出了未來構建真正AI(Real AI)的發展方向。2022年5月31日,Richard Sutton在2022北京智源大會上發表了題為“The Increasing Role of Sensorimotor Experience in AI”的主題演講,對利用經驗啟發AI發展的方法進行了總結和展望。

講者簡介:理查德·薩頓(Richard Sutton),現代計算型強化學習創始人之一,是 DeepMind 的杰出研究科學家,阿爾伯塔大學計算科學系教授,也是英國皇家學會、加拿大皇家學會、人工智能促進會、阿爾伯塔機器智能研究所 (AMII) 和 CIFAR 的研究員。

01. 背景:經驗對智能發展的重要意義

Sutton認為,智能體與外部世界發生交互,向其發出動作,并接收感知(帶來的反饋)。這種涉及到經驗的交互,是強化學習中正常的感知方式。也是讓智能體嘗試預測外部世界時所采用的正常途徑。然而,這種方法在監督學習中并不多見,而監督學習是當前最為常見的機器學習類型。機器學習中并不涉及普通經驗(Ordinary Experience),模型也不會從不同于普通經驗的特殊訓練數據中學習。事實上,在運行時,監督學習系統根本不學習。

所以說,經驗是互動(帶來)的數據,是與外部世界溝通的途徑。經驗沒有任何意義,除非與其他經驗之間產生聯系。當然,有一個例外:經由特殊信號所表示獎勵。獎勵代表著好的目標,智能體當然希望能夠最大化獎勵。

演講中,Sutton提出了一個核心問題:智能最終是可以被什么來解釋?是客觀的術語(Objective terms),還是經驗的術語(Experiential terms)?前者包含外部世界的狀態、目標、人、地點、關系、空間、動作、距離等不在智能體中的事物,后者則包含感知、動作、獎勵、時間步等智能體內部的事物。Sutton認為,盡管研究者通常會在交流和寫論文時思考客觀的概念,但是現在應當更加關注有關智能體與外部世界交互過程中產生的經驗。

圖片

為了進一步介紹經驗對于智能體的重要意義,Richard Sutton 提出,隨著經驗逐漸被重視,一共經歷了四個階段。分別為:智能體(Agenthood ),獎勵(Reward),經驗狀態(Experiential State),以及可預測知識(Predictive Knowledge)。經過這四個階段的發展,AI逐漸擁有經驗,變得更加實際、可學習且易于擴展。

02. 經驗在AI發展的歷程

1.智能體(Agenthood)

 智能體的含義是擁有/獲得經驗(的AI)。可能令人驚訝的是,早期的AI系統確實沒有任何經驗。在人工智能發展的早期階段(1954-1985年),大多數AI系統只是用來解決問題或回答問題,他們沒有感知能力,也不會行動。機器人是一個例外,但傳統的系統只有啟動狀態和目標狀態,如同下圖中要堆疊的積木塊一樣。

圖片

如果要達到恰當的目標狀態,其解決方案就是一個行動序列,確保AI能夠從啟動狀態達到目標狀態。這其中沒有感知和行動的存在,因為整個外部世界是已知、確定、封閉的,所以并不需要讓AI感知和行動。研究者知道什么事情會發生,所以只需要構建一個解決問題的計劃,讓AI來執行即可,人類知道這樣就能解決問題。

在過去30年的發展中,人工智能的研究關注構建智能體。這種轉變可以體現在這一點:人工智能的標準教科書囊括了智能體的概念,將其作為基礎。例如,1995年版本的《人工智能:一種現代的方法》中提到,全書的統一主題在于介紹智能體(Intelligent Agent)的概念。在這種視角下,AI的問題在于描述和構建智能體,并從環境中獲得認知,并采取行動。隨著研究的發展,標準、現代的方法是構建一個能夠和外部世界交互的智能體。Sutton認為可以從這個視角看待AI。

圖片

2.獎勵(Reward)

獎勵(Reward)是以經驗的形式來描述AI的目標。這也是當前提出的一種有效方法,能夠構建AI的所有目標。這也是Sutton與其合作者提出的方法。

獎勵被認為是目前較為充分的一種假說——智能及其相關的能力都可以被理解為是服務于最大化獎勵的結果。所以有說法認為,獎勵對于智能體而言已經足夠了。

然而Sutton認為,這一思路是需要被挑戰的。獎勵并不足夠實現智能。獎勵僅僅只是一個數字、一個標量,它并不足以解釋智能的目標。來自頭腦之外,僅用單一數字表達的目標,顯得太小、太還原,甚至太貶低(人類的目標)了。人類喜歡把目標想象得更宏大,如照顧家庭、拯救世界、世界和平、讓世界更美好。人類的目標比最大化快樂和舒適更為重要。

正如研究者發現獎勵并不是很好的構建目標的方法,研究者也發現了通過獎勵構建目標的優勢。獎勵構建的目標太小,但是人們可以在其中取得進展——目標可以被良好、清晰地定義,且易于學習。這對于通過經驗構建目標而言反而是個挑戰。

Sutton認為,想象通過經驗來充分地構建目標,這是有挑戰的。回顧歷史可以看到,AI原本也不是對獎勵有興趣的,即使是現在也是如此。所以,不管是早期的問題解決系統,還是當前最新版的AI教科書,其依然將目標定義為需要達到的世界狀態(World State),而非經驗性的(定義)。這種目標可能依然是特定的一系列“積木”,不是一種需要達到的感知結果。

當然,最新的教科書中已經有章節提到強化學習,并提及這些AI使用的是獎勵機制。此外,構建目標的過程中,獎勵已是一種常規的做法,可以使用馬爾科夫決策過程來實現。對于批評獎勵不能夠充分構建目標的研究者(如Yann LeCun)來說,獎勵已經是智能這塊“蛋糕”頂端的“櫻桃”了,它很重要。

圖片

在接下來的兩個階段,Sutton將介紹應當怎樣從經驗的角度來理解外部世界,但在此之前,他將首先介紹經驗指代的是什么。

3.插曲:什么是經驗

圖片

如下圖的序列(非真實數據)所示,當時間步啟動的時候,系統會得到感知信號,而且也會發出信號和行動。所以感知信號可能會引起一些動作,而這些動作會引起下一個感知信號。在任何時候,系統都需要關注關注最近的行動和最近的信號,這樣才能決定接下來將會發生什么,應當怎樣去做。

圖片

如圖所示,這是一個智能體執行程序的輸入輸出信號陣列。第一列是時間步,每一步可認為是0.1秒或0.01秒的瞬間。行動信號列則采用二級制表示,由灰白兩色表示。之后是感知信號列,其中前四列是二進制值(也使用灰白兩色),后四列則采用0-3的四種取值,用紅黃藍綠四種顏色表示,最后一列則是連續變量,代表獎勵。在實驗中,研究者將數字去掉,只留下顏色,以便于在其中尋找模式。Sutton認為,經驗,是指對感覺-運動經驗的數據中發現的模式產生的知識和理解。

在本案例中,Sutton列舉了四個典型的模式:

1.行動的最后一位,和緊隨其后的感知信號是相同的。如果某一時間步的行動是白色的,其后的第一個感知信號也是白色,灰色亦然。

圖片

2.當出現紅像素時,緊隨其后的一個時間步是綠色像素。擴大數據范圍后可以發現,在紅綠像素先后出現后,隔一個時間步會出現藍色像素。

3.數據的最后三列往往會出現一長串同樣顏色,保持不變。一種顏色一旦開始,會持續多個時間周期,最終形成條紋。如很長的一串紅色、綠色、藍色等。

圖片

4.如果展示AI預測的特定感知數據,很多時候這是無法立刻被觀察到的,因此在本數據中增加返回值(Return),其代表著對將會到來的獎勵的預測。框中的綠色條帶代表了隨后的獎賞中,綠色會比紅色多。這代表著當前對于獎勵的預測。

特殊的陰影區域則表示等待函數。等待函數的陰影區域中會有綠色和紅色的條帶。在這里,研究者將越早返回的,帶有顏色獎勵給予更高的權重。當隨著返回值根據時間移動時,就可以看到預測結果和實際獎勵之間的顏色和值的對應變化,這種返回值便是一種預測——其可以從經驗中學習到。

Sutton認為,這種返回值本質上并不是從已經發生的事件中學習的,而是從時間差信號中學到的。其中最重要的信號就是價值函數。在本例中,返回值實際上是一個價值函數,代表的是對于未來獎勵的總和。如果想要一個一般形式的,復雜的,能夠指代未來值的函數,可采用名為一般價值函數(General Value Functions GVFs)的方法。一般價值函數包括了各種信號,不僅僅是獎勵;可以是任何時間包絡形式,而不僅僅是指數。一般價值函數還可以包括任何隊列的策略,可以預測數量非常多,范圍很廣的事情。當然,Sutton認為,通過計算進行預測,其難易程度取決于被預測對象的形式。當使用一般價值函數進行預測時,被預測對象的表達形式需要被設計成易于學習的形式,且需要很高的計算效率。

4.經驗狀態(Experiential State)

提到“狀態”這個詞,很多研究會提到的是世界狀態(World State),這是一個屬于客觀概念之下的詞語。狀態指的是對客觀世界的一種符號化的描述(反映),能夠和世界本身的情況匹配。例如,對于積木塊的位置信息(C在A上)等。在最近的一段時間,一些研究者(如Judea Pearl)提出了概率圖模型,其表示的是世界狀態的概率分布。一些事件,如“外面下雨,草地是否是濕的?”等,這些事件之間都存在概率關系。

圖片

另一種狀態是信念狀態(Belief State),在這種概念中,狀態是一種概率分布,表示的是離散世界的狀態,其對應的方法被稱為POMDPs(Partially observable Markov decision process)——存在隱藏狀態變量,其中部分是可觀察到的,可以使用馬爾科夫決策過程進行建模。

圖片

以上的方法均是客觀的狀態,與經驗相距甚遠,是研究者一開始嘗試描述世界狀態的方法。

而與之不同的,是經驗狀態。Sutton認為,經驗狀態指的是整個世界的狀態根據經驗來定義。經驗狀態是過去經驗的總結,能夠預測和控制未來將會獲得的經驗。

這種構造過去經驗,預測未來的做法,在研究中已有體現。例如,強化學習任務之一——雅達利游戲中,研究者會用最后四幀的視頻構建經驗狀態,然后預測之后的行為。LSTM網絡中的一些方法,也可以被認為是從某種經驗狀態中進行預測。

圖片

回看經驗狀態,它是可以遞歸更新的。經驗狀態是整個過去發生事情總結的函數,由于AI需要每時每刻訪問經驗狀態,實現對接下來發生事件的預測,所以經驗狀態的更新是遞歸式的:當前時刻只訪問上一時刻的經驗狀態,而上一時刻經驗狀態是對過去所有發生過的事件的總結。到了下一個時刻,也只訪問此時此刻的經驗狀態,而這個經驗狀態也是對過去發生的所有事件的總結。

下圖顯示了智能體經驗狀態的構造過程。其中,紅色箭頭表明智能體的基礎工作信號,包括:感覺、行動、獎勵等。藍箭頭標注的是經驗狀態(表征)的方向,從感知中輸出,其負責對每個時間步更新其經驗狀態。更新的狀態會被用來為行動制定策略,或進行其他更新。

圖片

5.預測性知識(Predictive Knowledge)

知識,如“喬拜登是美國總統”,“埃菲爾鐵塔在巴黎”等,都是對于外部客觀世界的一種描述,并不是經驗性的。但是,類似于“做某事預計花費X小時”這類知識,是經驗知識。經驗知識和客觀知識之間存在著巨大的差異,這也是對于AI研究具有挑戰性的一點。

以往的AI研究傾向于將知識視為一種客觀項,盡管近期已經有一些研究從經驗的角度來看待問題。早期的AI系統沒有經驗,也就無法進行預測。而更現代一些的AI將知識視為客觀的存在。更為先進一些的是概率圖模型,但是很多時候其研究的是兩件同時發生的事情之間的概率,而預測面向的應該是一連串序列事件。

基于對序列事件的預測是具有明確語義屬性的知識。如果某事情被預測會發生,AI就可以將預測和實際結果對比。而這種預測模型,可以被認為是一種新的世界知識,即預測性知識。而在預測性知識中,Sutton認為最前沿的就是通用價值函數(General Value Function)和選擇模型(Option Model)。

圖片

Sutton 把世界知識分為兩類,一是關于世界狀態的知識;二是關于世界狀態轉換的知識。有關世界狀態轉換知識的案例是世界預測模型。此處的的世界預測模型,并不是初級形態的馬科夫決策過程或差分方程。它可以是抽象的狀態,在經驗狀態中可以被抽取出來。由于預測是以整個行為為條件進行的,所以在選擇模型中,智能體也可以選擇停止某個策略,終結某種條件。有時候,使用對于旋律的遷移模型,可以預測進行了某個行動后的狀態。以日常生活為例,假設某人要去城里,他/她會對前往市中心的距離、時間進行一個預測,對于超過某個閾值的行為(如步行10分鐘進城),就會進一步預測出一個狀態,如疲憊等。

有了這種能夠延伸行為的模型,其知識所表示的規模也可以非常的大。例如,可以根據一個行為,預測世界狀態,然后根據狀態再預測下一個行為......以此類推。

圖片

總結經驗在AI研究中的發展歷程,Sutton表示,經驗是世界知識的基礎,人類本身是通過感知和行動來認識和影響世界的,經驗是人類獲得信息、采取行動的的唯一方式,而且是人類離不開的。遺憾的是,由于經驗過于主觀化和個人化,人類仍然不喜歡用經驗的方式去思考和表達。經驗對于人類太過陌生、反直覺、短暫、復雜。而經驗也是主觀、私人的,與他人進行交流,或者進行驗證幾乎是不可能的。

圖片

Sutton認為,經驗對于AI十分重要,有以下幾個原因。一是經驗來自于AI的日常運行過程,獲得這些經驗是無成本的、自動的。同時,AI領域有大量的數據用于計算,因此經驗提供了通向了解世界的道路,如果世界中的任何事實都是經驗性的,那么AI可以從經驗中學習對世界的認識,并在經驗中進行驗證。

圖片

總結而言,Sutton認為,過去70年的AI發展歷程中,AI逐漸在增加對經驗的重視——獲得經驗、根據經驗設定目標、并根據經驗獲得狀態和知識。在每一個階段,對于人類更為陌生的經驗研究正在變得更加重要,而且其具有接地氣(Grounding)、可學習和可擴展的優勢。

圖片

03. 未來AI利用經驗的方法

Sutton認為,目前對于經驗利用方面,AI還未完成階段三和四,但是這種趨勢向前會越走越遠。Sutton認為,將一切都歸于經驗,是通向真正AI的可行路徑。盡管非常具有挑戰性,但這是能夠理解數據流,實現智能的圖景。最后,Sutton進一步凝煉重視感知運動經驗的四個階段,形成一句標語:“數據驅動著人工智能,而經驗就是終極的數據。如果能利用好經驗,我們就可以更快速有力地推動人工智能發展。”

責任編輯:張燕妮 來源: 智源社區
相關推薦

2015-07-17 15:34:29

NFV

2021-05-10 09:05:39

AI 數據人工智能

2020-04-22 10:27:39

人工智能技術安全

2025-02-26 07:55:14

2020-04-22 10:52:44

AI人工智能算法

2018-01-09 20:44:18

云計算私有云企業

2009-07-03 13:41:44

WinCE編譯過程

2025-01-17 11:14:42

2024-03-27 15:33:25

微軟CopilotAI

2022-09-27 15:37:21

深度學習算法

2009-08-03 11:39:33

2018-03-19 14:32:25

云計算遷移資源

2020-01-03 22:14:01

物聯網大數據邊緣計算

2025-04-07 06:00:00

2009-07-14 09:06:08

Java對象類型轉換

2023-05-24 06:56:18

實用AI工具

2024-09-02 14:40:49

2024-06-26 11:08:46

2017-10-16 12:37:55

2023-02-16 13:46:36

大數據數據科學
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品欧美一区二区三区麻豆 | 久久精品视频91 | 亚洲精品视频在线看 | 亚洲综合色视频在线观看 | 国产乱码精品1区2区3区 | 久久精品色欧美aⅴ一区二区 | 久久久精品一区 | 怡红院成人在线视频 | 国产在线精品一区二区三区 | 黑人巨大精品欧美一区二区免费 | 亚洲精品粉嫩美女一区 | 午夜免费看 | 黄a在线观看 | 亚洲三区在线观看 | 又黑又粗又长的欧美一区 | 97精品国产一区二区三区 | 亚洲第一中文字幕 | av免费成人 | 99久久久国产精品 | 黑人巨大精品欧美一区二区免费 | 国产精品一区二区在线 | 伊人性伊人情综合网 | 久久久久久久久国产成人免费 | 伊人婷婷 | 黄色一级大片在线免费看产 | av性色全交蜜桃成熟时 | 中文字幕二区 | 色毛片 | 婷婷福利 | 午夜视频在线 | 日韩欧美国产一区二区三区 | 给我免费的视频在线观看 | 亚洲国产精品福利 | 国产一区二区三区亚洲 | 最近中文字幕在线视频1 | 99热在线播放| 色橹橹欧美在线观看视频高清 | 免费特黄视频 | av在线伊人 | 国产精品久久久久无码av | 日本一区高清 |