成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

清華學(xué)霸、OpenAI姚順雨:AI下半場(chǎng)開(kāi)戰(zhàn),評(píng)估將比訓(xùn)練重要

人工智能 新聞
想象一下,未來(lái)的 AI 不僅能聽(tīng)懂你的話,還能像你一樣思考、決策 —— 這正是思維樹(shù)(ToT)作者、OpenAI 研究員姚順雨正在探索的世界!

最近新出的《黑鏡》第七季大家都看了嗎?

其中第三集聚焦一個(gè)叫 ReDream 的前沿技術(shù),允許現(xiàn)代演員通過(guò) AI 和虛擬現(xiàn)實(shí)與經(jīng)典黑白電影中的虛擬角色互動(dòng),快速重拍經(jīng)典影片。隨著故事發(fā)展,主角發(fā)現(xiàn) AI 角色似乎擁有自我意識(shí)。

image.png

想象一下,未來(lái)的 AI 不僅能聽(tīng)懂你的話,還能像你一樣思考、決策 —— 這正是思維樹(shù)(ToT)作者、OpenAI 研究員姚順雨正在探索的世界!

姚順雨畢業(yè)于清華姚班,普林斯頓大學(xué)計(jì)算機(jī)科學(xué)博士,2024 年 8 月加入 OpenAI。他以語(yǔ)言智能體領(lǐng)域的開(kāi)創(chuàng)性工作聞名:ToT 使 AI 通過(guò)多路徑推理解決復(fù)雜問(wèn)題,ReAct 讓 AI 在推理中動(dòng)態(tài)行動(dòng),CoALA 則為 AI 智能體提供了模塊化的認(rèn)知架構(gòu)。

image.png

早在 GPT-2 剛興起時(shí),他就預(yù)見(jiàn)了語(yǔ)言模型的潛力,率先研究如何將其轉(zhuǎn)化為「會(huì)思考的 Agent」,展現(xiàn)了驚人的學(xué)術(shù)前瞻性。如今,他的成果正推動(dòng) AI 在編程、教育、自動(dòng)化等領(lǐng)域大放異彩。

近日,姚順雨發(fā)布了一篇新博客,探討 AI 發(fā)展的「下半場(chǎng)」。AI 的未來(lái)會(huì)是什么樣?讓我們跟隨他的腳步,一起揭開(kāi)人工智能的下一幕!

image.png

博客地址:https://ysymyth.github.io/The-Second-Half/

上半場(chǎng)

簡(jiǎn)而言之:我們正處在 AI 的中場(chǎng)休息時(shí)間。

幾十年來(lái),AI 主要致力于開(kāi)發(fā)新的訓(xùn)練方法和模型,取得了顯著成就,如在國(guó)際象棋和圍棋中擊敗世界冠軍,以及在多個(gè)考試中超越人類。這些成就源于基礎(chǔ)性創(chuàng)新,如搜索、深度強(qiáng)化學(xué)習(xí)(Deep RL)和推理。

現(xiàn)在的不同之處在于:深度強(qiáng)化學(xué)習(xí)終于開(kāi)始泛化,找到了一種有效的方法來(lái)解決多種 RL 任務(wù)。曾經(jīng),研究人員不相信單一方法能夠應(yīng)對(duì)軟件工程、創(chuàng)意寫作、復(fù)雜數(shù)學(xué)等多個(gè)領(lǐng)域的挑戰(zhàn),但如今這種情況已經(jīng)改變。

接下來(lái),AI 的重點(diǎn)將從解決問(wèn)題轉(zhuǎn)向定義問(wèn)題。在這個(gè)新時(shí)代,評(píng)估的重要性將超過(guò)訓(xùn)練。我們需要重新思考如何訓(xùn)練 AI 以及如何衡量進(jìn)展,這可能需要更接近產(chǎn)品經(jīng)理的思維方式。

理解上半場(chǎng)的關(guān)鍵在于其贏家。影響力最大的 AI 論文如 Transformer、AlexNet 和 GPT-3 等,都是提出基礎(chǔ)性突破的訓(xùn)練方法,而非基準(zhǔn)測(cè)試。盡管 ImageNet 是一個(gè)重要的基準(zhǔn)測(cè)試,但其引用量仍遠(yuǎn)低于 AlexNet。這表明,方法與基準(zhǔn)測(cè)試之間的關(guān)系在其他領(lǐng)域更為顯著。

image.png

AI 發(fā)展的上半場(chǎng)主要聚焦于模型和方法的創(chuàng)新,而非評(píng)估標(biāo)準(zhǔn)的建立。這是因?yàn)殚_(kāi)發(fā)新的算法和模型架構(gòu)(如反向傳播、AlexNet、Transformer 等)需要深刻的洞察力和工程能力,遠(yuǎn)比將已有人類任務(wù)轉(zhuǎn)化為基準(zhǔn)測(cè)試更具挑戰(zhàn)性和吸引力。

更重要的是,這些方法往往具有普適性和廣泛應(yīng)用價(jià)值。典型如 Transformer 架構(gòu),從最初的機(jī)器翻譯擴(kuò)展到計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和強(qiáng)化學(xué)習(xí)等多個(gè)領(lǐng)域,產(chǎn)生了深遠(yuǎn)影響。這種專注于方法創(chuàng)新的策略在過(guò)去幾十年證明是有效的,推動(dòng)了 AI 在各個(gè)領(lǐng)域的突破性進(jìn)展。而現(xiàn)在,隨著這些創(chuàng)新的累積達(dá)到臨界點(diǎn),AI 的發(fā)展重心正在發(fā)生根本性轉(zhuǎn)變。

配方

這個(gè)配方是什么?其中的成分,不出所料,包括大規(guī)模語(yǔ)言預(yù)訓(xùn)練、規(guī)模(數(shù)據(jù)和計(jì)算能力),以及推理和行動(dòng)的理念。這些聽(tīng)起來(lái)可能像是每天都能聽(tīng)到的流行詞,但將它們稱為配方是有原因的。

通過(guò)強(qiáng)化學(xué)習(xí)(RL)的視角可以理解這一點(diǎn),強(qiáng)化學(xué)習(xí)通常被認(rèn)為是人工智能的「終極形態(tài)」—— 理論上強(qiáng)化學(xué)習(xí)保證能贏得游戲,而從經(jīng)驗(yàn)上看,很難想象沒(méi)有強(qiáng)化學(xué)習(xí)的超人類系統(tǒng)(例如 AlphaGo)。

在強(qiáng)化學(xué)習(xí)中,有三個(gè)關(guān)鍵組成部分:算法、環(huán)境和先驗(yàn)知識(shí)。長(zhǎng)期以來(lái),強(qiáng)化學(xué)習(xí)研究人員主要關(guān)注算法(例如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等)—— 智能體學(xué)習(xí)的智力核心 —— 同時(shí)將環(huán)境和先驗(yàn)知識(shí)視為固定或最小化的因素。例如,Sutton 和 Barto 的經(jīng)典教科書幾乎全部講述算法,幾乎不涉及環(huán)境或先驗(yàn)知識(shí)。

image.png

然而,在深度強(qiáng)化學(xué)習(xí)時(shí)代,環(huán)境的重要性在實(shí)踐中變得愈發(fā)明顯:算法的性能通常高度依賴于其開(kāi)發(fā)和測(cè)試的環(huán)境。如果忽視環(huán)境因素,研究者可能會(huì)構(gòu)建出一個(gè)只在玩具場(chǎng)景中表現(xiàn)出色的「最優(yōu)」算法。那么,為什么不先確定真正想要解決的環(huán)境,然后再尋找最適合該環(huán)境的算法呢?

這正是 OpenAI 最初的計(jì)劃。該公司構(gòu)建了 gym,一個(gè)用于各種游戲的標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)環(huán)境,隨后又推出了 World of Bits 和 Universe 項(xiàng)目,試圖將互聯(lián)網(wǎng)或計(jì)算機(jī)轉(zhuǎn)變?yōu)橛螒颦h(huán)境。一旦將所有數(shù)字世界轉(zhuǎn)化為環(huán)境,并用智能強(qiáng)化學(xué)習(xí)算法解決它們,就能擁有數(shù)字通用人工智能(AGI)。

這是個(gè)不錯(cuò)的計(jì)劃,但并未完全奏效。OpenAI 沿著這條路徑取得了巨大進(jìn)展,使用強(qiáng)化學(xué)習(xí)解決了 Dota 游戲、機(jī)器人手部控制等問(wèn)題。但該公司從未真正接近解決計(jì)算機(jī)使用或網(wǎng)頁(yè)導(dǎo)航的問(wèn)題,而且在一個(gè)領(lǐng)域工作的強(qiáng)化學(xué)習(xí)智能體無(wú)法遷移到另一個(gè)領(lǐng)域。顯然還缺少了關(guān)鍵要素。

直到 GPT-2 或 GPT-3 出現(xiàn)后,研究人員才發(fā)現(xiàn)缺失的部分是先驗(yàn)知識(shí)。需要強(qiáng)大的語(yǔ)言預(yù)訓(xùn)練來(lái)將通用常識(shí)和語(yǔ)言知識(shí)提煉到模型中,然后這些模型才能被微調(diào)成為網(wǎng)頁(yè)智能體(WebGPT)或聊天智能體(ChatGPT)(并改變世界)。事實(shí)證明,強(qiáng)化學(xué)習(xí)中最重要的部分可能并不是強(qiáng)化學(xué)習(xí)算法或環(huán)境本身,而是先驗(yàn)知識(shí),而這些先驗(yàn)知識(shí)可以通過(guò)與強(qiáng)化學(xué)習(xí)完全無(wú)關(guān)的方式獲得。

語(yǔ)言預(yù)訓(xùn)練為聊天提供了良好的基礎(chǔ),但在控制計(jì)算機(jī)或玩視頻游戲方面效果不佳,因?yàn)檫@些領(lǐng)域與互聯(lián)網(wǎng)文本的分布差異較大。監(jiān)督微調(diào)(SFT)或強(qiáng)化學(xué)習(xí)(RL)在這些領(lǐng)域表現(xiàn)有限。

2019 年,作者嘗試通過(guò) GPT-2 解決基于文本的游戲,但智能體需要進(jìn)行數(shù)百萬(wàn)步的強(qiáng)化學(xué)習(xí)才能達(dá)到一定水平,且難以遷移到新游戲。人類可以零樣本下玩新游戲并且表現(xiàn)更好,因?yàn)槲覀兡軌蜻M(jìn)行抽象思考,例如「地下城是危險(xiǎn)的,需要武器來(lái)對(duì)抗,可能需要在鎖住的箱子中尋找」。這種推理能力使我們能夠靈活應(yīng)對(duì)新情況。

image.png

思考或推理是一種獨(dú)特的行動(dòng),它不直接改變外部世界,但其空間是開(kāi)放和無(wú)限的。在經(jīng)典強(qiáng)化學(xué)習(xí)中,這樣的無(wú)界組合會(huì)使決策復(fù)雜化。例如,如果從兩個(gè)盒子中選擇一個(gè),其中一個(gè)有 100 萬(wàn)美元,另一個(gè)為空,你的期望收益是 50 萬(wàn)美元。若增加無(wú)限多的空盒子,期望收益變?yōu)榱恪H欢ㄟ^(guò)將推理引入強(qiáng)化學(xué)習(xí)環(huán)境的動(dòng)作空間,我們能利用語(yǔ)言預(yù)訓(xùn)練的先驗(yàn)知識(shí),實(shí)現(xiàn)泛化,并在決策時(shí)進(jìn)行靈活的計(jì)算。讀者可以通過(guò)閱讀 ReAct 以了解智能體推理的初始故事。

論文地址:https://arxiv.org/pdf/2210.03629

目前,作者的直觀解釋是:即使你增加了無(wú)盡的空箱子,但在一生中你已經(jīng)在各種游戲中看到了它們,選擇這些箱子準(zhǔn)備你在任何給定游戲中更好地選擇裝錢的箱子。作者的抽象解釋是:語(yǔ)言通過(guò)智能體中的推理進(jìn)行泛化。

一旦我們掌握了正確的強(qiáng)化學(xué)習(xí)先驗(yàn)(語(yǔ)言預(yù)訓(xùn)練)和適合的強(qiáng)化學(xué)習(xí)環(huán)境(將語(yǔ)言推理作為行動(dòng)),就會(huì)發(fā)現(xiàn)實(shí)際上強(qiáng)化學(xué)習(xí)算法可能是最簡(jiǎn)單的一部分。于是,我們推出了 o 系列、R1、深度研究、利用計(jì)算機(jī)的智能體,及其他將來(lái)的成果。這種變化多么諷刺!長(zhǎng)期以來(lái),強(qiáng)化學(xué)習(xí)研究者專注于算法,而忽視了環(huán)境和先驗(yàn)知識(shí) —— 所有的實(shí)驗(yàn)都幾乎從零開(kāi)始。我們耗費(fèi)了幾十年才意識(shí)到,或許我們的優(yōu)先級(jí)應(yīng)該完全調(diào)整過(guò)來(lái)。

但正如 Steve Jobs 所說(shuō):你無(wú)法展望未來(lái)連接點(diǎn),只能倒回來(lái)看時(shí)連接。

 下半場(chǎng)

這個(gè)配方正在徹底改變游戲規(guī)則,回顧上半場(chǎng)的游戲:

  • 我們開(kāi)發(fā)新穎的訓(xùn)練方法或模型,以提升基準(zhǔn)測(cè)試的成績(jī)。
  • 我們創(chuàng)建更困難的基準(zhǔn),并繼續(xù)這個(gè)循環(huán)。

這個(gè)游戲正在被破壞,因?yàn)椋?/span>

  • 這個(gè)配方基本上標(biāo)準(zhǔn)化并工業(yè)化了基準(zhǔn)的提升,而不需要更多的新想法。隨著這個(gè)配方的擴(kuò)展和良好的泛化,針對(duì)特定任務(wù)的新方法可能只會(huì)提高 5%,而下一個(gè) o 系列模型可能在沒(méi)有明確針對(duì)的情況下提高 30%。
  • 即使我們創(chuàng)建更困難的基準(zhǔn),很快(而且越來(lái)越快)它們也會(huì)被這個(gè)配方解決。我的同事 Jason Wei 制作了一個(gè)漂亮的圖來(lái)很好地可視化這個(gè)趨勢(shì):

image.png

那么下半場(chǎng)剩下什么可以玩?如果不再需要新方法,而更難的基準(zhǔn)測(cè)試將越來(lái)越快地被解決,我們?cè)撛趺崔k?

作者認(rèn)為我們應(yīng)該從根本上重新思考評(píng)估。這不僅意味著創(chuàng)造新的和更難的基準(zhǔn)測(cè)試,而是從根本上質(zhì)疑現(xiàn)有的評(píng)估設(shè)置并創(chuàng)造新的,這樣我們就被迫發(fā)明超越現(xiàn)有食譜的新方法。這很難,因?yàn)槿祟愑袘T性,極少質(zhì)疑基本假設(shè) —— 你只是把它們當(dāng)作理所當(dāng)然,未意識(shí)到它們是假設(shè)而非法律。

為了解釋慣性,假設(shè)你在歷史上基于人類考試發(fā)明了最成功的評(píng)估之一。它在 2021 年是一個(gè)非常大膽的想法,但 3 年后它就飽和了。你會(huì)怎么做?最可能的是創(chuàng)建一個(gè)更難的考試。或者假設(shè)你解決了簡(jiǎn)單的編碼任務(wù)。你會(huì)怎么做?最可能的是找更難的編碼任務(wù)來(lái)解決,直到達(dá)到 IOI 金牌水平。

慣性是自然的,但這是問(wèn)題所在。AI 在國(guó)際象棋和圍棋中擊敗世界冠軍,在 SAT 和律考中超過(guò)大多數(shù)人類,并在 IOI 和 IMO 中達(dá)到了金牌水平。但世界沒(méi)有太大變化,至少?gòu)慕?jīng)濟(jì)和 GDP 角度來(lái)看如此。

作者稱之為效用問(wèn)題,并將其視為 AI 最重要的問(wèn)題之一。

也許我們很快就會(huì)解決效用問(wèn)題,也許不會(huì)。無(wú)論如何,這個(gè)問(wèn)題的根本原因可能看似簡(jiǎn)單:我們的評(píng)估設(shè)置在許多基本方面與現(xiàn)實(shí)世界的設(shè)置不同。舉兩個(gè)例子:

評(píng)估「應(yīng)該」自動(dòng)運(yùn)行,因此通常一個(gè)智能體接收任務(wù)輸入,獨(dú)立完成任務(wù),然后獲得任務(wù)獎(jiǎng)勵(lì)。但在現(xiàn)實(shí)中,智能體必須在整個(gè)任務(wù)過(guò)程中與人類互動(dòng) —— 你不會(huì)只是給客服發(fā)一條超級(jí)長(zhǎng)的消息,等 10 分鐘,然后期待得到詳細(xì)的回復(fù)來(lái)解決所有問(wèn)題。通過(guò)質(zhì)疑這種設(shè)置,新的基準(zhǔn)被發(fā)明出來(lái),以便在循環(huán)中引入真實(shí)的人類(例如,聊天機(jī)器人競(jìng)技場(chǎng))或用戶模擬(例如,tau-bench)。

image.png

評(píng)估「應(yīng)該」在獨(dú)立同分布(i.i.d.)的情況下進(jìn)行。如果你有一個(gè)包含 500 個(gè)任務(wù)的測(cè)試集,你會(huì)獨(dú)立運(yùn)行每個(gè)任務(wù),平均任務(wù)指標(biāo),然后得到一個(gè)整體指標(biāo)。但在現(xiàn)實(shí)中,你是順序解決任務(wù),而不是并行進(jìn)行。谷歌的軟件工程師(SWE)在解決 google3 問(wèn)題時(shí),隨著對(duì)代碼庫(kù)的熟悉程度逐漸提高,解決問(wèn)題的能力也會(huì)越來(lái)越好,但一個(gè)軟件工程智能體在同一個(gè)代碼庫(kù)中解決許多問(wèn)題時(shí),并不會(huì)獲得這樣的熟悉度。顯然,我們需要長(zhǎng)期記憶方法(并且確實(shí)存在),但學(xué)術(shù)界沒(méi)有適當(dāng)?shù)幕鶞?zhǔn)來(lái)證明這種需求,甚至缺乏質(zhì)疑作為機(jī)器學(xué)習(xí)基礎(chǔ)的 i.i.d. 假設(shè)的勇氣。

這些假設(shè)「一直」都是這樣,在 AI 發(fā)展的前半段,在這些假設(shè)下開(kāi)發(fā)基準(zhǔn)測(cè)試是可行的,因?yàn)楫?dāng)智能水平較低時(shí),提高智能通常會(huì)提高實(shí)用性。但現(xiàn)在,這種通用方法在這些假設(shè)下肯定能奏效。所以,在后半段的新游戲中,我們的方式是:

  • 我們?yōu)楝F(xiàn)實(shí)世界的實(shí)用性開(kāi)發(fā)新穎的評(píng)估設(shè)置或任務(wù)。
  • 我們用通用方法解決這些任務(wù),或者用新穎的組件增強(qiáng)這些方法。然后繼續(xù)循環(huán)。

這個(gè)過(guò)程既困難又令人興奮,因?yàn)樗辉偈俏覀兪煜さ摹G捌诘膮⑴c者專注于解決視頻游戲和考試,而后期的參與者通過(guò)利用智能開(kāi)發(fā)有用的產(chǎn)品,創(chuàng)造了價(jià)值數(shù)十億甚至數(shù)萬(wàn)億美元的公司。前期充滿了增量式的方法和模型,而后期從一定程度上篩選這些方法。通用方法可能會(huì)超越增量式方法,除非你能夠通過(guò)創(chuàng)造新的假設(shè)打破這種通用性。唯有如此,才能進(jìn)行真正改變游戲規(guī)則的研究。

歡迎來(lái)到后半段!

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-08-02 13:33:04

2018-05-29 10:16:40

超融合IT廠商產(chǎn)品

2025-05-06 00:00:55

OpenAI算法GPT-4

2018-11-22 09:07:45

NFV網(wǎng)絡(luò)功能虛擬化網(wǎng)絡(luò)

2019-03-21 10:57:58

技術(shù)開(kāi)源數(shù)據(jù)

2024-05-14 10:57:48

數(shù)字化轉(zhuǎn)型數(shù)據(jù)中臺(tái)

2020-12-30 14:25:08

人工智能云異構(gòu)

2018-10-29 13:50:40

2016-12-21 16:53:51

大數(shù)據(jù)互聯(lián)網(wǎng)阿里

2016-12-13 12:34:23

寬帶電信移動(dòng)

2021-03-04 09:37:40

云計(jì)算云原生計(jì)算云安全

2024-09-23 08:42:11

2022-08-09 08:40:51

運(yùn)營(yíng)商互聯(lián)網(wǎng)云云計(jì)算

2020-07-13 07:00:03

微服務(wù)服務(wù)網(wǎng)格架構(gòu)

2022-06-20 09:10:00

AI計(jì)算機(jī)量子

2018-04-25 09:37:41

AI

2018-12-06 09:55:38

區(qū)塊鏈數(shù)字貨幣互聯(lián)網(wǎng)

2021-01-27 09:12:30

微信搜索騰訊

2018-08-12 11:54:41

BlackHat

2018-12-06 19:08:40

華為
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 999精品视频在线观看 | 97久久超碰| 不卡一区二区在线观看 | 亚洲一区二区三区国产 | 一本一道久久a久久精品综合蜜臀 | 中文字幕在线视频一区二区三区 | 日本黄色影片在线观看 | 久久久久久99 | 日韩一区二区三区精品 | 国产视频一区在线观看 | 欧美日韩第一页 | 国产综合精品一区二区三区 | 一级在线免费观看 | 亚洲成人在线视频播放 | 自拍偷拍亚洲视频 | 尤物在线| 天天操欧美| 久久精品aaa | 天天操天天干天天透 | 在线一区观看 | 日本在线一二 | 国精产品一品二品国精在线观看 | 久久成人国产精品 | 在线观看视频中文字幕 | 日韩一区二区三区在线视频 | 爱爱视频网 | 91麻豆精品国产91久久久更新资源速度超快 | 国产精品婷婷 | 成人在线电影在线观看 | 超碰8 | 日韩欧美三区 | 成人亚洲 | 久久99精品国产麻豆婷婷 | 桃花av在线 | 色婷婷综合久久久中字幕精品久久 | 欧美一区免费 | 日韩影院在线观看 | 一级看片免费视频囗交动图 | 日韩国产精品一区二区三区 | 成人在线精品 | 在线视频h|