成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

算法不重要,AI的下一個范式突破,「解鎖」新數(shù)據(jù)源才是關鍵

人工智能 新聞
康奈爾大學 (科技校區(qū)) 博士生 JACK MORRIS 發(fā)表了一個新穎的觀點:從 2012 年到現(xiàn)在,AI 的根本性突破并非來自全新的算法創(chuàng)新,而是來自我們能夠利用的新數(shù)據(jù)源和更好的數(shù)據(jù)利用方式。

眾所周知,人工智能在過去十五年里取得了令人難以置信的進步,尤其是在最近五年。

回顧一下人工智能的「四大發(fā)明」吧:深度神經(jīng)網(wǎng)絡→Transformer 語言模型→RLHF→推理,基本概括了 AI 領域發(fā)生的一切。

我們有了深度神經(jīng)網(wǎng)絡(主要是圖像識別系統(tǒng)),然后是文本分類器,然后是聊天機器人,現(xiàn)在我們又有了推理模型。領域內的進步一直在持續(xù) —— 盡管范式轉變級別的重大突破并不常見,但我們堅信能在緩慢而穩(wěn)定的發(fā)展中前進。

值得深思的問題來了:下一個重大突破會是什么?取決于什么?

康奈爾大學 (科技校區(qū)) 博士生 JACK MORRIS 發(fā)表了一個新穎的觀點:從 2012 年到現(xiàn)在,AI 的根本性突破并非來自全新的算法創(chuàng)新,而是來自我們能夠利用的新數(shù)據(jù)源和更好的數(shù)據(jù)利用方式。

截屏2025-04-11 11.30.51.png

博客地址:https://substack.com/home/post/p-160974493

所以他認為人工智能的下一個范式突破可能要依靠視頻數(shù)據(jù)(尤其是 YouTube)和實體世界數(shù)據(jù)(機器人)。

讓我們看看作者是如何分析的:

事實上,一些研究人員最近提出了「人工智能的摩爾定律」,即計算機執(zhí)行某些任務(在這里指的是某些類型的編碼任務)的能力將隨著時間的推移呈指數(shù)級增長:

image.png

「人工智能摩爾定律」。(順便說一句,任何認為到 2025 年 4 月就能在無人干預的情況下運行自主智能體一小時的人都是在自欺欺人。)

雖然出于種種原因,我并不認同這種說法,但我無法否認人工智能的進步趨勢。每年,我們的人工智能都會變得更智能、更快速、更便宜,而且這種趨勢尚未看到盡頭。

大多數(shù)人認為,這種持續(xù)的進步來自于學術界(主要是麻省理工學院、斯坦福大學、卡內基梅隆大學)和工業(yè)界(主要是 Meta、谷歌和少數(shù)中國實驗室)研究界的穩(wěn)定 idea 供給,同時還有很多在其他地方進行的研究是我們永遠無法了解的。

研究方面確實取得了很大進展,尤其是在系統(tǒng)方面。這尤其體現(xiàn)在如何降低模型成本。這里挑選幾個值得關注的例子:

  • 2022 年,斯坦福大學的研究人員提出了 FlashAttention ,這是一種在語言模型中更好地利用記憶的方法,這種方法幾乎在任何地方都有使用;
  • 2023 年,谷歌的研究人員開發(fā)了推測解碼,所有模型提供商都使用它來加速推理(也是 DeepMind 開發(fā)的,貌似是同時進行的);
  • 2024 年,一群互聯(lián)網(wǎng)狂熱分子開發(fā)了 Muon ,它似乎是一個比 SGD 或 Adam 更好的優(yōu)化器,并可能成為未來訓練語言模型的方式;
  • 2025 年,DeepSeek 發(fā)布了 DeepSeek-R1 ,這是一個開源模型,其推理能力與人工智能實驗室(特別是谷歌和 OpenAI)的類似閉源模型相當。

人們在不斷探索,現(xiàn)實也很酷:大家參與的是去中心化的全球化科學研究,研究成果會在 arXiv 、學術會議和社交媒體上公開分享。

如果我們正在進行如此多重要的研究,為什么有些人認為進展正在放緩?引起人們抱怨的是,最新的兩個大模型 Grok 3 和 GPT-4.5 ,在此前的基礎上僅取得了微小的改進。一個尤為突出的例子是,在最新的數(shù)學奧林匹克考試中,語言模型的得分僅為 5%,這表明最近的聲明在報告系統(tǒng)能力時可能被夸大了。

人工智能「四大發(fā)明」

如果我們試圖記錄那些「重大」的突破,那些真正的范式轉變,它們似乎正在以不同的速度發(fā)生。

1. 深度神經(jīng)網(wǎng)絡:深度神經(jīng)網(wǎng)絡在 2012 年 AlexNet 模型贏得圖像識別競賽后開始起飛;

2. Transformer + 大語言模型:2017 年谷歌在《Attention Is All You Need》中提出了 Transformer,導致了 BERT(谷歌,2018)和原始 GPT(OpenAI,2018)的誕生;

3. RLHF(基于人類反饋的強化學習):據(jù)我所知,最早在 OpenAI 2022 年的 InstructGPT 論文中提出;

4. 推理:2024 年 OpenAI 發(fā)布了 o1,隨后 DeepSeek 發(fā)布了 R1。

其實,這四件事(深度神經(jīng)網(wǎng)絡→Transformer 語言模型→RLHF→推理)就概括了 AI 領域發(fā)生的一切:我們有了深度神經(jīng)網(wǎng)絡(主要是圖像識別系統(tǒng)),然后是文本分類器,然后是聊天機器人,現(xiàn)在我們有了推理模型(不管那是什么)。

假設想要實現(xiàn)第五次這樣的突破,研究一下已有的這四個案例可能會有所幫助。

是什么新的研究 idea 導致了這些突破性事件?所有這些突破的基礎機制在 1990 年代甚至更早就已存在,這并不荒謬。我們正在應用相對簡單的神經(jīng)網(wǎng)絡架構,進行有監(jiān)督學習(1 和 2)或強化學習(3 和 4)。

交叉熵的有監(jiān)督學習,即預訓練語言模型的主要方式,源自 1940 年代 Claude Shannon 的工作。強化學習是通過強化學習高頻訓練(RLHF)和推理訓練對語言模型進行后期訓練的主要方法,它出現(xiàn)得稍微晚一些。它的出現(xiàn)可以追溯到 1992 年策略梯度方法的引入(這些 idea 在 1998 年 Sutton & Barto 出版的《強化學習》教科書第一版時就已經(jīng)存在了)。

如果 idea 不是新的?那什么是?

這些「重大突破」可以說是我們已知一段時間的東西的新應用。首先,這意味著「下一個重大突破」可能不會來自一個全新的 idea,而是我們已經(jīng)知道一段時間的東西的重新浮現(xiàn)。

但這里缺失一個部分 —— 這四次突破中的每一次都使我們能夠從新的數(shù)據(jù)源學習:

1. AlexNet 及其后續(xù)工作解鎖了 ImageNet,一個大型的分類標簽圖像數(shù)據(jù)庫,推動了計算機視覺十五年來的進步 ;

2. Transformer 解鎖了在「互聯(lián)網(wǎng)」上的訓練,以及下載、分類和解析網(wǎng)絡上所有文本的競賽(現(xiàn)在看來我們大部分已經(jīng)完成);

3. RLHF 讓我們可以從表明什么是「好文本」的人類標簽中學習(主要是一種感覺);

4. 推理似乎讓我們從「驗證器」中學習,比如計算器和編譯器,它們可以評估語言模型的輸出。

提醒自己,這些里程碑中的每一個都標志著各自的數(shù)據(jù)源(ImageNet、網(wǎng)絡、人類、驗證器)首次大規(guī)模使用。每個里程碑之后都緊隨著一陣瘋狂的活動:研究人員競爭 (a) 從任何可用來源汲取剩余的有用數(shù)據(jù)和 (b) 通過新技巧更好地利用已有數(shù)據(jù),使我們的系統(tǒng)更高效、對數(shù)據(jù)需求更少。

預計我們將在 2025 年和 2026 年看到這種趨勢在推理模型中出現(xiàn),因為研究人員正競相尋找、分類和驗證一切可能被驗證的東西。

image.png

研究者創(chuàng)建了 ImageNet (當時最大的網(wǎng)絡公共圖像集),人工智能的進步可能是不可避免的。

新 idea 有多重要?

在這些情況下,我們實際的技術創(chuàng)新可能不會產生巨大差異,這一點值得一提。檢視一下反事實。如果我們沒有發(fā)明 AlexNet,也許另一種能處理 ImageNet 的架構會出現(xiàn)。如果我們從未發(fā)現(xiàn) Transformer,也許我們會采用 LSTM 或 SSM,或者找到其他全新的方式來從我們在網(wǎng)絡上可用的大量有用訓練數(shù)據(jù)中學習。

這與一些人認為「除了數(shù)據(jù)之外什么都不重要」的理論一致。一些研究人員觀察到,對于我們所做的所有訓練技術、建模技巧和超參數(shù)調整,總體上產生最大差異的是改變數(shù)據(jù)。

一個有趣的例子是,一些研究人員致力于使用 Transformer 以外的架構開發(fā)一種新的類 BERT 模型。他們花了大約一年時間以數(shù)百種不同方式調整架構,并設法創(chuàng)造出一種不同類型的模型(這是一種狀態(tài)空間模型或 SSM),當在相同數(shù)據(jù)上訓練時,其性能與原始 Transformer 大致相當。

這一發(fā)現(xiàn)的等價性真正深刻,因為它暗示了我們可能從給定數(shù)據(jù)集中學習到的東西有一個上限。世界上所有的訓練技巧和模型升級都無法繞過這個冷酷的事實,即從給定的數(shù)據(jù)集中只能學到這么多。

也許,對新 idea 的漠不關心就是我們應該從《苦澀的教訓》中得到的。如果數(shù)據(jù)是唯一重要的東西,為什么 95% 的人都在研究新方法?

下一個范式轉變從何而來?

會是 YouTube 嗎?

顯而易見的結論是,我們的下一個范式轉變不會來自強化學習的改進或一種奇特的新型神經(jīng)網(wǎng)絡,而是會出現(xiàn)在我們解鎖以前未曾訪問或未能適當利用的數(shù)據(jù)源時。

許多人正在努力利用的一個明顯信息源是視頻。根據(jù)網(wǎng)絡上的一個隨機網(wǎng)站,每分鐘約有 500 小時的視頻上傳到 YouTube。這是一個荒謬的數(shù)據(jù)量,比整個互聯(lián)網(wǎng)上可用的文本多得多。它也可能是一個更豐富的信息源,因為視頻不僅包含單詞,還包含它們背后的語調以及關于物理和文化的豐富信息,這些都無法從文本中獲得。

可以肯定地說,一旦我們的模型足夠高效,或者我們的計算機變得足夠強大,谷歌就會開始在 YouTube 上訓練模型。畢竟,他們擁有這個平臺;不利用這些數(shù)據(jù)為自己謀利將是愚蠢的。

AI 下一個「范式」的最后一個競爭者是某種具身化的數(shù)據(jù)收集系統(tǒng) —— 或者,用普通人的話來說,機器人。目前,我們無法以適合在 GPU 上訓練大型模型的方式從攝像頭和傳感器收集和處理信息。如果我們能夠構建更智能的傳感器或擴展我們的計算機直到它們能夠輕松處理來自機器人的大量數(shù)據(jù)涌入,我們可能能夠以有益的方式使用這些數(shù)據(jù)。

很難說 YouTube、機器人還是其他什么東西將成為 AI 的下一個大事件。我們現(xiàn)在似乎深深扎根于語言模型陣營,但我們似乎也很快就會用盡語言數(shù)據(jù)。

但如果我們想在 AI 方面取得進步,也許我們應該停止尋找新想法,開始尋找新數(shù)據(jù)!

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-12 08:15:24

2025-03-31 09:32:00

視覺生產AI模型

2020-03-25 11:27:56

薪資標準互聯(lián)網(wǎng)

2021-04-14 17:04:34

計數(shù)排序數(shù)組

2018-03-05 18:30:27

區(qū)塊鏈側鏈共識算法

2015-10-29 09:35:12

BAT趨勢數(shù)據(jù)

2014-03-17 09:31:36

Linux桌面

2021-11-08 07:57:17

物聯(lián)網(wǎng)無源物聯(lián)網(wǎng)IoT

2019-03-28 16:20:50

華為云

2017-10-24 15:05:22

云計算人工智能AI

2014-06-16 09:11:29

快數(shù)據(jù)大數(shù)據(jù)

2014-08-15 10:34:42

快數(shù)據(jù)大數(shù)據(jù)

2024-06-27 10:37:56

2015-10-19 10:11:00

2017-02-19 15:09:47

深度學習機器閱讀

2013-01-17 10:09:50

JavaSpring

2021-08-11 18:23:08

數(shù)據(jù)平臺IT

2022-02-28 00:14:30

人工智能數(shù)據(jù)機器學習

2013-01-08 17:10:49

芯片
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品视频一二三区 | 99re视频在线 | 91精品国产乱码久久蜜臀 | 91啪影院| 美女国内精品自产拍在线播放 | 国产精品久久久爽爽爽麻豆色哟哟 | 久热爱 | 午夜影院视频在线观看 | 在线免费观看日本 | 一区二区日韩 | 日韩高清成人 | 国产一区二区三区在线看 | 99视频在线免费观看 | 国产精品久久国产愉拍 | 日日摸日日添日日躁av | 国产精品一区网站 | 久久99精品视频 | 久久99精品国产自在现线小黄鸭 | 97人人草 | 一区中文字幕 | 国产亚洲精品久久午夜玫瑰园 | 精品久久久久久久人人人人传媒 | 国产精品成人久久久久a级 久久蜜桃av一区二区天堂 | av网站在线播放 | 亚洲欧洲小视频 | 夜夜艹 | 国产免费福利在线 | 国产成人精品免费 | 91.com视频| 日韩在线一区二区 | 日本精品久久久久久久 | 国产亚洲高清视频 | 日韩视频在线免费观看 | 欧美国产视频 | 亚洲一区二区三区 | 欧美日韩福利 | 久久精品国产99国产 | 久久精品天堂 | 日韩在线一区二区 | 欧美亚洲在线视频 | 欧产日产国产精品v |