成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人類沒有足夠的高質量語料給AI學了,2026年就用盡,網友:大型人類文本生成項目啟動!

人工智能
要知道,這可是把人類語言數據增長率考慮在內預測出的結果,換而言之,這幾年人類新寫的論文、新編的代碼,哪怕全都喂給AI也不夠。

AI胃口太大,人類的語料數據已經不夠吃了。

來自Epoch團隊的一篇新論文表明,AI不出5年就會把所有高質量語料用光。

圖片

要知道,這可是把人類語言數據增長率考慮在內預測出的結果,換而言之,這幾年人類新寫的論文、新編的代碼,哪怕全都喂給AI也不夠。

照這么發展下去,依賴高質量數據提升水平的語言大模型,很快就要迎來瓶頸。

已經有網友坐不住了:

這太荒謬了。人類無需閱讀互聯網所有內容,就能高效訓練自己。

我們需要更好的模型,而不是更多的數據。

圖片

還有網友調侃,都這樣了不如讓AI吃自己吐的東西:

可以把AI自己生成的文本當成低質量數據喂給AI。

圖片

讓我們來看看,人類剩余的數據還有多少?

文本和圖像數據“存貨”如何?

論文主要針對文本和圖像兩類數據進行了預測。

首先是文本數據。

數據的質量通常有好有壞,作者們根據現有大模型采用的數據類型、以及其他數據,將可用文本數據分成了低質量和高質量兩部分。

高質量語料,參考了Pile、PaLM和MassiveText等大型語言模型所用的訓練數據集,包括維基百科、新聞、GitHub上的代碼、出版書籍等。

圖片

低質量語料,則來源于Reddit等社交媒體上的推文、以及非官方創作的同人小說(fanfic)等。

根據統計,高質量語言數據存量只剩下約4.6×10^12~1.7×10^13個單詞,相比當前最大的文本數據集大了不到一個數量級。

結合增長率,論文預測高質量文本數據會在2023~2027年間被AI耗盡,預估節點在2026年左右。

看起來實在有點快……

圖片

當然,可以再加上低質量文本數據來救急。根據統計,目前文本數據整體存量還剩下7×10^13~7×10^16個單詞,比最大的數據集大1.5~4.5個數量級。

如果對數據質量要求不高,那么AI會在2030年~2050年之間才用完所有文本數據。

圖片

再看看圖像數據,這里論文沒有區分圖像質量。

目前最大的圖像數據集擁有3×10^9張圖片。

據統計,目前圖片總量約有8.11×10^12~2.3×10^13張,比最大的圖像數據集大出3~4個數量級。

論文預測AI會在2030~2070年間用完這些圖片。

圖片

顯然,大語言模型比圖像模型面臨著更緊張的“缺數據”情況。

那么這一結論是如何得出的呢?

計算網民日均發文量得出

論文從兩個角度,分別對文本圖像數據生成效率、以及訓練數據集增長情況進行了分析。

值得注意的是,論文統計的不都是標注數據,考慮到無監督學習比較火熱,把未標注數據也算進去了。

以文本數據為例,大部分數據會從社交平臺、博客和論壇生成。

為了估計文本數據生成速度,有三個因素需要考慮,即總人口、互聯網普及率和互聯網用戶平均生成數據量。

例如,這是根據歷史人口數據和互聯網用戶數量,估計得到的未來人口和互聯網用戶增長趨勢:

圖片

再結合用戶生成的平均數據量,就能計算出生成數據的速率。(由于地理和時間變化復雜,論文簡化了用戶平均生成數據量計算方法)

根據這一方法,計算得出語言數據增長率在7%左右,然而這一增長率會隨著時間延長逐漸下降。

預計到2100年,我們的語言數據增長率會降低到1%。

同樣類似的方法分析圖像數據,當前增長率在8%左右,然而到2100年圖像數據增長率同樣會放緩至1%左右。

論文認為,如果數據增長率沒有大幅提高、或是出現新的數據來源,無論是靠高質量數據訓練的圖像還是文本大模型,都可能在某個階段迎來瓶頸期。

對此有網友調侃,未來或許會有像科幻故事情節一樣的事情發生:

人類為了訓練AI,啟動大型文本生成項目,大家為了AI拼命寫東西。

圖片

他稱之為一種“對AI的教育”:

我們每年給AI送14萬到260萬單詞量的文本數據,聽起來似乎比人類當電池要更酷?

圖片

你覺得呢?

論文地址:https://arxiv.org/abs/2211.04325

參考鏈接:https://twitter.com/emollick/status/1605756428941246466

責任編輯:武曉燕 來源: 量子位
相關推薦

2023-08-04 17:33:27

Meta音頻AI

2020-09-07 14:15:16

AI 數據人工智能

2017-07-14 09:54:47

代碼函數程序

2024-11-05 13:30:00

2023-06-16 13:02:22

GPT-5GPT-4AI

2021-08-08 14:26:24

SQL數據庫開發

2011-05-31 13:43:46

外鏈

2024-11-25 14:30:00

2025-03-17 13:51:06

2024-08-26 15:20:45

2024-01-23 10:35:09

ChatGPT人工智能

2011-03-04 10:11:09

JavascriptAPI

2012-09-13 10:44:18

Python代碼

2023-07-06 14:51:30

開發高質量軟件

2020-06-29 14:29:07

人工智能人類工作

2022-11-14 10:04:36

AI模型

2023-05-26 15:36:56

2024-01-02 11:36:32

AI人工成本
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美黑人一级爽快片淫片高清 | 欧美国产一区二区三区 | 成人午夜影院 | 热99精品视频 | 巨大黑人极品videos精品 | 九九九久久国产免费 | 亚洲高清视频在线观看 | 亚洲视频在线一区 | 日韩欧美中文在线 | 91美女在线观看 | 在线观看亚洲专区 | 久草免费在线视频 | 视频一区二区在线观看 | 在线一区二区观看 | 国产精品高清在线 | 一区二区三区欧美 | 中文字幕在线第二页 | 欧美一区二不卡视频 | 中文字幕日本一区二区 | 在线免费国产视频 | 91毛片网| 亚洲久久一区 | 国产精品久久久久久吹潮 | 少妇精品久久久久久久久久 | 日韩视频中文字幕 | 亚洲免费在线观看 | 秋霞电影院午夜伦 | 欧美亚洲网站 | 国产精品污www一区二区三区 | 瑞克和莫蒂第五季在线观看 | 亚洲欧洲日韩精品 中文字幕 | 国产午夜三级一区二区三 | 久久国产精品一区二区三区 | 久久亚洲综合 | 天天插天天操 | 成人高清在线视频 | 国产一区二区三区四区五区3d | 国产日韩亚洲欧美 | 欧美婷婷 | 欧美一级二级视频 | 亚洲视频一区在线播放 |