成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4耗盡全宇宙數據!OpenAI接連吃官司,竟因數據太缺了,UC伯克利教授發出警告

人工智能
近日,著名UC伯克利計算機科學家Stuart Russell稱,ChatGPT和其他AI工具的訓練可能很快耗盡「全宇宙的文本」。

窮盡「全網」,生成式AI很快無數據可用。

近日,著名UC伯克利計算機科學家Stuart Russell稱,ChatGPT和其他AI工具的訓練可能很快耗盡「全宇宙的文本」。

換句話說,訓練像ChatGPT這樣的AI,將因數據量不夠而受阻。

圖片圖片

這可能會影響生成式AI開發人員,在未來幾年收集數據,以及訓練人工智能的方式。

同時,Russell認為人工智能將在「語言輸入,語言輸出」的工作中取代人類。

數據不夠,拿什么湊?

Russell近來的預測引起了大家重點關注。

OpenAI和其他生成式AI開發人員,為訓練大型語言模型,開始進行數據收集。

然而,ChatGPT和其他聊天機器人不可或缺的數據收集實踐,正面臨著越來越多的審查。

圖片圖片

其中就包括,未經個人同意情況下創意被使用,以及平臺數據被自由使用感到不滿的一些高管。

但Russell的洞察力指向了另一個潛在的弱點:訓練這些數據集的文本短缺。

去年11月,MIT等研究人員進行的一項研究估計,機器學習數據集可能會在2026年之前耗盡所有「高質量語言數據」。

圖片圖片

論文地址:https://arxiv.org/pdf/2211.04325.pdf

根據這項研究,「高質量」集中的語言數據來自:書籍、新聞文章、科學論文、維基百科和過濾后的網絡內容等。

而加持當紅炸子雞ChatGPT背后的模型GPT-4同樣接受了大量優質文本的訓練。

這些數據來自公共在線的資源(包括數字新聞來源和社交媒體網站)

從社交媒體網站「數據抓取」,才導致馬斯克出手限制用戶每天可以查看的推文數量。

圖片圖片

Russell表示,盡管許多報道未經證實,但都詳細說明了OpenAI從私人來源購買了文本數據集。雖然這種購買行為可能存在解釋,但自然而然的推斷是,沒有足夠的高質量公共數據了。

一直以來,OpenAI尚未公開GPT-4背后訓練的數據。

而現在,OpenAI需要用「私人數據」來補充其公共語言數據,以創建該公司迄今最強大、最先進的人工智能模型 GPT-4。

足見,高質量數據確實不夠用。

OpenAI在發布前沒有立即回復置評請求。

OpenAI深陷數據風波

近來,OpenAI遇上了大麻煩,原因都和數據有關。

先是16人匿名起訴OpenAI及微軟,并提交了長達157頁的訴訟,聲稱他們使用了私人談話和醫療記錄等敏感數據。

圖片圖片

他們的索賠金額高達30億美元,訴訟中指出,

盡管制定了購買和使用個人信息的協議,但是OpenAI和微軟系統性地從互聯網中竊取了3000億個單詞,包括數百萬未經同意獲取的個人信息。

這其中包含賬戶信息、姓名、聯系方式、電子郵件、支付信息、交易記錄、瀏覽器數據、社交媒體、聊天數據、cookie等等。

這些信息被嵌入到ChatGPT中,但這些恰恰反映出個人愛好、觀點、工作履歷甚至家庭照片等。

而負責這次起訴的律師事務所Clarkson,此前曾負責過數據泄露和虛假廣告等問題的大規模集體訴訟。

圖片圖片

緊接著,這周又有幾位全職作者提出,OpenAI未經允許使用了自己的小說訓練ChatGPT,構成侵權。

那么是如何確定使用自己小說訓練的呢?

證據就是,ChatGPT能夠針對他們的書生成準確的摘要,這就足以說明這些書被當作數據來訓練ChatGPT。

作者Paul Tremblay和Mona Awad表示,「ChatGPT未經許可就從數千本書中拷貝數據,這侵犯了作者們的版權」。

圖片圖片

起訴書中預估,OpenAI的訓練數據中至少包含30萬本書,其中很多來自侵權網站。

比如,GPT-3訓練數據情況披露時,其中就包含2個互聯網圖書語料庫,大概占比為15%。

2位起訴的作者認為,這些數據就是來自一些免費的網址,比如Z-Library、Sci-Hub等。

另外2018年,OpenAI曾透露訓練GPT-1中的數據就包括了7000+本小說。起訴的人認為這些書沒有獲得作者認可就直接使用。

另謀他法?

不得不說,OpenAI使用數據來源一事確實存在諸多爭議。

今年2月,《華爾街日報》記者Francesco Marconi曾表示,新聞媒體的數據也被用來訓練ChatGPT。

Marconi讓ChatGPT列了一個清單,竟有20家媒體。

圖片圖片

早在今年5月,Altman在接受采訪時曾表示,OpenAI已經有一段時間沒有使用付費客戶數據來訓練大語言模型了。

客戶顯然不希望我們訓練他們的數據,所以我們改變了計劃,不再這么做。

圖片圖片

其實,OpenAI在3月初,曾悄然更新了服務條款。

Altman提到,現在公司正在開發的新技術,可以使用更少的數據來訓練模型。

或許從OpenAI身上受到了啟發,谷歌選擇先行堵上這一漏洞。

7月1日,谷歌更新了其隱私政策,現在的政策中明確谷歌有權收集任何公開可用的數據,并將其用于其人工智能模型的訓練。

圖片圖片

谷歌向所有用戶表明,只要是自己能夠行公開渠道獲得的內容,都可以拿來訓練Bard以及未來的AI。

參考資料:

https://www.businessinsider.com/ai-could-run-out-text-train-chatbots-chatgpt-llm-2023-7


責任編輯:武曉燕 來源: 新智元
相關推薦

2023-05-31 16:15:51

模型圖像

2024-11-26 13:40:00

2023-07-11 17:41:29

OpenAIChatGPT隱私

2024-03-25 08:30:00

AI數據

2024-04-07 00:45:00

開源模型

2023-05-16 13:32:23

模型排行

2023-08-14 08:37:54

2023-06-08 11:27:10

模型AI

2024-04-15 16:09:12

2025-01-22 15:21:00

2024-09-25 09:37:16

2023-08-14 08:04:13

2025-04-10 10:02:43

2024-12-02 08:20:00

2025-04-18 08:42:52

模型推理AI

2023-04-04 13:17:00

GPUCMU開源

2023-04-07 09:28:31

模型訓練

2025-05-21 08:53:00

2023-08-05 13:45:46

模型AI

2025-05-06 15:31:55

智能模型AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品不卡 | 成人一区二区三区 | 日韩欧美国产电影 | 日韩不卡一区二区三区 | 国产欧美精品一区二区 | 欧美一区二区三区在线观看 | 日韩一区二区三区在线 | 九色网址 | 一区二区三区av | 欧美日韩国产中文 | 激情黄色在线观看 | 99久久久国产精品免费消防器 | 国产不卡一区 | 久久男人 | 91精品久久久久 | 羞羞视频免费观 | 免费一区二区 | 欧美jizzhd精品欧美巨大免费 | 精品国产一区二区三区在线观看 | 亚洲国产一区二区视频 | 日本成人在线观看网站 | 日本一区二区三区免费观看 | 午夜男人免费视频 | 午夜免费视频 | 人人爽日日躁夜夜躁尤物 | 久久久久久久久久久久91 | 日韩欧美国产一区二区 | 精品国产精品国产偷麻豆 | 欧美色性 | 日日骚av | 亚洲国产精品一区二区第一页 | 国产精品久久久久无码av | 日韩综合网 | 精品二三区| 欧美电影在线 | 国产精品日韩欧美一区二区三区 | 国产精品揄拍一区二区久久国内亚洲精 | 久久99国产精品久久99果冻传媒 | 日韩av一区二区在线观看 | 国产视频精品免费 | 91久久精 |