成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLaMA都在用的開源數據集慘遭下架:包含近20萬本書,對標OpenAI數據集

人工智能
GPT-3發布后,官方披露其訓練數據集中15%的內容來自兩個名為“Books1”、“Books2”的電子圖書語料庫,不過具體內容一直沒有被透露。

開源數據集因侵權問題,慘遭下架。

如LLaMA、GPT-J等,都用它訓練過。

如今,托管了它3年的網站,一夜之間刪除了所有相關內容。

這就是Books3,一個由將近20萬本圖書組成的數據集,大小將近37GB。

圖片圖片

丹麥一家反盜版組織表示,在該數據集中發現了150本其成員的書籍,構成侵權,所以要求平臺下架。

現在該平臺上的Books3網頁鏈接已經“404”。

數據集的最初開發者無奈表示,Books3的下架是開源圈的一場悲劇。

Books3是什么?

Books3在2020年發布,由AI開發者Shawn Presser上傳,被收錄在Eleuther AI的開源數據集Pile中。

它總計包含197000本書,包含來自盜版網站Bibliotik的所有書籍,意在對標OpenAI的數據集,但主打開源。

這也是Books3名字的來源之處——

GPT-3發布后,官方披露其訓練數據集中15%的內容來自兩個名為“Books1”、“Books2”的電子圖書語料庫,不過具體內容一直沒有被透露。

圖片圖片

開源的Books3則給更多項目提供了一個和OpenAI競爭的機會。

比如今年爆火的LLaMA、以及Eleuther AI的GPT-J等,都用上了Books3.

要知道,圖書數據一直是大模型預訓練中核心的語料素材,它能為模型輸出高質量長文本提供參考。

很多AI巨頭使用的圖書數據集都是不開源,甚至是非常神秘的。比如Books1/2,關于其來源、規模的了解,更多都是各界猜測。

由此,開源數據集對于AI圈內相當重要。

為了更方便獲取,Books3被放到了The Eye上托管。這是一個可以存檔信息、提取公開數據的平臺。

而這一次慘遭下架,說的也是這一平臺。

丹麥反盜版組織權利聯盟向The Eye提出了下架請求,并且通過了。

不過好消息是,Books3并沒有完全消失,還是有其他辦法獲取的。

Wayback Machine上還有備份,或者可以從Torrent客戶端下載。

作者老哥在推特上給出了多個方法。

圖片圖片

“沒有Books3就沒法做自己的ChatGPT”

實際上,對于這次下架風波,數據集作者老哥有很多話想說。

他談到,想要做出像ChatGPT一樣的模型,唯一的方法就是創建像Books3這樣的數據集。

每一個盈利性質的公司都在秘密做數據集,如果沒有Books3,就意味著只有OpenAI等科技巨頭才能訪問這些圖書數據,由此你將無法做出自己的ChatGPT。

在作者看來,ChatGPT就像是90年代的個人網站一樣,任何人都能做是很關鍵的。

不過由于Books3很大一部分數據來自于盜版網站,所以作者也表示,希望之后能有人做出來比Books3更好的數據集,不僅提升數據質量,而且尊重書籍版權。

圖片圖片

這種類似的情況在OpenAI也有發生。

一個多月以前,兩位全職作者以未經允許擅自將作品用來訓練ChatGPT,起訴了OpenAI。

而之所以會發生這種情況,很有可能是OpenAI的數據集Books2從影子圖書館(盜版網站)中獲取了大量數據。

所以也有聲音調侃說,AI不僅帶來了新的技術突破,也給反盜版組織帶來了新任務。

參考鏈接:
[1]https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/[2]https://gizmodo.com/anti-piracy-group-takes-ai-training-dataset-books3-off-1850743763[3]https://interestingengineering.com/innovation/anti-piracy-group-shuts-down-books3-a-popular-dataset-for-ai-models[4]https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/

責任編輯:武曉燕 來源: 量子位
相關推薦

2022-05-06 15:14:20

視頻數據

2020-12-29 10:56:38

惡意軟件SoReL-20M網絡安全

2011-03-21 09:38:47

數據挖掘企業

2024-07-11 11:07:41

2020-08-10 15:11:30

數據庫工具技術

2020-07-02 14:25:06

數據庫工具技術

2024-01-02 11:47:00

自動駕駛數據

2023-09-12 13:59:41

OpenAI數據集

2015-11-13 10:38:53

Github系統內部開源軟件

2021-01-08 08:04:40

JavaScript開發

2025-03-11 00:00:15

2021-04-12 17:47:25

Facebook開源AI

2022-02-16 13:46:00

模型數據開源

2023-12-01 16:23:52

大數據人工智能

2010-09-06 17:05:52

DB2數據集

2010-04-21 09:49:10

Oracle數據庫字符

2013-08-19 14:01:01

程序員創意

2019-05-06 09:10:55

網絡安全黑客攻擊

2018-06-21 15:15:05

數據庫Redis書籍

2017-05-09 17:53:09

數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产在线精品一区二区三区 | 国产精品小视频在线观看 | 成年视频在线观看福利资源 | 美女网站视频免费黄 | 中文字幕在线一区二区三区 | 亚洲一区二区三区四区五区午夜 | 福利网址 | 国产综合精品一区二区三区 | 欧美一区二区免费 | 久视频在线观看 | 精品久 | 国产中文字幕在线观看 | 国产精品久久久久久久久久免费看 | 精品人伦一区二区三区蜜桃网站 | 欧美 日韩精品 | 又爽又黄axxx片免费观看 | 国产成人精品999在线观看 | 91精品久久久久久久久中文字幕 | 97av在线| 色综合天天综合网国产成人网 | 亚洲欧美视频一区二区 | 精品视频一区二区在线观看 | 久久久精彩视频 | 日韩三片| 欧美日韩免费视频 | 人人人艹| 97精品国产97久久久久久免费 | 久久久久久久国产精品 | 毛片日韩| 999免费观看视频 | 天天干天天色 | 久久精品| 日韩视频在线免费观看 | 亚洲中午字幕 | 日韩成人一区 | 一二三在线视频 | 99精品视频免费在线观看 | 国产一级在线 | 成人性视频免费网站 | 亚洲香蕉在线视频 | 亚洲精彩视频在线观看 |