成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI公布「官方爬蟲」:GPT-5靠它訓練,有需要可以屏蔽

人工智能 新聞
GPTBot 引發了關于所有權、合理使用和網絡內容創建者激勵機制的復雜爭論。雖然遵循 robots.txt 是一個很好的步驟,但仍然缺乏透明度。

眾所周知,OpenAI 從 GPT-4 開始就已經對技術細節完全保密了,最初只用一份 Tech Report 來展示基準測試結果,而閉口不談訓練數據和模型參數。盡管后來有網友各種爆料,OpenAI 也從未回應。

不難想象,訓練 GPT-4 需要海量的數據,這可不是付費購買能解決的問題。大概率,OpenAI 用了網絡爬蟲。很多用戶指控 OpenAI,理由就是這種手段會侵犯用戶的版權和隱私權。

剛剛,OpenAI 攤牌了:直接公布從整個互聯網爬取數據的網絡爬蟲 ——GPTBot。

這些數據將被用來訓練 GPT-4、GPT-5 等 AI 模型。不過 GPTBot 保證了,爬取內容絕對不包括違反隱私來源和需要付費的內容。

OpenAI 表示:「使用 GPTBot 爬取網絡數據是為了改進 AI 模型的準確性、功能性和安全性?!?/span>

網站所有者可以根據需要允許和限制 GPTBot 爬取網站數據。接下來,我們來看下 GPTBot 究竟是如何工作的,順便了解一下屏蔽方法。

首先,GPTBot 的用戶代理字符串(User-Agent String)如下:

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

使用如下方法可以將 GPTBot 添加到網站的 robots.txt,禁止 GPTBot 訪問網站:

User-agent: GPTBot

Disallow: /

還可以允許 GPTBot 訪問網站特定部分的內容:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

近期,OpenAI 因為未經明確批準而在網站數據上訓練 GPT-4 等大型語言模型而遭到強烈反對。批評者們表示,即使內容可以公開訪問,像 OpenAI 這樣的公司也應該遵循訓練協議。人們還擔心,內容在輸入 AI 系統時會被斷章取義。

但即使遵循了 robots 協議,鑒于其并不是規范,而只是約定俗成的,所以并不能保證網站的隱私。

GPTBot 發布之后,這條動態已經在 Hacker News 上引發了一場爭論,焦點是使用抓取的網絡數據來訓練人工智能系統的道德和合法性。

一部分人認為,GPTBot 的推出展示了使用公開數據研發 AI 模型的「灰色地帶」:

「在訓練完模型后還爬取數據,這真是太好了。根據推測,這些 header 不會影響他們已經抓取來訓練 GPT 的任何頁面?!?/span>

「現在,他們可以游說反抓取的監管并阻礙其他任何的追趕了?!?/span>

圖片

鑒于 GPTBot 會識別自己的身份,因此網站管理員可以通過 robots.txt 阻止它,但有些人認為允許它這樣做沒有任何好處,不像搜索引擎爬蟲會帶來流量。

一個值得關注的問題是,受版權保護的內容會在未注明出處的情況下被使用。ChatGPT 目前沒有注明出處。

圖片

還有人質疑 GPTBot 如何處理網站上的授權圖片、視頻、音樂和其他媒體。如果這些媒體在模型訓練中用到,則可能構成版權侵權。

另外一些專家認為,如果 AI 編寫的內容被反饋到訓練中,爬蟲生成的數據可能會降低模型的性能。

相反,一些人認為 OpenAI 有權自由使用公共網絡數據,并將其比作一個人從在線內容中學習。但也有人認為,如果 OpenAI 將網絡數據貨幣化以獲取商業利益,那么就應該分享利潤。

總之,GPTBot 引發了關于所有權、合理使用和網絡內容創建者激勵機制的復雜爭論。雖然遵循 robots.txt 是一個很好的步驟,但仍然缺乏透明度。

這或許是科技界下一個輿論焦點:隨著 AI 產品的快速發展,「數據」到底該怎么用?

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-08 07:58:29

2023-04-15 19:37:50

OpenAIGPT-5

2023-08-02 00:19:46

2024-01-18 12:30:03

2023-03-17 07:33:24

GPT-5GPT-4OpenAI

2023-04-13 13:38:59

2023-08-02 13:52:59

GPT-5模型

2025-06-19 09:06:00

2023-11-14 14:26:29

OpenAIGPT-5

2023-08-10 15:22:48

人工智能OpenAI

2023-08-11 10:44:20

GPT-5

2024-08-28 13:00:42

2023-08-08 14:17:58

OpenAI模型

2025-02-13 09:15:00

2024-01-22 13:57:00

模型訓練

2023-12-19 19:50:49

GPT-5OpenIA風險

2025-02-10 01:00:00

OpenAIGPT-5GPT-4.5

2024-06-24 00:02:00

GPT-5GPT-4oOpenAI

2025-02-20 11:20:41

2024-02-19 00:00:00

OpenAIChatGPT功能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩欧美视频网站 | 欧美日韩国产一区二区三区 | 97国产在线观看 | 观看毛片 | 国内精品久久久久 | 最新中文字幕在线播放 | 精品国产网 | 国产色| 一区二区三区亚洲 | 精品国产乱码久久久久久a丨 | 精品一二区 | 久久久亚洲| 日日干日日射 | 欧美九九| 一级片在线视频 | 国产精品夜间视频香蕉 | 婷婷丁香在线视频 | 久久亚| 国产成人精品久久二区二区 | 一级免费毛片 | 91久久精品国产91久久性色tv | 欧美福利三区 | 精品久久久久久久人人人人传媒 | 国产视频亚洲视频 | 九九热免费视频在线观看 | 精久久 | 国产精品美女一区二区三区 | 国产亚洲欧美在线视频 | 午夜一区 | 亚洲精品国产第一综合99久久 | 国产精品亚洲一区二区三区在线观看 | 麻豆视频在线免费看 | 亚州无限乱码 | 久久免费精彩视频 | 韩国av电影网 | 午夜精品一区二区三区在线观看 | 福利视频一区二区 | 欧美精品二区三区 | 欧美精选一区二区 | 亚洲成人天堂 | 91精品久久久久久久久久入口 |