成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI瘋狂爬蟲,把一家公司都給爬宕機了,CEO:堪比DDoS

人工智能
就在這兩天,一家7人團隊公司(Triplegangers)的網站突然宕機,CEO和員工們趕忙排查問題到底出在的哪里。

萬萬沒想到,能把一家公司網站給搞宕機的元兇,竟然是OpenAI瘋狂爬蟲的機器人——GPTBot。

(GPTBot是OpenAI早年前推出的一款工具,用來自動抓取整個互聯網的數據。)

就在這兩天,一家7人團隊公司(Triplegangers)的網站突然宕機,CEO和員工們趕忙排查問題到底出在的哪里。

不查不知道,一查嚇一跳。

罪魁禍首正是OpenAI的GPTBot。

從CEO的描述中來看,OpenAI爬蟲的“攻勢”是有點瘋狂在身上的:

我們有超過65000種產品,每種產品都有一個頁面,然后每個頁面還都有至少三張圖片。

OpenAI正在發送數以萬計的服務器請求,試圖下載所有內容,包括數十萬張照片及其詳細描述。

在分析了公司上周的日志之后,團隊進一步發現,OpenAI使用了不止600個IP地址抓取數據。

圖片

△Triplegangers服務器日志:OpenAI機器人未經許可瘋狂爬蟲

如此規模的爬蟲,就導致這家公司網站的宕機,CEO甚至無奈地表示:

這基本上就是一場DDoS攻擊。

更重要的一點是,由于OpenAI瘋狂地爬蟲,還會引發了大量的CPU使用和數據下載活動,從而導致網站在云計算服務(AWS)方面的資源消耗劇增,開銷就會大幅增長……

嗯,AI大公司瘋狂爬蟲,卻由小公司來買單。

這家小型團隊的遭遇,也是引發了不少網友們的討論,有人認為GPTBot的做法并不是抓取,更像是“偷竊”的委婉說法:

圖片

也有網友現身表示有類似的經歷,自從阻止了大公司的批量AI爬蟲,省了一大筆錢:

圖片

被爬蟲到宕機,還不知道被爬走了什么

那么OpenAI為什么要爬蟲這家初創企業的數據?

簡單來說,它家的數據確實屬于高質量的那種。

據了解,Triplegangers的7名成員花費了十多年的時間,打造了號稱最大“人類數字孿生”數據庫

網站包含從實際人類模型掃描的3D圖像文件,并且照片還帶有詳細的標簽,涵蓋種族、年齡、紋身與疤痕、各種體型等信息。

這對于需要數字化再現真實人類特征的3D藝術家、游戲制作者等,無疑具有重要價值。

圖片

雖然Triplegangers網站上有一個服務條款頁面,里面明確寫了禁止未經許可的AI抓取他們家的圖片。

但從目前的結果上來看,這完全沒有起到任何作用。

重點在于,Triplegangers沒有正確配置一個文件——Robot.txt。

Robot.txt也稱為機器人排除協議,是為了告訴搜索引擎網站在索引網絡時不要爬取哪些內容而創建的。

也就是說,一個網站要是不想被OpenAI爬蟲,那就必須正確配置Robot.txt文件,并帶有特定標簽,明確告訴GPTBot不要訪問該網站。

但OpenAI除了GPTBot之外,還有ChatGPT-User和OAI-SearchBot,它倆也有各自對應的標簽:

圖片

而且根據OpenAI官方發布的爬蟲信息來看,即便你立即正確設置了Robot.txt文件,也不會立即生效。

因為OpenAI識別更新這個文件可能需要24個小時……

CEO老哥對此表示:

如果一個網站沒有正確配置Robot.txt文件,那么OpenAI和其它公司會認為他們可以隨心所欲地抓取內容。

這不是一個可選的系統。

正因如此,也就有了Triplegangers在工作時間段網站被搞宕機,還搭上了高額的AWS費用。

截至美東時間的本周三,Triplegangers已經按照要求配置了正確的Robot.txt文件。

以防萬一,團隊還設置了一個Cloudflare賬戶來阻止其它的AI爬蟲,如Barkrowler和Bytespider。

圖片

雖然到了周四開工的時候,Triplegangers沒有再出現宕機的情況,但CEO老哥還有個懸而未決的困惑——

不知道OpenAI都從網站中爬了些什么數據,也聯系不上OpenAI……

而且令CEO老哥更加深表擔憂的一點是:

如果不是GPTBot“貪婪”到讓我們的網站宕機,我們可能不知道它一直在爬取我們的數據。

這個過程是有bug的,即便你們AI大公司說了可以配置Robot.txt來防止爬蟲,但你們把責任推到了我們身上。

最后,CEO老哥也呼吁眾多在線企業,要想防止大公司未經允許爬蟲,一定要主動、積極地去查找問題。

并不是第一例

但Triplegangers并不是第一個因為OpenAI瘋狂爬蟲導致宕機的公司。

在此之前,還有Game UI Database這家公司。

它收錄了超56000張游戲用戶界面截圖的在線數據庫,用于供游戲設計師參考。

有一天,團隊發現網站加載速度變慢,頁面加載時間延長三倍,用戶頻繁遭遇502錯誤,首頁每秒被重新加載200次。

他們一開始也以為是遭到了DDoS攻擊,結果一查日志……是OpenAI,每秒查詢2次,導致網站幾乎癱瘓。

圖片

但你以為如此瘋狂爬蟲的只有OpenAI嗎?

非也,非也。

例如Anthropic此前也被曝出來過類似的事情。

數字產品工作室Planetary的創始人Joshua Gross曾表示過,他們給客戶重新設計的網站上線后,流量激增,導致客戶云成本翻倍。

經審計發現,大量流量來自抓取機器人,主要是Anthropic導致的無意義流量,大量請求都返回404錯誤。

圖片

針對這一現象,來自數字廣告公司DoubleVerify的一份新研究顯示,AI爬蟲在2024 年導致“一般無效流量”(不是來自真實用戶的流量)增加了86%。

那么AI公司,尤其是大模型公司,為什么要如此瘋狂地“吸食”網絡上的數據?

一言蔽之,就是他們太缺用來訓練的高質量數據了。

有研究估計過,到2032年全球可用的AI訓練數據可能就會耗盡,這就讓AI公司加快了數據收集的速度。

也正因如此,OpenAI谷歌等AI公司為了獲取更多“獨家”視頻用于AI訓練,現在也正紛紛向UP主們重金求購那些“從未公開”的視頻。

而且連價格都標好了,如果是為YouTube、Instagram和TikTok準備的未發布視頻, 每分鐘出價為1~2美元(總體一般是1~4美元),且根據視頻質量和格式的不同,價格還能再漲漲。

圖片

那么你對這一現象有什么看法呢?歡迎在評論區留言討論~

參考鏈接:
[1]https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/。

[2]https://www.reddit.com/r/webscraping/comments/1bapx0j/how_did_openai_scrap_the_entire_internet_for/。

[3]https://www.marktechpost.com/2023/08/10/openai-introduces-gptbot-a-web-crawler-designed-to-scrape-data-from-the-entire-internet-automatically/。

[4]https://platform.openai.com/docs/bots/overview-of-openai-crawlers。

[5]https://www.businessinsider.com/openai-anthropic-ai-bots-havoc-raise-cloud-costs-websites-2024-9。

責任編輯:姜華 來源: 量子位
相關推薦

2014-04-17 10:01:57

2009-05-29 08:40:20

雅虎巴茨搜索公司

2021-11-18 10:31:33

計算數據 技術

2019-09-20 09:57:21

微軟開源Windows

2014-07-03 13:59:00

創業跳槽

2020-09-04 14:46:28

程序員公司代碼

2016-05-06 16:41:04

福特云計算

2020-05-07 15:05:42

5G 網絡微軟

2015-02-12 10:21:46

APP程序員

2024-02-26 00:25:00

機器人技術

2009-06-22 08:57:54

T恤無線網絡

2011-05-20 14:39:50

2020-10-07 10:22:09

網絡詐騙黑客電子郵件

2024-03-05 09:53:54

2017-05-23 11:22:15

一帶一路戴爾

2013-06-08 17:32:49

2018-09-10 13:02:48

人工智能AI創業公司

2015-08-03 09:08:41

公司賣掉發工資

2015-08-03 10:08:36

公司變賣

2025-07-02 09:25:01

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人在线免费观看 | 国产成人亚洲精品 | 日韩视频―中文字幕 | 玖玖免费 | 日本精品一区二区 | 亚洲国产欧美在线 | 欧美日韩在线电影 | 国产99视频精品免费播放照片 | 美女天堂| 精品一区电影 | 日本电影免费完整观看 | 久久夜夜 | 天堂av中文在线 | 国产福利二区 | 婷婷五月色综合香五月 | 久久精品国产一区二区 | 狠狠操狠狠搞 | 久久99精品久久久久久国产越南 | 日韩av大片免费看 | 日韩在线观看视频一区 | 很很干很很日 | 高清国产一区二区 | 五月婷婷视频 | 欧美一区二区三区视频在线观看 | 秋霞a级毛片在线看 | 亚洲精品国产一区 | 日韩手机视频 | 色综合视频| 国产免费一区二区三区网站免费 | 在线播放精品视频 | 成人在线a | 亚洲成人网在线播放 | 婷婷在线网站 | 日韩免费一二三区 | 九九精品在线 | 中文字幕在线免费视频 | 请别相信他免费喜剧电影在线观看 | 噜啊噜在线 | 黄色网毛片 | 亚洲国产精品自拍 | 国产激情视频网址 |