你被大模型DDoS了嗎？大模型“DDoS攻擊力指數”TOP10榜單出爐

作者：佚名 2025-03-20 10:54:45

想象一下，你是一個默默耕耘的開源社區管理員，服務器日復一日地為開發者提供支持，突然有一天，流量日志里冒出一堆不速之客——不是黑客，不是爬蟲愛好者，而是AI大模型的訓練機器人。

想象一下，你是一個默默耕耘的開源社區管理員，服務器日復一日地為開發者提供支持，突然有一天，流量日志里冒出一堆不速之客——不是黑客，不是爬蟲愛好者，而是AI大模型的訓練機器人。這些家伙像餓狼一樣撲向你的數據，把帶寬吃得干干凈凈，甚至連頁面加載都卡到懷疑人生。很遺憾，這不是陰謀論科幻片，而是廣大中小互聯網企業/服務正面臨的現實威脅。

DDoS新勢力：AI爬蟲

就在本周一，SourceHut——一家開源Git托管服務平臺，在其狀態頁面上無奈喊話：“我們持續遭受激進的LLM（大語言模型）爬蟲干擾，服務屢屢受阻。”為了自救，他們祭出了名為“Nepenthes”的捕蟲器，試圖困住這些為AI訓練而生的爬蟲，同時還直接封禁了Google Cloud和Microsoft Azure等云服務商的IP——因為這些地方正是爬蟲流量的重災區。

SourceHut坦言，雖然這些措施暫時控制住了局面，但也可能誤傷正常用戶，體驗降級在所難免。

這不是SourceHut第一次被“爬蟲DDoS”搞得焦頭爛額。早在2022年，他們就曾公開diss谷歌的Go Module Mirror，指責其無節制的流量請求形同“拒絕服務攻擊”。而如今，隨著生成式AI熱潮席卷全球，類似的故事在互聯網的各個角落反復上演。

維修網站iFixit去年7月就曾抱怨Anthropic的Claudebot過度爬取；云托管服務Vercel則在2024年12月披露，單月內OpenAI的GPTbot發起了5.69億次請求，Anthropic的Claudebot也有3.7億次，合計占谷歌Googlebot請求量的20%。Diaspora開發者Dennis Schubert甚至爆料，他服務器60天內70%的流量都來自LLM訓練機器人。

這些AI爬蟲為何如此猖狂？答案很簡單：數據饑渴。生成式AI的崛起讓OpenAI、Anthropic、Google等玩家對互聯網內容的渴求達到了前所未有的高度。無論是ChatGPT的對話能力，還是Claude的推理水平，背后都需要海量數據喂養。然而，這種“拿來主義”正在給中小型互聯網服務帶來沉重負擔，甚至演變成一場無形的DDoS危機。

大模型“DDoS攻擊力指數”TOP10榜單

為了更直觀地呈現這些AI爬蟲的“破壞力”，GoUpSec基于近期互聯網相關報道與公開數據，整理了一份“大模型DDoS攻擊力指數TOP10榜單”。指數綜合了爬蟲的請求量、覆蓋網站范圍、被封禁頻率以及對服務影響的嚴重程度等維度。以下是榜單及簡評：

1.Bytespider（字節跳動）

指數：95

點評：字節跳動的爬蟲王者，據Cloudflare統計，其請求量和覆蓋范圍均居首位，為自家AI產品豆包囤糧。被封禁率也高，其激進作風無人能敵。

2.GPTbot（OpenAI）

指數：90

點評：OpenAI的明星爬蟲，單月5.69億次請求讓人咋舌。雖然承諾尊重robots.txt，但偽裝流量和過載投訴仍讓它穩坐榜眼。

3.Claudebot（Anthropic）

指數：85

點評：Anthropic的訓練先鋒，3.7億次月請求+iFixit百萬次單日轟炸，堪稱“溫柔殺手”。被封禁率稍低，但破壞力不容小覷。

4.Amazonbot（亞馬遜）

指數：80

點評：為Alexa索引內容而生，流量雖不及前三，但開發者頻頻抱怨其過載行為，偽裝流量也讓人生疑。

5.Google-Extended（谷歌）

指數：75

點評：谷歌專為AI訓練設計的爬蟲，13.6%的頂級網站封禁率顯示其影響力。雙重身份（搜索+AI）讓網站主投鼠忌器。

6.AppleBot（蘋果）

指數：70

點評：蘋果為AI功能收集數據的代表，透明度較高，但DoubleVerify數據顯示其貢獻了2024年16%的無效流量。

7.Meta AI Bot（Meta）

指數：65

點評：Meta的AI野心驅使其爬蟲活躍，雖然自稱目的明確，但多用途屬性讓封禁變得復雜。

8.CCBot（Common Crawl）

指數：60

點評：開源數據集的常客，22.1%的頂級網站封禁率說明其影響廣泛，但攻擊性稍遜商業爬蟲。

9.OAI-SearchBot（OpenAI）

指數：55

點評：OpenAI的新兵，甫一亮相就被14家主流媒體封殺，潛力未完全釋放。

10.Perplexity AI Bot（Perplexity）

指數：50

點評：AI搜索新貴，偽裝成普通瀏覽器偷偷摸摸爬數據，惹惱了不少網站主。

面對“白嫖”：躺平還是對抗？

瘋狂的AI爬蟲其實也有自己的行規，2023年8月，OpenAI率先承諾GPTbot會遵守robots.txt標準，其他廠商紛紛跟進。然而現實卻是，承諾歸承諾，執行靠自覺。Diaspora的Schubert就發現，他的服務器日志里滿是偽裝成GPTbot的“山寨爬蟲”，IP來自AWS甚至美國居民網絡，顯然是惡作劇者趁亂起哄。DoubleVerify的報告更指出，2024下半年因AI爬蟲導致的“一般無效流量”（GIVT）激增86%，其中16%直接來自GPTbot、Claudebot等知名玩家。

這背后，是AI公司與網站主之間的博弈。一方面，AI廠商需要數據喂養模型，互聯網是天然的“糧倉”；另一方面，網站主卻面臨帶寬擠占、隱私爭議甚至版權糾紛的困境。SourceHut封禁云服務商、iFixit更新robots.txt，都是被動防御的縮影。更棘手的是，像Googlebot這樣身兼搜索與AI雙重任務的爬蟲，讓網站主在封禁與曝光之間左右為難（編者：谷歌2023年發布robots.txt的Google-Extended產品令牌，經允許網站運營者單獨封鎖爬蟲而不影響網頁檢索和排名）。

AI爬蟲的“DDoS效應”暴露了生成式AI熱潮下的隱憂。對于中小型服務商來說，這不僅是技術挑戰，更是生存問題。SourceHut的“Nepenthes”捕蟲器、Cloudflare的“一鍵屏蔽AI爬蟲”功能，都是技術社區的反擊嘗試。但長遠看，光靠封禁和對抗顯然不是解藥。

或許，未來的出路在于平衡——AI公司需要更透明的數據采集政策，甚至通過授權或付費模式與網站主合作；而網站主則需在保護自身權益與擁抱AI生態之間找到折中點。否則，這場爬蟲與服務的“貓鼠游戲”，只會讓互聯網的生態雪上加霜。

你被大模型DDoS了嗎？也許下一個喊救命的，就是你常上的那個小眾論壇。

責任編輯：華軒來源： GoUpSec

DDoS AI LLM

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看