成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Nature警告:AI「數據饑渴癥」引爆學術宕機潮!90%知識庫瀕臨崩盤

人工智能 新聞
學術網站本是知識的寶庫,卻因AI爬蟲的瘋狂掠奪而陷入癱瘓。從DiscoverLife到BMJ,數百萬次異常訪問讓服務器不堪重負,威脅著開放獲取的科研命脈。這場「數字蝗災」究竟因何而起?學術界又該如何應對?

假如一個平日里寧靜的圖書館,突然涌入一大群不速之客,他們不閱覽、不沉思,只是一味地瘋狂復印每一本書的每一頁。

這喧囂吵鬧的場面,怎能不打擾那些正埋首書海、專心閱讀的人們呢?

如今,學術網站正遭遇類似的「數字入侵」。

就在近日,Nature發表文章詳細揭露了這些行為。

圖片

文章地址:https://www.nature.com/articles/d41586-025-01661-4

數字「蝗災」席卷學術界

DiscoverLife是一個在線圖像庫,擁有近300萬張珍貴的物種照片,是很多生物學家的科研生命線。

圖片

然而,從今年2月開始,該網站每天都被數百萬次異常訪問淹沒,頁面加載緩慢,甚至徹底癱瘓。

當你試圖打開一張稀有昆蟲的圖片時,卻只能面對「服務器繁忙」的提示。

罪魁禍首是誰?

不是黑客,也不是病毒,而是一群悄無聲息的AI爬蟲,正在瘋狂「啃食」數據,為生成式人工智能「喂食」。

這些大量抓取數據的爬蟲,正困擾學術出版商與研究人員,尤其是運營期刊論文、數據庫和其他資源網站的人。

「現在的情況就像是西部大荒野,」PSI公司的首席執行官Andrew Pitts說。該公司為學術交流界提供經過驗證的全球IP地址庫,位于英國牛津。

「最大的問題是訪問量實在是太大了,給系統帶來了巨大的壓力。這不僅耗費資金,還干擾了真正的用戶。」

那些運營受到影響的網站正在想方設法阻止這些爬蟲機器人,減少他們造成的干擾。

但這絕非易事。特別是對資源有限的小機構來說。

「如果這些問題得不到解決,一些小型機構可能會徹底消失。」德國斯圖加特國家自然歷史博物館的動物學家Michael Orr表示。

爬蟲程序泛濫

互聯網爬蟲并非新生事物。

幾十年來,谷歌等搜索引擎的爬蟲一直在掃描網頁,助力信息檢索。

然而,生成式AI的崛起引發了「壞爬蟲」的洪流。

今年,位于倫敦的醫學期刊出版商BMJ發現,其網站上的爬蟲機器人流量已經超過了真實用戶的流量。

BMJ的首席技術官Ian Mulvany表示,這些機器人激進的行為導致服務器超載,正??蛻舻姆找惨虼酥袛唷?/span>

圖片

不只BMJ,Highwire Press(專攻學術出版的互聯網托管服務提供商)的服務交付總監Jes Kainth直言:「我們觀察到壞爬蟲的流量激增,這已成為嚴重的問題?!?/span>

開放獲取知識庫聯合會(COAR)在四月份的報告中指出,在其調查的66個成員中,超過90%的成員表示曾遭遇AI爬蟲抓取內容。

其中大約三分之二的成員因此經歷了服務中斷。

COAR執行主任Kathleen Shearer表示:「我們的知識庫是開放獲取的,所以某種程度上我們歡迎內容被再利用。但有些爬蟲過于激進,正造成宕機等嚴重運營問題?!?/span>

圖片

為何盯上學術網站?

數據是新石油。

這句話在AI時代被演繹得淋漓盡致。

LLM、圖像生成器這些AI工具依賴海量高質量數據進行訓練,而學術網站(期刊論文、數據庫、開放知識庫)成了「金礦」。

因為這些網站內容權威、新鮮,且往往結構化良好。

正如網絡服務提供商Cloudflare副總裁Will Allen所言:「如果你的內容新穎或相關度高,對構建AI聊天機器人的開發者來說就是無價之寶?!?/span>

這些爬蟲往往通過匿名IP地址行動,繞過付費墻,甚至無視網站設置的robots.txt文件(用于規范爬蟲行為)。

Wiley出版社的高級副總裁Josh Jarrett表示,他們發現爬蟲試圖獲取訂閱內容。4月,Wiley還發布聲明,強調未經授權的非法爬取不可接受。

但精明的壞爬蟲非常擅長繞過付費墻。

危機下的掙扎

面對爬蟲洪流,學術網站在奮力自救。

但在許多情況下,限制機器人訪問而不影響正常用戶十分的困難。

一種常見的方法是集成一個文件,告知機器人哪些行為被允許或禁止。

但壞爬蟲往往無視規則。

另一種方法是全面封禁所有爬蟲類似的行為,但這種一刀切的行為又可能誤傷合法用戶。

Mulvany解釋說,學者常通過代理服務器訪問期刊(這意味著大量請求可能來自同一個IP地址),這種訪問方式很像是機器人行為。

「我們得找到一個平衡點,既要保護網站不被流量激增搞崩,又不能影響用戶正常訪問這些資源。」Mulvany表示。

「這事真挺煩人的,得花不少精力來減少這些風險。」

這些網站也可以屏蔽掉特定的爬蟲程序,但需要首先區分善意和惡意爬蟲。

Cloudflare和PSI公司正努力識別壞爬蟲,但新型AI爬蟲層出不窮,難以完全遏制。

「我們急需國際上達成關于AI公平使用和尊重這類資源的協議。」Orr表示。

「否則,長遠來看,這些工具將找不到可用的訓練資源?!?/span>

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-07-29 08:00:00

模型論文

2024-11-25 09:00:00

2025-05-08 01:00:00

2025-04-30 09:06:23

AI知識庫大模型

2025-02-12 12:12:59

2024-01-17 16:11:30

2025-05-15 09:56:32

2025-05-09 09:13:37

2024-05-29 13:55:25

2025-04-18 12:49:58

知識圖譜大模型人工智能

2025-04-01 07:30:00

2017-04-12 13:56:47

金融服務話題推廣

2023-11-26 00:30:05

2022-05-16 09:59:30

內部威脅網絡安全

2024-08-26 07:05:00

AI大模型

2025-03-26 08:50:00

OllamaFastGPTDeepseek

2011-11-04 14:07:40

存儲
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91极品尤物在线播放国产 | 国产精品久久午夜夜伦鲁鲁 | 成人动漫一区二区 | www.操com| 国产一区二区在线免费播放 | 一级毛片视频在线 | 国产一区二区三区久久久久久久久 | 国产色网| 521av网站| 亚洲午夜精品一区二区三区他趣 | 黄色播放 | 久久国内精品 | 午夜爽爽爽男女免费观看 | 日韩a在线| 日本午夜网站 | 国产在线中文字幕 | 国产精品99999999 | 国产精品夜色一区二区三区 | 免费看色 | 国产精品精品视频一区二区三区 | 一区二区在线不卡 | 国产精品一区二区三区在线 | 成年人网站国产 | 一区二区三区免费在线观看 | 欧美国产一区二区 | 91社区视频 | 午夜影院网站 | 国产在线激情视频 | 亚洲国产中文字幕 | 成人在线精品 | 久久免费精品视频 | 国产婷婷精品 | 夜夜骑av | 天堂一区二区三区 | 一区二区三区在线看 | 欧美一级片在线观看 | 91免费入口| 精品视频一区二区三区在线观看 | 亚洲美女网站 | 成人精品鲁一区一区二区 | 亚洲综合精品 |