互聯網24.1%的流量是刷出來的,爬蟲被用來作惡,有多可怕?
爬蟲和人一樣,也分善惡。
像百度、谷歌這樣的搜索引擎,不斷地爬取網絡上的各種信息,分析這些信息,是為了給用戶提供需要的信息,同時還能給網站增加流量。用戶、網站都很開心,這樣的爬蟲我們稱之為善意爬蟲。
但是,有的爬蟲卻不是這樣的,它恨不得每秒訪問你的網站,點擊幾萬次,毫不留情的搬走網絡數據,一點點殘渣都不留下,這種就是惡意爬蟲。
著名調查機構Aberdeen Group曾經在2019年做過一次調查,整個互聯網中,惡意爬蟲產生的流量,占全網流量的24.1%。

這些流量除了消耗資源來,對互聯網來說,沒有產生任何的價值。
惡意爬蟲主要寄生在出行、社交、電商等各大行業,無時無刻不在侵擾從業者。
出行是重災區
哪一個行業被爬蟲襲擾最多,從驗證碼識別難度就能看出來。出行行業中惡意爬蟲占比最高,驗證碼識別難度首屈一指。
許多用戶都有曾經被12306驗證碼支配過的恐懼。如此高識別難度的驗證碼,不是為了故意刁難,而是為了對抗惡意爬蟲。

公開數據顯示,12306最高峰時1天內頁面瀏覽量達813.4億次,1小時最高點擊量59.3億次,平均每秒164.8萬次。這還是加了驗證碼后的數據。
可想而知,惡意爬蟲是多么想爬取12306的數據。
除了鐵路購票,航空運輸,酒店訂購等等,爬蟲都不挑食,照單全收。
營銷的集中營
爬蟲也很喜歡各大社交平臺,尤其是微博。
爬蟲會不斷地獲取某個人微博的列表、狀態和索引,不斷地瘋狂關注、點贊和瀏覽,將一些運營數據蹭蹭蹭地刷上去,營造一種很熱鬧的假象。

這類騷操作還有很多。
比如某一明星的微博發起了一項活動,他們就能指揮爬蟲大軍去搶,妥妥地將獎品收入囊中。
爬電商平臺
很多人都用過類似比價、返利的APP,這些APP也有爬蟲的功勞。
它們會去各大電商平臺,爬取價格數據,聚合到APP上供用戶購買,再通過廣告、競價等方式獲得收入。
爬蟲違不違法?
說了這么多,難道我國現行的法律,不能管管嗎?
翻一翻《中華人民共和國網絡安全法》,我們看不到有任何一條,關于爬取網絡公開信息是違法行為的條款。
只要數據是公開的,而且爬取的時候,不會破壞對方的系統,并不會觸犯相關的法律。
但是,對于企業來說,這些爬蟲的行為,確實是傷害到自己,造成很多的資源浪費,還會使自己在同行競爭中處于不利地位。
所以,一般來說,企業往往會采取很多措施,來提高爬蟲的準入門檻,比如圖片驗證碼、滑塊驗證、封禁IP等等。
除了這些手段,有的企業還會使用Web應用防火墻(WAF)進行防護,識別和管理爬蟲,抵御惡意爬蟲帶來的危害。

企業與爬蟲的戰爭,是一場艱難的、持久的戰爭,取得完全勝利,是不可能的,但我們相信在對抗這條戰線上,會達到一個精妙的平衡狀態,爬蟲的準入門檻,也會不斷提升。