認識網頁抓取：一切都交給AI，還是加點“人情味”？

作者：讀芯術 2020-10-22 12:38:00

對于許多專業人士來說，網頁抓取仍然是必不可少的工具。那么，對于與網絡機器人的污名，我們能做些什么呢?

本文轉載自公眾號“讀芯術”(ID：AI_Discovery)。

“互聯網上有很多數據”，這么說太保守了。事實上，2020年，“數字宇宙”預計將擁有40萬億字節或40澤字節(zettabytes)的信息，一個澤字節擁有的數據足以填滿大約五分之一曼哈頓大小的數據中心。

可供分析的信息如此之多，將收集數據的任務留給AI就顯得合情合理了。網絡機器人能以令人難以置信的速度抓取網頁，提取所需的相關信息。不過，盡管許多數據科學家和營銷人員以一種完全合乎倫理的方式獲取和使用這些信息。但很遺憾，隨著網絡人工智能日益普及，網絡機器人還是逐漸被污名化了。

對人工智能的大部分負面印象是由好萊塢電影和科幻小說間接造成的，畢竟在這些作品中，即使最美好愜意的時候也要提防著AI。此外，某些web用戶以不道德的方式使用網絡機器人，導致即便是專業、誠心使用數據的人也備受打擊。

對于許多專業人士來說，網頁抓取仍然是必不可少的工具。那么，對于與網絡機器人的污名，我們能做些什么呢?

首先，網頁抓取是什么

你可以簡單地把網頁抓取行為理解為數據提取。盡管數據科學家和其他專業人士使用抓取來分析非常復雜的數字信息棧，但從網站復制粘貼文本的行為本身就可以被認作一種簡單的抓取形式。

然而，就算可以在網站上盡情訪問，由于可用信息太多，可能也要花費非常長的時間從來源處收集數據。大多數情況下，網頁抓取都是留給人工智能來完成的，人工智能會將檢索到的數據進行透徹分析以達到各種目的。雖然這對網絡爬蟲來說極為便利，但網站所有者和旁觀者都非常擔心人工智能在網絡上的“濫用”

使用網絡機器人進行網頁抓取會更好嗎

有這么多的信息要分析，求助于人工智能來收集數據理所當然。實際上，谷歌本身就是為感興趣的各方提供網頁抓取工具最可信的來源之一。例如，你可以使用其數據集搜索引擎快速訪問認為可以免費使用的數據，甚至能定制搜索，以了解這些信息是否可用于商業用途。完成這些任務只需要幾秒鐘。

如果沒有谷歌AI如此高效檢查每個網站的相關數據，恐怕無法實現這樣的速度。這是一個利用人工智能以純道德的方式為研究或商業收集有用信息的完美例子，其速度之快也證明了“網絡機器人”如何讓執行網頁抓取任務變得如此容易。

人工智能流量變得如此普遍，如今已經占到互聯網流量的一半以上。即便如此，我們還是容易忽視其造成的影響。

機器人程序流量報

有人認為，人工智能在互聯網流量中占主導地位令人擔憂。讓這一問題變得更糟的原因是，有一小部分人工智能流量是由“糟糕的機器人”組成的。即使抓取的意圖很好，方法也合乎道德，人工智能的污名還是不可避免。

使用網絡機器人來處理大量數據是合理的步驟。除了人工智能，在網頁數據抓取時考慮其他必要工具也很重要。

代理如何提供幫助

使用代理進行網絡抓取有很多優點，匿名性正是其中之一。比方說，如果你想對一個競爭品牌進行調研，并利用這些信息來確定改善自己公司發展的最佳方案，你可能不想讓別人知道自己訪問了他們的網站。在這種情況下，使用代理既能訪問、檢查數據，又不會泄露身份，兩全其美。

做進一步探討之前，先來快速回顧一下代理服務器：

那么問題來了，為什么要設置限制呢?這些數據不是可以在網上免費獲得嗎?對人類用戶來說，是的。這里有一個典型的例子。價格聚合商的整個商業模式是建立在準確信息之上的，它為“我在哪里能買到價格最低的X產品?”這個問題提供確切答案。

盡管這對客戶來說是一個省錢的好機會，但供應商對其他公司窺探他們的數據并不太感興趣，原因是聚合器的網絡爬蟲軟件(通常稱為“網絡機器人”或“網頁蜘蛛”)給網站帶來了額外的負載。因此，如果網站管理員懷疑給定的網絡活動不是由真正的用戶進行的，就會限制用戶訪問網站。

代理的另一個實際用途是逃避審查禁令。住宅代理(Residentialproxies)，顧名思義，會顯示你是來自X國的真正用戶，你可自定義來自哪個國家。對住宅代理的需求很簡單：(可疑的)網絡機器人活動通常來自某些國家，所以即使是來自這些國家的真正用戶也經常遇到地域限制。

此外，當你試圖從數據源收集數據、卻因各種原因無法訪問時，使用代理尤其有用。在網絡抓取時有很多使用代理的方法，但為了在數字社區中建立信任，我們建議你堅持使用那些可以建立品牌信任和權威的方法。

圖源：unsplash

利用人類可見性和可信賴的品牌來對抗人工智能的污名

目前，人工智能發展速度確實超過了上網人數增長速度。不過，互聯網在未來幾年將會如何發展還不得而知，因此沒有理由立即斷定這一趨勢不可逆轉，也不能斷定它代表著一種固有的消極趨勢。

要想扭轉網絡上有關人工智能流量的負面言論，最佳辦法就是讓互聯網上的人工智能使用恢復人性化。還需注意，要以建立信任的方式使用人工智能，無需考慮太多。

堅持使用由高認知度、可信賴的品牌提供的可信賴的產品和服務。
堅持合乎道德的網頁抓取操作。不要濫用信任，忽略網站上robots.txt文件，或在短時間內大量使用機器人程序。
以專業、負責的方式使用數據。核實你是否擁有將抓取獲得的數據用于預期目的的權限。
多多普及人工智能。多去和其他人說說如何以及為什么使用網絡抓取，讓人們對網絡抓取有更深的認識。人們對使用人工智能獲取、研究大量數據的好處了解得越多，對網頁抓取和網絡機器人持負面看法的可能性就越小。

通過純粹的人工操作來手動訪問網站數據或許讓人很放心，但由于信息太多，這幾乎不可能。可用的數據量幾乎無窮無盡，使用人工智能是我們瀏覽網站和盡可能高效分析數據的最佳手段。不過，它或許還需要再加點兒“人情味”。

責任編輯：趙寧寧來源：今日頭條

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看