設計和實現一款輕量級的爬蟲框架
說起爬蟲,大家能夠想起 Python 里赫赫有名的 Scrapy 框架, 在本文中我們參考這個設計思想使用 Java 語言來實現一款自己的爬蟲框(lun)架(zi)。 我們從起點一步一步分析爬蟲框架的誕生過程。
我把這個爬蟲框架的源碼放在 github 上,里面有幾個例子可以運行。
關于爬蟲的一切
下面我們來介紹什么是爬蟲?以及爬蟲框架的設計和遇到的問題。
什么是爬蟲?
“爬蟲”不是一只生活在泥土里的小蟲子,網絡爬蟲(web crawler),也叫網絡蜘蛛(spider),是一種用來自動瀏覽網絡上內容的機器人。 爬蟲訪問網站的過程會消耗目標系統資源,很多網站不允許被爬蟲抓取(這就是你遇到過的 robots.txt 文件, 這個文件可以要求機器人只對網站的一部分進行索引,或完全不作處理)。 因此在訪問大量頁面時,爬蟲需要考慮到規劃、負載,還需要講“禮貌”(大兄弟,慢點)。
互聯網上的頁面極多,即使是***的爬蟲系統也無法做出完整的索引。因此在公元2000年之前的萬維網出現初期,搜索引擎經常找不到多少相關結果。 現在的搜索引擎在這方面已經進步很多,能夠即刻給出高質量結果。
網絡爬蟲會遇到的問題
既然有人想抓取,就會有人想防御。網絡爬蟲在運行的過程中會遇到一些阻礙,在業內稱之為 反爬蟲策略 我們來列出一些常見的。
- 訪問頻率限制
- Header 頭信息校驗
- 動態頁面生成
- IP 地址限制
- Cookie 限制(或稱為登錄限制)
- 驗證碼限制
- 等等…
這些是傳統的反爬蟲手段,當然未來也會更加先進,技術的革新永遠會帶動多個行業的發展,畢竟 AI 的時代已經到來, 爬蟲和反爬蟲的斗爭一直持續進行。
爬蟲框架要考慮什么
設計我們的框架
我們要設計一款爬蟲框架,是基于 Scrapy 的設計思路來完成的,先來看看在沒有爬蟲框架的時候我們是如何抓取頁面信息的。 一個常見的例子是使用 HttpClient 包或者 Jsoup 來處理,對于一個簡單的小爬蟲而言這足夠了。
下面來演示一段沒有爬蟲框架的時候抓取頁面的代碼,這是我在網絡上搜索的
- public class Reptile {
- public static void main(String[] args) {
- //傳入你所要爬取的頁面地址
- String url1 = "";
- //創建輸入流用于讀取流
- InputStream is = null;
- //包裝流,加快讀取速度
- BufferedReader br = null;
- //用來保存讀取頁面的數據.
- StringBuffer html = new StringBuffer();
- //創建臨時字符串用于保存每一次讀的一行數據,然后html調用append方法寫入temp;
- String temp = "";
- try {
- //獲取URL;
- URL url2 = new URL(url1);
- //打開流,準備開始讀取數據;
- is = url2.openStream();
- //將流包裝成字符流,調用br.readLine()可以提高讀取效率,每次讀取一行;
- br= new BufferedReader(new InputStreamReader(is));
- //讀取數據,調用br.readLine()方法每次讀取一行數據,并賦值給temp,如果沒數據則值==null,跳出循環;
- while ((temp = br.readLine()) != null) {
- //將temp的值追加給html,這里注意的時String跟StringBuffere的區別前者不是可變的后者是可變的;
- html.append(temp);
- }
- //接下來是關閉流,防止資源的浪費;
- if(is != null) {
- is.close();
- is = null;
- }
- //通過Jsoup解析頁面,生成一個document對象;
- Document doc = Jsoup.parse(html.toString());
- //通過class的名字得到(即XX),一個數組對象Elements里面有我們想要的數據,至于這個div的值呢你打開瀏覽器按下F12就知道了;
- Elements elements = doc.getElementsByClass("XX");
- for (Element element : elements) {
- //打印出每一個節點的信息;你可以選擇性的保留你想要的數據,一般都是獲取個固定的索引;
- System.out.println(element.text());
- }
- } catch (MalformedURLException e) {
- e.printStackTrace();
- } catch (IOException e) {
- e.printStackTrace();
- }
- }
從如此豐富的注釋中我感受到了作者的耐心,我們來分析一下這個爬蟲在干什么?
- 輸入一個要爬取的URL地址
- 通過 JDK 原生 API 發送網絡請求獲取頁面信息(這里沒有使用 HttpClient)
- 使用 Jsoup 解析 DOM
- 處理自己需要的數據
- 將它們輸出在控制臺
大概就是這樣的步驟,代碼也非常簡潔,我們設計框架的目的是將這些流程統一化,把通用的功能進行抽象,減少重復工作。 還有一些沒考慮到的因素添加進去,那么設計爬蟲框架要有哪些組成呢?
- URL管理
- 網頁下載器
- 爬蟲調度器
- 網頁解析器
- 數據處理器
分別來解釋一下每個組成的作用是什么。
URL管理器
爬蟲框架要處理很多的URL,我們需要設計一個隊列存儲所有要處理的URL,這種先進先出的數據結構非常符合這個需求。 將所有要下載的URL存儲在待處理隊列中,每次下載會取出一個,隊列中就會少一個。我們知道有些URL的下載會有反爬蟲策略, 所以針對這些請求需要做一些特殊的設置,進而可以對URL進行封裝抽出 Request。
網頁下載器
在前面的簡單例子中可以看出,如果沒有網頁下載器,用戶就要編寫網絡請求的處理代碼,這無疑對每個URL都是相同的動作。 所以在框架設計中我們直接加入它就好了,至于使用什么庫來進行下載都是可以的,你可以用 httpclient 也可以用 okhttp, 在本文中我們使用一個超輕量級的網絡請求庫 oh-my-request (沒錯,就是在下搞的)。 優秀的框架設計會將這個下載組件置為可替換,提供默認的即可。
爬蟲調度器
調度器和我們在開發 web 應用中的控制器是一個類似的概念,它用于在下載器、解析器之間做流轉處理。 解析器可以解析到更多的URL發送給調度器,調度器再次的傳輸給下載器,這樣就會讓各個組件有條不紊的進行工作。
網頁解析器
我們知道當一個頁面下載完成后就是一段 HTML 的 DOM 字符串表示,但還需要提取出真正需要的數據, 以前的做法是通過 String 的 API 或者正則表達式的方式在 DOM 中搜尋,這樣是很麻煩的,框架 應該提供一種合理、常用、方便的方式來幫助用戶完成提取數據這件事兒。常用的手段是通過 xpath 或者 css 選擇器從 DOM 中進行提取,而且學習這項技能在幾乎所有的爬蟲框架中都是適用的。
數據處理器
普通的爬蟲程序中是把 網頁解析器 和 數據處理器 合在一起的,解析到數據后馬上處理。 在一個標準化的爬蟲程序中,他們應該是各司其職的,我們先通過解析器將需要的數據解析出來,可能是封裝成對象。 然后傳遞給數據處理器,處理器接收到數據后可能是存儲到數據庫,也可能通過接口發送給老王。
基本特性
上面說了這么多,我們設計的爬蟲框架有以下幾個特性,沒有做到大而全,可以稱得上輕量迷你挺好用。
- 易于定制: 很多站點的下載頻率、瀏覽器要求是不同的,爬蟲框架需要提供此處擴展配置
- 多線程下載: 當CPU核數多的時候多線程下載可以更快完成任務
- 支持 XPath 和 CSS 選擇器解析
架構圖
整個流程和 Scrapy 是一致的,但簡化了一些操作
- 引擎(Engine): 用來處理整個系統的數據流處理, 觸發事務(框架核心)
- 調度器(Scheduler): 用來接受引擎發過來的請求, 壓入隊列中, 并在引擎再次請求的時候返回. 可以想像成一個URL(抓取網頁的網址或者說是鏈接)的優先隊列, 由它來決定下一個要抓取的網址是什么, 同時去除重復的網址
- 下載器(Downloader): 用于下載網頁內容, 并將網頁內容返回給調度器
- 爬蟲(Spiders): 爬蟲是主要干活的, 用于從特定的網頁中提取自己需要的信息, 即所謂的實體(Item)。 用戶也可以從中提取出鏈接,讓框架繼續抓取下一個頁面
- 項目管道(Pipeline): 負責處理爬蟲從網頁中抽取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。 當頁面被爬蟲解析后,將被發送到項目管道,并經過幾個特定的次序處理數據。
執行流程圖
- 首先,引擎從調度器中取出一個鏈接(URL)用于接下來的抓取
- 引擎把URL封裝成一個請求(Request)傳給下載器,下載器把資源下載下來,并封裝成應答包(Response)
- 然后,爬蟲解析Response
- 若是解析出實體(Item),則交給實體管道進行進一步的處理。
- 若是解析出的是鏈接(URL),則把URL交給Scheduler等待抓取
項目結構
該項目使用 Maven3、Java8 進行構建,代碼結構如下:
- .
- └── elves
- ├── Elves.java
- ├── ElvesEngine.java
- ├── config
- ├── download
- ├── event
- ├── pipeline
- ├── request
- ├── response
- ├── scheduler
- ├── spider
- └── utils
編碼要點
前面設計思路明白之后,編程不過是順手之作,至于寫的如何考量的是程序員對編程語言的使用熟練度以及架構上的思考, 優秀的代碼是經驗和優化而來的,下面我們來看幾個框架中的代碼示例。
使用觀察者模式的思想來實現基于事件驅動的功能
- public enum ElvesEvent {
- GLOBAL_STARTED,
- SPIDER_STARTED
- }
- public class EventManager {
- private static final Map<ElvesEvent, List<Consumer<Config>>> elvesEventConsumerMap = new HashMap<>();
- // 注冊事件
- public static void registerEvent(ElvesEvent elvesEvent, Consumer<Config> consumer) {
- List<Consumer<Config>> consumers = elvesEventConsumerMap.get(elvesEvent);
- if (null == consumers) {
- consumers = new ArrayList<>();
- }
- consumers.add(consumer);
- elvesEventConsumerMap.put(elvesEvent, consumers);
- }
- // 執行事件
- public static void fireEvent(ElvesEvent elvesEvent, Config config) {
- Optional.ofNullable(elvesEventConsumerMap.get(elvesEvent)).ifPresent(consumers -> consumers.forEach(consumer -> consumer.accept(config)));
- }
- }
這段代碼中使用一個 Map 來存儲所有事件,提供兩個方法:注冊一個事件、執行某個事件。
阻塞隊列存儲請求響應
- public class Scheduler {
- private BlockingQueue<Request> pending = new LinkedBlockingQueue<>();
- private BlockingQueue<Response> result = new LinkedBlockingQueue<>();
- public void addRequest(Request request) {
- try {
- this.pending.put(request);
- } catch (InterruptedException e) {
- log.error("向調度器添加 Request 出錯", e);
- }
- }
- public void addResponse(Response response) {
- try {
- this.result.put(response);
- } catch (InterruptedException e) {
- log.error("向調度器添加 Response 出錯", e);
- }
- }
- public boolean hasRequest() {
- return pending.size() > 0;
- }
- public Request nextRequest() {
- try {
- return pending.take();
- } catch (InterruptedException e) {
- log.error("從調度器獲取 Request 出錯", e);
- return null;
- }
- }
- public boolean hasResponse() {
- return result.size() > 0;
- }
- public Response nextResponse() {
- try {
- return result.take();
- } catch (InterruptedException e) {
- log.error("從調度器獲取 Response 出錯", e);
- return null;
- }
- }
- public void addRequests(List<Request> requests) {
- requests.forEach(this::addRequest);
- }
- }
pending 存儲等待處理的URL請求,result 存儲下載成功的響應,調度器負責請求和響應的獲取和添加流轉。
舉個栗子
設計好我們的爬蟲框架后來試一下吧,這個例子我們來爬取豆瓣電影的標題。豆瓣電影中有很多分類,我們可以選擇幾個作為開始抓取的 URL。
- public class DoubanSpider extends Spider {
- public DoubanSpider(String name) {
- super(name);
- this.startUrls(
- "https://movie.douban.com/tag/愛情",
- "https://movie.douban.com/tag/喜劇",
- "https://movie.douban.com/tag/動畫",
- "https://movie.douban.com/tag/動作",
- "https://movie.douban.com/tag/史詩",
- "https://movie.douban.com/tag/犯罪");
- }
- @Override
- public void onStart(Config config) {
- this.addPipeline((Pipeline<List<String>>) (item, request) -> log.info("保存到文件: {}", item));
- }
- public Result parse(Response response) {
- Result<List<String>> result = new Result<>();
- Elements elements = response.body().css("#content table .pl2 a");
- List<String> titles = elements.stream().map(Element::text).collect(Collectors.toList());
- result.setItem(titles);
- // 獲取下一頁 URL
- Elements nextEl = response.body().css("#content > div > div.article > div.paginator > span.next > a");
- if (null != nextEl && nextEl.size() > 0) {
- String nextPageUrl = nextEl.get(0).attr("href");
- Request nextReq = this.makeRequest(nextPageUrl, this::parse);
- result.addRequest(nextReq);
- }
- return result;
- }
- }
- public static void main(String[] args) {
- DoubanSpider doubanSpider = new DoubanSpider("豆瓣電影");
- Elves.me(doubanSpider, Config.me()).start();
- }
這段代碼中在 onStart 方法是爬蟲啟動時的一個事件,會在啟動該爬蟲的時候執行,在這里我們設置了啟動要抓取的URL列表。 然后添加了一個數據處理的 Pipeline,在這里處理管道中只進行了輸出,你也可以存儲。
在 parse 方法中做了兩件事,首先解析當前抓取到的所有電影標題,將標題數據收集為 List 傳遞給 Pipeline; 其次根據當前頁面繼續抓取下一頁,將下一頁請求傳遞給調度器,由調度器轉發給下載器。這里我們使用一個 Result 對象接收。
總結
設計一款爬蟲框架的基本要點在文中已經闡述,要做的更好還有很多細節需要打磨,比如分布式、容錯恢復、動態頁面抓取等問題。 歡迎在 elves 中提交你的意見。
參考文獻