成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

寫了個簡單爬蟲,收集 Boss 直聘自動駕駛崗位

開發 前端
架構Selenium 模擬瀏覽器動作,除了加載需要的數據外,還會加載圖片、JS、CSS等不必要的內容,導致網絡資源和計算資源消耗增加,爬取速度變慢,爬取規模受限。

朋友想知道 Boss 直聘上關于自動駕駛的崗位有哪些 ,于是,筆者寫了一個簡單的爬蟲 crawler-boss ,將全國大城市相關崗位的信息收集起來。

這篇文章,筆者想分享爬蟲 crawler-boss 的設計思路。

圖片圖片

一、基本原理 Selenium + chromedriver

對于很多動態渲染的網頁而言,想要抓取它的數據,就需要對網頁的 JS 代碼以及 Ajax 接口等進行分析。

而當 JS 代碼混亂,難以分析,Ajax 的接口又含有很多加密參數的時候,就非常難以直接找出規律,那么上述過程會花費大量的時間和精力。

圖片圖片

上圖中, Boss  直聘接口參數比較多,筆者并不想花太多時間研究這些參數,于是筆者選擇了另一種方案:Selenium + chromedriver。

Selenium是 web 瀏覽器自動化測試的工具,它可以模擬用戶與所有主流瀏覽器之間的交互,比如點擊,輸入,抓取,拖拽等等。

由于網頁大多采用是 JavaScript 動態渲染,使得爬蟲返回的結果可能與用戶實際看到的網頁并不一致。我們看到的網頁可能是經過 Ajax 加載,或者是JavaScript以及其他算法計算后生成的。

因此,我們可以使用 Selenium直接模擬瀏覽器運行,我們肉眼看到的是什么樣,能夠抓取的數據就是什么樣。

二、安裝 chromedriver

WebDriver 是 Selenium 的核心組件 , 負責控制瀏覽器進行各種操作。WebDriver 可以通過不同的驅動程序與不同的瀏覽器進行通信,比如 ChromeDriver、FirefoxDriver 等。

1、查看當前Google瀏覽器版本

打開Google瀏覽器,網址欄輸入:chrome://settings/help

圖片圖片

2、下載對應版本的chromedriver

對照你的版本下載,當你使用的是 Chrome 版本 115 或更高版本,就點最上面的鏈接:

https://chromedriver.chromium.org/downloads/

圖片圖片

找到你對應的版本,我這里是122.0.6261.129。

圖片圖片

下載完成之后,將文件解壓后,拷貝到 /usr/local/bin/ 目錄 。

圖片圖片

安裝完 chromedriver 后,Java 應用中添加如下依賴:

<dependency>
    <groupId>org.seleniumhq.selenium</groupId>
    <artifactId>selenium-server</artifactId>
    <version>3.141.59</version>
</dependency>

然后通過如下代碼,測試環境是否 OK 。

public static void main(String[] args) {
      WebDriver webDriver = new ChromeDriver();
      webDriver.get("https://juejin.cn");
}

點擊運行,如果打開了掘金網頁說明環境配置成功。

三、流程分析

1、進入搜索頁面 , 搜索框中輸入‘自動駕駛’。

圖片圖片

圖片圖片

2、搜索結果若出現登錄浮窗,則關閉,將頁面中職位列表通過 class 截取出來,保存到數據庫。

圖片圖片

圖片圖片

3、點擊下一頁

圖片圖片

圖片圖片

四、爬蟲演示

執行完成之后,職位記錄表新增了接近 2000 條記錄。

圖片圖片

五、寫到最后

當我們將 Selenium 作為爬蟲工具時,盡管它有很多優點,但也存在明顯的缺點。

Selenium 模擬瀏覽器動作,除了加載需要的數據外,還會加載圖片、JS、CSS等不必要的內容,導致網絡資源和計算資源消耗增加,爬取速度變慢,爬取規模受限。

因此,長期大規模使用 Selenium 作為生產工具不是一個明智的選擇。

然而,如果只是想在個人電腦上快速抓取少量數據,Selenium 確實是一個非常方便的工具。

最后, crawler-boss 的源碼實現非常簡單,假如同學們感興趣,可以關注公眾號,回復 「爬蟲」即可獲取。

參考文檔:

https://zhuanlan.zhihu.com/p/137710454

https://juejin.cn/post/7284318118993068051

責任編輯:武曉燕 來源: 勇哥Java實戰
相關推薦

2024-01-16 09:28:09

智能汽車

2015-07-02 14:07:19

Boss直聘

2022-10-27 10:18:25

自動駕駛

2021-11-18 09:50:35

自動駕駛輔助駕駛人工智能

2022-07-12 09:42:10

自動駕駛技術

2021-04-15 06:24:50

人工智能AI自動駕駛

2018-10-24 14:16:33

自動駕駛道路測試牌照

2022-04-12 09:21:50

AIPython自動駕駛

2019-11-25 09:55:34

自動駕駛人工智能無人駕駛

2022-02-17 10:22:17

汽車智能自動駕駛

2021-11-01 13:53:24

自動駕駛數據人工智能

2021-11-18 22:43:56

自動駕駛技術安全

2023-03-15 11:54:32

無人駕駛系統

2019-09-19 14:10:12

人工智能物聯網自動駕駛

2021-12-16 10:45:22

自動駕駛數據人工智能

2021-12-01 10:21:27

自動駕駛技術人工智能

2020-09-28 14:00:06

自動駕駛AI網絡

2021-04-30 11:44:04

自動駕駛智能化汽車

2025-01-16 11:55:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩欧美在线一区 | 久久9热| 国产精品特级毛片一区二区三区 | 久久乐国产精品 | 久久逼逼 | 日韩三级一区 | 日韩美香港a一级毛片免费 国产综合av | 日韩不卡一区二区 | 色橹橹欧美在线观看视频高清 | 日本aa毛片a级毛片免费观看 | 91精品国产91久久久久久最新 | 成人精品一区 | 狠狠综合网 | 国产精品久久久久久久免费大片 | 国产欧美一区二区精品久导航 | 国产日韩欧美一区 | 91视频一区| 国产精品久久福利 | 91精品国产777在线观看 | 国产乱码精品一区二三赶尸艳谈 | 亚洲美女网站 | 久久久人成影片免费观看 | 国产日韩欧美精品一区二区 | 国产黄a一级| 国产黄色一级电影 | 一区二区三区视频免费观看 | 久久黄网 | 亚洲一区二区三区四区五区中文 | 欧美二区三区 | 第一色在线 | 亚洲欧美国产毛片在线 | 成人性视频免费网站 | 欧美高清一级片 | 精品国产不卡一区二区三区 | 91久久精品国产91久久性色tv | 99热热99 | 欧美国产日韩精品 | 欧美日韩美女 | 欧洲精品久久久久毛片完整版 | 精品视频免费在线 | 国产精品一区二区三区在线 |