成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字體反爬蟲的原理和破解方法

安全 應用安全
通過對源網頁中的占位數據和字體進行比對,我們發現將源數據中的&#x替換成$,然后將字符串首字母大寫,就變成了字體對應的字符串了。

[[429151]]

大家好,我是志斌~

之前給大家介紹了一種SVG映射反爬蟲,今天在給大家介紹另外一種通過映射關系來進行反爬蟲的方式。

不知道大家有沒有遇到過這種情況,在寫爬蟲程序之前我們需要對目標數據進行觀察,但是在我們觀察時發現目標數據在網頁中是以這種奇怪的方式出現的。

這種反爬蟲就是字體反爬蟲,今天志斌就來跟大家分享一下如何繞過這類反爬蟲。

一、原理

在之前,網站開發者在設計網頁時只能使用公用的字體來展示網頁中的數據。

但是,隨著CSS樣式的深入開發,網站開發者可以將自己的字體放到服務器中。當用戶在訪問Web界面時,對應的字體就會被瀏覽器自動下載到用戶的計算機中,然后通過CSS樣式進行調用。

之后,通過一種映射關系,使得網頁中的源數據變為真正的數據進行展示。

通過這種方式,使得這樣就使得網站開發者進行網頁設計時,只需要使用特殊字符進行占位即可,不需要將真正的數據放到頁面中去。這樣,爬蟲程序如果不知道這種映射關系的話,就無法從字體中獲取正確的數據,從而實現反爬蟲。

二、破解

破解這類字體反爬蟲有以下幾步。

1.下載字體woff文件

從上面我們知道,字體是在服務器上進行存儲,并通過瀏覽器下載到我們的電腦上的,那么我們就可以在網站上找到加載的字體文件,下載下來。

下載下來之后,打開它進行觀察,這里給大家分享一個再點字體編譯器網站,使用它可以很方便打開woff文件。網址:http://font.qqe2.com/index-en.html。

打開字體文件之后,我們發現,每個數字都對應一個字符串,如7對應的是$E9C7。

2.尋找映射關系

通過對源網頁中的占位數據和字體進行比對,我們發現將源數據中的&#x替換成$,然后將字符串首字母大寫,就變成了字體對應的字符串了。

3.構建映射算法

在上面我們已經找到了字體之間映射關系,那么我們現在就可以開始用Python來構建映射算法,從而使得爬蟲可以獲取一個正確的數據。

構建代碼如下:

  1. data = { 
  2.    '&#xe9c7' : 7, 
  3.    '&#xf57b' : 1, 
  4.    '&#xe7df' : 2, 
  5.    '&#xe339' : 6, 
  6.    '&#xe624' : 9, 
  7.    '&#xea16' : 5, 
  8.    '&#xf19a' : 3, 
  9.    '&#xee76' : 0, 
  10.    '&#xf593' : 4, 
  11.    '&#xefd4' : 8, 

之后,我們即可對網頁進行爬取,然后將對應的源數據與data進行比如,從而獲得正確數據。

三、小結

1. 本文詳細介紹了如何破解字體反爬蟲,由于這種反爬蟲是使用CSS進行加載和映射的,所以即使使用一些自動化軟件或者渲染工具也無法獲得真正的數據。

2. 這類反爬蟲的破解只需要將woff文件中的字體與頁面數據之間的對應關系找到,構建好即可。

3. 找到woff文件進行下載是關鍵。

4. 有興趣的讀者可以找志斌要一下網站自己嘗試一下。 

5. 本文僅供學習參考,不做它用。

 

責任編輯:武曉燕 來源: 志斌的python筆記
相關推薦

2021-06-09 18:22:11

反爬蟲破解

2021-06-28 18:57:15

CSS網頁爬蟲

2021-06-06 19:53:05

爬蟲處理字體反爬

2022-11-24 10:24:32

2016-10-13 15:51:50

2022-09-14 23:06:45

2020-10-20 10:47:51

破解MassLogge

2009-04-27 21:28:56

2022-09-20 07:02:20

網絡爬蟲反爬蟲

2018-01-29 09:28:44

2022-07-03 10:43:23

JS逆向破解

2024-06-07 08:56:43

HTTPPythonSelenium

2021-06-10 18:24:59

反爬蟲驗證碼爬蟲

2017-05-15 10:39:48

爬蟲應對機制

2017-04-27 20:45:48

爬蟲反爬蟲

2016-10-14 16:35:39

2010-04-27 10:08:49

2009-12-10 10:49:21

PHP eval加密

2018-08-09 11:35:40

Python網絡爬蟲語言編程

2020-05-21 09:25:17

Python反爬蟲DDOS攻擊
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一级毛片视频 | 日韩欧美精品一区 | 日韩精品免费播放 | 午夜看片 | 成人片免费看 | 91成人免费看片 | 亚洲欧美一区二区三区视频 | 日韩av一区二区在线观看 | 日韩精品成人一区二区三区视频 | 玩丰满女领导对白露脸hd | 精品国产一区二区三区性色av | 99re在线 | 97精品超碰一区二区三区 | 夜夜爽99久久国产综合精品女不卡 | 一本一道久久a久久精品综合蜜臀 | 国产高清视频一区二区 | 久久久精 | 国产蜜臀97一区二区三区 | 国产在线区 | 国产视频一区二区 | 国产成人jvid在线播放 | 国产精品99久久久久久www | 中文字幕av一区二区三区 | 欧美激情在线观看一区二区三区 | 日本韩国欧美在线观看 | 亚洲精品久久久久中文字幕二区 | 中文字幕在线一区 | 欧美一区二区在线观看 | 中文字幕不卡一区 | 最新国产福利在线 | 日韩伦理一区二区三区 | 奇米影视77| 国产欧美视频一区 | 一级黄色av电影 | www九色 | 国产一级淫片免费视频 | 久久这里只有精品首页 | 免费视频成人国产精品网站 | 99自拍视频 | 国产欧美一级二级三级在线视频 | 在线视频 亚洲 |