爬蟲篇之JS逆向破解

作者：桌子 2022-07-03 10:43:23

開發前端

這篇文章并不是非常專業的JS解密，因為JS的解密涉及很多種，多種行為的解密，本文只是對其中一種情況進行簡單的介紹。

爬蟲中很重要的一個點就是JS的逆向破解加密，今天我們來淺析一下。

背景

先簡單介紹一下為什么要有JS解密，目前大部分網頁都是采用的前后端分離的方式，所以呢，爬蟲的一般破解之道都是從后端接口來做文章，進行突破。

不過道高一尺，魔高一丈，網頁開發會對API接口請求參數進行加密，來增加爬蟲抓取的門檻。為此可以通過js逆向來分析破解加密方式，模擬瀏覽器發送請求獲取接口數據。

當然，先說明，這篇文章并不是非常專業的JS解密，因為JS的解密涉及很多種，多種行為的解密，本文只是對其中一種情況進行簡單的介紹。

來吧，讓我們一起簡單學習一下。

上面這個圖是請求翻譯的全過程。

我們能清晰的看到這是直接以表單的形式提交的數據到后端API層，然后API來執行翻譯的作用。

接下來我們用python模擬以下這個過程。

一定要注意的是，請求頭寫全，包括cookie和user-agent這些，還有下面的params一定要按照網頁中的來。

代碼給到大家。

import requests
#請求頭
headers = {
    "Accept": "application/json, text/javascript, */*; q=0.01",
    "Accept-Encoding": "gzip, deflate",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Connection": "keep-alive",
    "Content-Length": "255",
    "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
    "Cookie": "OUTFOX_SEARCH_USER_ID_NCOO=1992896419.125546; OUTFOX_SEARCH_USER_ID=1708647615@10.108.162.133; fanyi-ad-id=306808; fanyi-ad-closed=1; DICT_UGC=be3af0da19b5c5e6aa4e17bd8d90b28a|; JSESSIONID=abcJJxrChyTjz_26EmBgy; ___rl__test__cookies=1656205889631",
    "Host": "fanyi.youdao.com",
    "Origin": "http://fanyi.youdao.com",
    "Referer": "http://fanyi.youdao.com/",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36",
    "X-Requested-With": "XMLHttpRequest",
}
#提交參數
params = {
    "i": "love you ,  my baby",
    "from": "AUTO",
    "to": "AUTO",
    "smartresult": "dict",
    "client": "fanyideskweb",
    "salt": "16562058896377",
    "sign": "f85458213e7db4207f135599c7ddfac7",
    "lts": "1656205889637",
    "bv": "bdc0570a34c12469d01bfac66273680d",
    "doctype": "json",
    "version": "2.1",
    "keyfrom": "fanyi.web",
    "action": "FY_BY_REALTlME",
}
url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"
#發起POST請求
response = requests.post(url=url,headers=headers,data=params).json()
print(response)

一部分是header信息，一部分是params信息

我們可以看到，參數params中除了我們要傳遞的參數翻譯內容之外，還有好多我們不認識的參數，如果這里錯了會怎么樣呢，隨便改一下其中的一個參數，我們看看效果。

可以看到，直接返回錯誤了，很明顯被禁止了，或者說是校驗沒通過，屬于非法請求。

我們再來看一下，只改變翻譯的內容，靠這些鹽和簽名是不是能夠成功翻譯呢？

結果發現，我們只改變了要翻譯的內容，結果還是不行，很明顯生成這些校驗參數的過程是和要翻譯的內容是相關的。

搜索不同的關鍵詞，請求body參數如下，分析發現除了我們要傳遞的翻譯內容外還有4個參數是變量：

"salt": "16562058896377",
"sign": "f85458213e7db4207f135599c7ddfac7",
"lts": "1656205889637",
"bv": "bdc0570a34c12469d01bfac66273680d",

這些就是屬于請求鹽和校驗參數，有對應的加密格式，接下來我們圍繞這四個參數來進行破解。

接下來我們打開控制臺，打開我們要分析的JS程序，直接ctrl+f全局搜索salt關鍵字。

找到我們要分析的地方，然后在打上斷點，重新請求一遍。

F10往下一步一步的執行。

當執行到如圖所示的位置的時候，我們把鼠標移動到r這個對象的位置上去，為什么要看這個對象呢，因為你看下面的salt、sign、lts、bv這些參數都是屬于r這個對象的屬性。

我們能夠看到此時r對象的這幾個屬性已經被賦予了值了。

接著看看這個r到底是什么。

var r = function(e) {
        var t = n.md5(navigator.appVersion)
          , r = "" + (new Date).getTime()
          , i = r + parseInt(10 * Math.random(), 10);
        return {
            ts: r,
            bv: t,
            salt: i,
            sign: n.md5("fanyideskweb" + e + i + "Ygy_4c=r#e#4EX^NUGUc5")
        }
    };

進一步分析發現：

r：當前的時間戳。
i：當前的時間戳+（0到10的隨機數）。
salt：salt=i。
e：搜索關鍵字。
sign：md5("fanyideskweb" + e + i + "Ygy_4c=r#e#4EX^NUGUc5")。

至此完成簽名算法的實現，接下來可以通過python來實現。

代碼如下：

import requests
from hashlib import md5
import time
import random
#請求地址
url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"
appVersion = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36"
headers = {
    "Accept": "application/json, text/javascript, */*; q=0.01",
    "Accept-Encoding": "gzip, deflate",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Connection": "keep-alive",
    "Content-Length": "244",
    "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
    "Cookie": "OUTFOX_SEARCH_USER_ID=-1506602845@10.169.0.82; JSESSIONID=aaaUggpd8kfhja1AIJYpx; OUTFOX_SEARCH_USER_ID_NCOO=108436537.92676207; ___rl__test__cookies=1597502296408",
    "Host": "fanyi.youdao.com",
    "Origin": "http://fanyi.youdao.com",
    "Referer": "http://fanyi.youdao.com/",
    "user-agent": appVersion,
    "X-Requested-With": "XMLHttpRequest",
}
def r(e):
    # bv
    t = md5(appVersion.encode()).hexdigest()
    # lts
    r = str(int(time.time() * 1000))
    # i
    i = r + str(random.randint(0,9))
    return {
        "ts": r,
        "bv": t,
        "salt": i,
        "sign": md5(("fanyideskweb" + e + i + "Ygy_4c=r#e#4EX^NUGUc5").encode()).hexdigest()
    }
def fanyi(word):
    data = r(word)
    params = {
        "i": word,
        "from": "AUTO",
        "to": "AUTO",
        "smartresult": "dict",
        "client": "fanyideskweb",
        "salt": data["salt"],
        "sign": data["sign"],
        "lts": data["ts"],
        "bv": data["bv"],
        "doctype": "json",
        "version": "2.1",
        "keyfrom": "fanyi.web",
        "action": "FY_BY_REALTlME",
    }
    response = requests.post(url=url,headers=headers,data=params)
    #返回json數據
    return response.json()
if __name__ == "__main__":
    while True:
        word = input("請輸入要翻譯的語句：")
        result = fanyi(word)
        #對返回的json數據進行提取，提取出我們需要的數據
        r_data = result["translateResult"][0]
        print(r_data[0]["src"])
        print(r_data[0]["tgt"])

責任編輯：姜華來源：左耳君

JS逆向破解

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

爬蟲篇之JS逆向破解

背景

一部分是header信息，一部分是params信息