成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

盤點三種Python網絡爬蟲過程中的中文亂碼的處理方法

開發 后端
本文基于粉絲提問,針對Python網絡爬蟲過程中的中文亂碼問題,給出了3種亂碼解決方法,順利幫助粉絲解決了問題。

[[428525]]

大家好,我是Python進階者。前幾天給大家分享了一些亂碼問題的文章,感興趣的小伙伴可以前往:UnicodeEncodeError: 'gbk' codec can't encode character解決方法,這里再次給大家祭出網絡爬蟲過程中三種中文亂碼的處理方案,希望對大家的學習有所幫助。

前言

前幾天有個粉絲在Python交流群里問了一道關于使用Python網絡爬蟲過程中中文亂碼的問題,如下圖所示。

看上去確實頭大,對于爬蟲初學者來說,這個亂碼擺在自己面前,猶如攔路虎一般難頂。不過別慌,小編在這里給大家整理了三種方法,專門用于針對中文亂碼的,希望大家在后面再次遇到中文亂碼的問題,在此處可以得到靈感!

一、思路

其實解決問題的關鍵點就是在于一點,就是將亂碼的部分進行處理,而處理的方案主要可以從兩個方面進行出發。其一是針對整體網頁進行提前編碼,其二是針對局部具體中文亂碼的部分進行編碼處理。這里例舉3種方法,肯定還有其他的方法的,也歡迎大家在評論區諫言。

二、分析

其實關于中文亂碼的表現形式有很多,但是常見的兩種如下:

1、當出現網頁編碼為gbk,獲取到的內容在控制臺打印類似如下情況的時候:

  1. ÃÀÅ® µçÄÔ×À ¼üÅÌ »ú·¿ ¿É°® Ð¡½ã½ã4k±ÚÖ½ 

2、當出現網頁編碼為gbk,獲取到的內容在控制臺打印類似如下情況的時候:

  1. �װŮ�� ��Ů ˮ СϪ Ψ�� 

雖然看上去控制臺輸出正常,沒有報錯:

  1. Process finished with exit code 0 

但是輸出的中文內容,卻不是普通人能看得懂的。

這種情況下的話,就可以通過使用本文給出的三種方法進行解決,屢試不爽!

三、具體實現

1)方法一:將requests.get().text改為requests.get().content 我們可以看到通過text()方法獲取到的源碼,之后進行打印輸出的話,確實是會存在亂碼的,如下圖所示。

此時可以考慮將請求變為.content,得到的內容就是正常的了。

2)方法二:手動指定網頁編碼

  1. # 手動設定響應數據的編碼格式 
  2. response.encoding = response.apparent_encoding 

這個方法稍微復雜一些,但是比較好理解,對于初學者來說,還是比較好接受的。

如果覺得上面的方法很難記住,或者你可以嘗試直接指定gbk編碼也可以進行處理,如下圖所示:

上面介紹的兩種方法都是針對網頁進行整體編碼,效果顯著,接下來的第三種方法就是針對中文局部亂碼部分使用通用編碼方法進行處理。

3)方法三:使用通用的編碼方法

  1. img_name.encode('iso-8859-1').decode('gbk'

使用通用的編碼方法,對中文出現亂碼的地方進行編碼設定即可。還是當前的這個例子,針對img_name進行編碼設定,指定編碼并進行解碼,如下圖所示。

如此一來,中文亂碼的問題就迎刃而解了。

四、總結

我是Python進階者。本文基于粉絲提問,針對Python網絡爬蟲過程中的中文亂碼問題,給出了3種亂碼解決方法,順利幫助粉絲解決了問題。

 

責任編輯:姜華 來源: Python爬蟲與數據挖掘
相關推薦

2011-08-15 17:28:19

SQL Server事務處理存儲過程

2021-02-06 11:26:55

Python開發list

2021-02-03 18:05:30

Python方法列表

2021-08-10 10:14:14

存儲接口存儲設備存儲

2010-11-23 10:11:23

mysql建表亂碼

2021-11-11 11:24:54

JavaScript模型事件

2025-03-19 10:22:09

JavaScript編程語言開發

2009-05-07 15:02:42

OracleJoin查詢

2020-06-17 10:52:00

DDoS攻擊網絡攻擊網絡安全

2022-07-13 16:06:16

Python參數代碼

2024-11-15 07:00:00

Python發送郵件

2023-06-25 07:57:31

2021-12-20 07:11:26

Java List排序 Java 基礎

2010-05-31 16:57:09

2010-09-08 13:29:48

CSS

2020-11-01 17:10:46

異步事件開發前端

2024-07-01 12:42:58

2021-11-01 09:00:30

CSVExcelPython

2009-06-09 16:53:22

Java Swing處理方法比較

2011-04-08 09:25:50

虛擬機
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品美女久久久 | 免费黄色在线观看 | 香蕉视频在线播放 | 一区二区激情 | 在线日韩中文字幕 | 81精品国产乱码久久久久久 | 亚洲精品第一页 | 狠狠色香婷婷久久亚洲精品 | 狠狠操av | 欧美国产精品一区二区三区 | 日韩久久久一区二区 | 最新中文字幕在线播放 | 91久久国产 | 国产精品999 | 国产欧美在线播放 | 精品网站999www | 91精品久久久久久久久 | 在线免费观看日本视频 | 国产精品久久久久久妇女6080 | 一区二区高清不卡 | 操操日 | 精品国产一区二区 | 看片国产 | 精久久| 超碰人人艹 | 亚洲一二视频 | 成人久久久 | 成人午夜高清 | 真人毛片| 黄色一级电影在线观看 | 黄色国产在线视频 | 国产一级一级国产 | 免费一区二区三区 | 国产精品久久久久久影视 | 久久久久国 | 久久av网站| 日韩电影免费在线观看中文字幕 | 久久久久久久久99精品 | 国产精品一区二区三区久久久 | 中文字幕综合在线 | 天天干夜夜操 |