濮阳杆衣贸易有限公司

主頁(yè) > 知識(shí)庫(kù) > Python爬蟲(chóng)之必備chardet庫(kù)

Python爬蟲(chóng)之必備chardet庫(kù)

熱門(mén)標(biāo)簽:遼寧400電話(huà)辦理多少錢(qián) 江蘇房產(chǎn)電銷(xiāo)機(jī)器人廠家 電信營(yíng)業(yè)廳400電話(huà)申請(qǐng) 幫人做地圖標(biāo)注收費(fèi)算詐騙嗎 外呼不封號(hào)系統(tǒng) 溫州旅游地圖標(biāo)注 荊州云電銷(xiāo)機(jī)器人供應(yīng)商 悟空智電銷(xiāo)機(jī)器人6 蘇州電銷(xiāo)機(jī)器人十大排行榜

一、chardet庫(kù)的安裝與介紹

玩兒過(guò)爬蟲(chóng)的朋友應(yīng)該知道,在爬取不同的網(wǎng)頁(yè)時(shí),返回結(jié)果會(huì)出現(xiàn)亂碼的情況。比如,在爬取某個(gè)中文網(wǎng)頁(yè)的時(shí)候,有的頁(yè)面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些頁(yè)面,知道網(wǎng)頁(yè)編碼很重要的。

雖然HTML頁(yè)面有charset標(biāo)簽,但是有些時(shí)候是不對(duì)的,那么chardet就能幫我們大忙了。使用 chardet 可以很方便的實(shí)現(xiàn)字符串/文件的編碼檢測(cè)。

如果你安裝過(guò)Anaconda,那么可以直接使用chardet庫(kù)。如果你只是安裝了Python的話(huà),就需要使用下面幾行代碼,完成chardet庫(kù)的安裝。

pip install chardet

接著,使用下面這行代碼,導(dǎo)入chardet庫(kù)。

import chardet

二、chardet庫(kù)的使用

這個(gè)小節(jié),我們分3部分講解。

2.1 chardet.detect()函數(shù)

detect()函數(shù)接受一個(gè)參數(shù),一個(gè)非unicode字符串。它返回一個(gè)字典,其中包含自動(dòng)檢測(cè)到的字符編碼和從0到1的可信度級(jí)別。

  • encoding:表示字符編碼方式。
  • confidence:表示可信度。
  • language:語(yǔ)言。

光看這個(gè)解釋?zhuān)蠖鄶?shù)朋友可能看不懂,下面我們就用例子來(lái)講述這個(gè)函數(shù)。

2.2 使用該函數(shù)分別檢測(cè)gbk、utf-8和日語(yǔ)

檢測(cè)gbk編碼的中文:

str1 = '大家好,我是黃同學(xué)'.encode('gbk')
chardet.detect(str1)

chardet.detect(str1)["encoding"]

結(jié)果如下:

檢測(cè)的編碼是GB2312,注意到GBK是GB2312的父集,兩者是同一種編碼,檢測(cè)正確的概率是99%,language字段指出的語(yǔ)言是'Chinese'。

檢測(cè)utf-8編碼的中文:

str2 = '我有一個(gè)夢(mèng)想'.encode('utf-8')
chardet.detect(str2)

chardet.detect(str2)["encoding"]

結(jié)果如下:

檢測(cè)一段日文:

str3 = 'ありがとう'.encode('euc-jp')
chardet.detect(str3)

chardet.detect(str3)

結(jié)果如下:

2.3 如何在“爬蟲(chóng)”中使用chardet庫(kù)呢?

我們以百度網(wǎng)頁(yè)為例子,進(jìn)行講述。

這個(gè)網(wǎng)頁(yè)的源代碼,使用的是什么編碼呢?我們看看源代碼:

從圖中可以看到,是utf-8字符編碼。

如果不使用chardet庫(kù),獲取網(wǎng)頁(yè)源代碼的時(shí)候,怎么指定字符編碼呢?

import chardet
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)
response.encoding = "utf-8"
response.text

結(jié)果如下:

你會(huì)發(fā)現(xiàn):正確指定編碼后,沒(méi)有亂碼。如果你將編碼改為gbk,再看看結(jié)果。此時(shí)已經(jīng)亂碼。

如果使用chardet庫(kù),獲取網(wǎng)頁(yè)源代碼的時(shí)候,可以輕松指定字符編碼!

import chardet
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)

# 注意下面這行代碼,是怎么寫(xiě)的?
response.encoding = chardet.detect(response.content)['encoding']
response.text

結(jié)果如下:

編碼不用我們自己查找,也不用猜,直接交給chardet庫(kù)去猜測(cè),正確率還高。

到此這篇關(guān)于Python爬蟲(chóng)之必備chardet庫(kù)的文章就介紹到這了,更多相關(guān)Python chardet庫(kù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python中利用aiohttp制作異步爬蟲(chóng)及簡(jiǎn)單應(yīng)用
  • Python爬蟲(chóng)之線(xiàn)程池的使用
  • python基礎(chǔ)之爬蟲(chóng)入門(mén)
  • python爬蟲(chóng)請(qǐng)求庫(kù)httpx和parsel解析庫(kù)的使用測(cè)評(píng)
  • Python爬蟲(chóng)之爬取最新更新的小說(shuō)網(wǎng)站
  • 用Python爬蟲(chóng)破解滑動(dòng)驗(yàn)證碼的案例解析
  • Python爬蟲(chóng)框架-scrapy的使用
  • Python爬蟲(chóng)之爬取二手房信息
  • python爬蟲(chóng)之爬取百度翻譯
  • python爬蟲(chóng)基礎(chǔ)之簡(jiǎn)易網(wǎng)頁(yè)搜集器
  • Django利用Cookie實(shí)現(xiàn)反爬蟲(chóng)的例子
  • python爬蟲(chóng)之生活常識(shí)解答機(jī)器人
  • Python異步爬蟲(chóng)實(shí)現(xiàn)原理與知識(shí)總結(jié)

標(biāo)簽:臺(tái)灣 黃山 濟(jì)南 欽州 景德鎮(zhèn) 宿遷 喀什 三沙

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python爬蟲(chóng)之必備chardet庫(kù)》,本文關(guān)鍵詞  Python,爬蟲(chóng),之,必備,chardet,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Python爬蟲(chóng)之必備chardet庫(kù)》相關(guān)的同類(lèi)信息!
  • 本頁(yè)收集關(guān)于Python爬蟲(chóng)之必備chardet庫(kù)的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    饶河县| 抚州市| 都江堰市| 临泉县| 清丰县| 山东省| 张家港市| 凉山| 罗山县| 北安市| 泽普县| 凌云县| 平泉县| 驻马店市| 达孜县| 石台县| 章丘市| 新田县| 若尔盖县| 衡水市| 五大连池市| 班玛县| 章丘市| 神农架林区| 鄂温| 山丹县| 安泽县| 昔阳县| 遂平县| 荔浦县| 尤溪县| 河东区| 西畴县| 临泉县| 洪洞县| 施甸县| 赣榆县| 曲水县| 闽清县| 开封市| 扶沟县|