目錄
- 1. 環(huán)境準(zhǔn)備
- 1.1 安裝pillow 和 pytesseract
- 1.2 安裝Tesseract-OCR.exe
- 1.3 更改pytesseract.py的ocr路徑
- 2. 測(cè)試識(shí)別效果
- 3. 實(shí)戰(zhàn)案例–實(shí)現(xiàn)古詩(shī)文網(wǎng)驗(yàn)證碼自動(dòng)識(shí)別登錄
- 總結(jié)
1. 環(huán)境準(zhǔn)備
1.1 安裝pillow 和 pytesseract
python模塊庫(kù)需要 pillow 和 pytesseract 這兩個(gè)庫(kù),直接pip install 安裝就好了。
pip install pillow
pip install pytesseract
1.2 安裝Tesseract-OCR.exe
下載地址:ocr下載地址
建議下載最新穩(wěn)定版本:
tesseract-ocr-w64-setup-v5.0.0.20190623.exe。
安裝過(guò)程很簡(jiǎn)單,直接點(diǎn)擊下一步就完事了,其間可以默認(rèn)安裝路徑,也可以自定義安裝路徑,裝好之后,把它的安裝路徑添加到環(huán)境變量中即可,如我的這樣:
我的安裝位置:
![](/d/20211017/3344b463ff8c16156330c24dfb3c0283.gif)
環(huán)境變量就這樣加:
![](/d/20211017/ce59c3810268925d370dbbd876d2fe05.gif)
1.3 更改pytesseract.py的ocr路徑
我們pip install pytesseract 之后,在python解釋器安裝位置包里可以找到pytesseract.py文件如下:
![](/d/20211017/3fd841a06deae3bafa0c8615fc1c46da.gif)
打開之后,更改:
![](/d/20211017/1e4766b259b118b8e6b5feafc2cc77ab.gif)
至此,環(huán)境準(zhǔn)備工作算是大功告成了。
2. 測(cè)試識(shí)別效果
ocr一直默認(rèn)安裝,起始就可以支持?jǐn)?shù)字和英文字母識(shí)別的,接下來(lái)
我們準(zhǔn)備一張驗(yàn)證碼圖片:
![](/d/20211017/e02db8efd8a57bbe6e9ff0deb6cf742f.gif)
將圖片,命名為captcha.png,放到程序同一目錄下
import pytesseract
from PIL import Image
image = Image.open("captcha.png")
print(pytesseract.image_to_string(image))
效果:
![](/d/20211017/1aaabe23041469bcf6a02bc0f39525d8.gif)
我們?cè)賴L試一下中文識(shí)別。
在進(jìn)行識(shí)別之前我們要先下載好中文拓展語(yǔ)言包,
語(yǔ)言包地址
下載需要的的語(yǔ)言包,如下圖,紅框內(nèi)為中文簡(jiǎn)體語(yǔ)言包:
![](/d/20211017/5d3a77e747864f39c2541c53466f3a59.gif)
下載后將該包直接放在ocr程序安裝目錄的tessdata文件夾里面即可。
![](/d/20211017/eaf05f05dc617e54f8d5300fc908b090.gif)
找一張圖片測(cè)試一下:
![](/d/20211017/307887c579be5f62724bf9eae126afab.gif)
import pytesseract
from PIL import Image
image = Image.open("00.jpg")
print(pytesseract.image_to_string(image,lang='chi_sim'))
效果:
![](/d/20211017/94993c0b4d12fbbaf72c48b6effb14fd.gif)
有時(shí)候文本識(shí)別率并不高,建議圖像識(shí)別前,先對(duì)圖像進(jìn)行灰度化和 二值化
代碼示例:
import pytesseract
from PIL import Image
file = r"00.jpg"
# 先對(duì)圖像進(jìn)行灰度化和 二值化
image = Image.open(file)
Img = image.convert('L') # 灰度化
#自定義灰度界限,這里可以大于這個(gè)值為黑色,小于這個(gè)值為白色。threshold可根據(jù)實(shí)際情況進(jìn)行調(diào)整(最大可為255)。
threshold = 180
table = []
for i in range(256):
if i threshold:
table.append(0)
else:
table.append(1)
photo = Img.point(table, '1') #圖片二值化
#保存處理好的圖片
photo.save('01.jpg')
image = Image.open('01.jpg')
# 解析圖片,lang='chi_sim'表示識(shí)別簡(jiǎn)體中文,默認(rèn)為English
# 如果是只識(shí)別數(shù)字,可再加上參數(shù)config='--psm 6 --oem 3 -c tessedit_char_whitelist=0123456789'
content = pytesseract.image_to_string(image, lang='chi_sim')
print(content)
3. 實(shí)戰(zhàn)案例–實(shí)現(xiàn)古詩(shī)文網(wǎng)驗(yàn)證碼自動(dòng)識(shí)別登錄
import pytesseract
from PIL import Image
from selenium import webdriver
def save_captcha(path):
driver = webdriver.Chrome() # 創(chuàng)建瀏覽器對(duì)象
driver.maximize_window()
driver.implicitly_wait(10)
driver.get(url=url)
image = driver.find_element_by_id('imgCode')
image.screenshot(path)
return driver
def recognize_captcha(captcha_path):
captcha = Image.open(captcha_path) # 打開圖片
grap = captcha.convert('L') # 對(duì)圖片進(jìn)行灰度化處理
data = grap.load() # 將圖片對(duì)象加載成數(shù)據(jù)
w, h = captcha.size # 獲取圖片的大小(寬度,高度)
# 圖片二值化處理
for x in range(w):
for y in range(h):
if data[x, y] 140:
data[x, y] = 0
else:
data[x, y] = 255
code = pytesseract.image_to_string(grap) # 對(duì)圖片進(jìn)行識(shí)別
return code
def login(driver, code):
flag = True
email = '1242931802@qq.com' # 注冊(cè)的古詩(shī)文網(wǎng)賬號(hào)和密碼
password = 'xxxx'
try:
driver.find_element_by_id('email').send_keys(email)
driver.find_element_by_id('pwd').send_keys(password)
driver.find_element_by_id('code').send_keys(code)
driver.implicitly_wait(10)
driver.find_element_by_id('denglu').click()
except Exception as ex:
flag = False
return flag
if __name__ == '__main__':
url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'
captcha_path = './captcha.png'
count = 1
driver = save_captcha(captcha_path) # 獲取驅(qū)動(dòng)
code = recognize_captcha(captcha_path) # 獲取驗(yàn)證碼
print('識(shí)別驗(yàn)證碼為:', code)
if login(driver, code):
driver.quit()
效果如下(有時(shí)候第一次可能識(shí)別失敗,可以寫個(gè)循環(huán)邏輯讓它多識(shí)別幾次,一般程序運(yùn)行1-3次基本會(huì)識(shí)別成功):
![](/d/20211017/fa22f53ce6c26ef59ce42ac287882b0b.gif)
總結(jié)
到此這篇關(guān)于python實(shí)現(xiàn)簡(jiǎn)單驗(yàn)證碼識(shí)別的文章就介紹到這了,更多相關(guān)python驗(yàn)證碼識(shí)別內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
您可能感興趣的文章:- 教你如何用Python實(shí)現(xiàn)人臉識(shí)別(含源代碼)
- 怎么用Python識(shí)別手勢(shì)數(shù)字
- python 如何做一個(gè)識(shí)別率百分百的OCR
- 如何利用Python識(shí)別圖片中的文字詳解
- Python利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)垃圾郵件的識(shí)別