盗墓笔记有声小说,已完结小说排行榜,盗墓笔记小说txt下载

主頁 > 知識庫 > Python中常見的反爬機(jī)制及其破解方法總結(jié)

Python中常見的反爬機(jī)制及其破解方法總結(jié)

一、常見反爬機(jī)制及其破解方式

封禁IP，使用cookie等前面文章已經(jīng)講過

現(xiàn)在主要將下面的：

~ 驗(yàn)證碼
—> 文字驗(yàn)證碼 —> OCR（光學(xué)文字識別）—> 接口 / easyocr
程序自己解決不了的問題就可以考慮使用三方接口（付費(fèi)/免費(fèi)）
—> 行為驗(yàn)證碼 —> 超級鷹
~ 手機(jī)號+短信驗(yàn)證碼
—> 接碼平臺
~ 動(dòng)態(tài)內(nèi)容
—> JavaScript逆向 —> 找到提供數(shù)據(jù)的API接口
—> 手機(jī)抓接口 —> 抓包工具（Charles / Fiddler）
—> Selenium直接模擬瀏覽器操作獲取動(dòng)態(tài)內(nèi)容
~ find_element_by_xxx / find_elements_by_xxx
~ page_source —> 獲取包含動(dòng)態(tài)內(nèi)容的網(wǎng)頁源代碼
—> JavaScript加密和混淆技術(shù) —> 讀懂JavaScript是反反爬的前提
~ 字體反爬 / 內(nèi)容來自于摳圖
—> 例子

bytes —> 不變字節(jié)串 —> 二進(jìn)制 —> BytesIO
str —> 不變字符串 —> 可閱讀的字符 —> StringIO

二、調(diào)用三方API接口數(shù)據(jù)（天行數(shù)據(jù)）

import requests

for page in range(1, 6):
    response = requests.get(
        'http://api.tianapi.com/topnews/index',
        params={
            'key': 'd5eace66dccd771e36767ce3563efa09',
            'page': page,
            'num': 20,
            'word': '華為',
            'src': '人民日報(bào)'
        }
    )
    result = response.json()
    for news in result['newslist']:
        print(news['title'])
        print(news['url'])

三、OCR（光學(xué)文字識別）庫

python 自帶的easyocr庫

import easyocr
reader = easyocr.Reader(['ch_sim', 'en'], gpu=False)
print(reader.readtext('./files/captcha.jpg', detail=0))

例子：阿里云郵箱自動(dòng)登陸

import io

import easyocr

from PIL import Image
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions
from selenium.webdriver.support.wait import WebDriverWait

browser = webdriver.Chrome()
browser.set_window_size(1280, 960)
browser.get('http://mail.1000phone.com/')
# 隱式等待（下面的方法在工作時(shí)如果取不到就等10秒）
browser.implicitly_wait(10)
# 顯式等待
wait = WebDriverWait(browser, 10)
wait.until(expected_conditions.presence_of_element_located((By.CSS_SELECTOR, '.login_panel_iframe')))
iframe1 = browser.find_element_by_css_selector('.login_panel_iframe')
# 記錄iframe1的位置（相對位置）
x1, y1 = iframe1.location['x'], iframe1.location['y']
# Chrome對象的switch_to屬性的frame方法，可以從頁面切換到iframe中
browser.switch_to.frame(iframe1)
iframe2 = browser.find_element_by_css_selector('#ding-login-iframe')
x2, y2 = iframe2.location['x'], iframe2.location['y']
browser.switch_to.frame(iframe2)
username_input = browser.find_element_by_css_selector('#username')
# 模擬用戶輸入
username_input.send_keys('xx@1000phone.com')
password_input = browser.find_element_by_css_selector('#password')
password_input.send_keys('xxxxx!!')
# 創(chuàng)建一個(gè)等待對象
wait = WebDriverWait(browser, 10)
wait.until(expected_conditions.element_to_be_clickable((By.CSS_SELECTOR, '#login_checkcode_ico')))
captcha_img = browser.find_element_by_css_selector('#login_checkcode_ico')
# WebElement對象的size屬性代表元素寬度和高度，location屬性代表元素在窗口中的位置
size, location = captcha_img.size, captcha_img.location
x3, y3, width, height = location['x'], location['y'], size['width'], size['height']
# 截取整個(gè)瀏覽器窗口的圖片獲得圖片的二進(jìn)制數(shù)據(jù)
image_data = browser.get_screenshot_as_png()
# bytes（只讀字節(jié)串） ----> io.BytesIO（可寫字節(jié)串）---> getvalue() ---> bytes
# str（只讀字符串） ----> io.StringIO（可寫字符串）---> getvalue() ---> str
browser_image = Image.open(io.BytesIO(image_data))
# 從截圖上剪裁出驗(yàn)證碼的圖片
x, y = x1 + x2 + x3, y1 + y2 + y3
# Windows系統(tǒng)的寫法 ---> 如果截圖有問題就把坐標(biāo)寫死
# print(x, y, width, height)
checkcode_image = browser_image.crop((x * 1.25, y * 1.25, (x + width) * 1.25, (y + height) * 1.25))
# macOS系統(tǒng)的寫法
# checkcode_image = browser_image.crop((x * 2, y * 2, (x + width) * 2, (y + height) * 2))
checkcode_image.save('result.png')
# 通過easyocr做光學(xué)文字識別
reader = easyocr.Reader(['en'], gpu=False)
code = reader.readtext('result.png', detail=0)[0]
# 將識別出的驗(yàn)證碼輸入文本框
checkcode_input = browser.find_element_by_css_selector('#login_checkcode')
checkcode_input.send_keys(code)
login_button = browser.find_element_by_css_selector('#login_submit_btn')
# 模擬用戶點(diǎn)擊
login_button.click()

四、第三方打碼平臺（超級鷹打碼平臺）

補(bǔ)充：需要使用python 自帶pillow庫

"""
Pillow庫 ---> PIL ---> Python Image Library
"""
from PIL import Image, ImageFilter

# 加載圖像
guido_image = Image.open('guido.jpg')
# 剪裁
guido_image.crop((80, 40, 310, 350)).show()
# 濾鏡
guido_image.filter(ImageFilter.CONTOUR).show()
# 縮略圖
guido_image.thumbnail((125, 185))
# 顯示圖像
guido_image.show()

編寫超級鷹打碼平臺類

from hashlib import md5

import requests


class ChaojiyingClient:

    def __init__(self, username, password, soft_id):
        self.username = username
        password = password.encode('utf8')
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def post_pic(self, image_data, code_type):
        """
        image_data: 圖片字節(jié)
        code_type: 驗(yàn)證碼類型 參考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': code_type,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', image_data)}
        response = requests.post(
            url='http://upload.chaojiying.net/Upload/Processing.php',
            data=params,
            files=files,
            headers=self.headers
        )
        return response.json()

    # 超級鷹錯(cuò)誤反饋函數(shù)（僅用于給超級鷹平臺反饋）
    def report_error(self, im_id):
        """
        im_id:報(bào)錯(cuò)題目的圖片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()


if __name__ == '__main__':
    chaojiying = ChaojiyingClient('賬戶', '密碼x', 'ID')  # 用戶中心>>軟件ID 生成一個(gè)替換 96001
    with open('img.png', 'rb') as file:
        image_data = file.read()  # 本地圖片文件路徑 來替換 a.jpg 有時(shí)WIN系統(tǒng)須要//
        print(chaojiying.post_pic(image_data, 1902))  # 1902 驗(yàn)證碼類型  官方網(wǎng)站>>價(jià)格體系 3.4+版 print 后要加()

例子：使用超級鷹進(jìn)行阿里云郵箱自動(dòng)登陸

import io

import easyocr

from PIL import Image
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions
from selenium.webdriver.support.wait import WebDriverWait

from chaojiying import ChaojiyingClient

browser = webdriver.Chrome()
browser.set_window_size(1280, 960)
browser.get('http://mail.1000phone.com/')
# 隱式等待（下面的方法在工作時(shí)如果取不到就等10秒）
browser.implicitly_wait(10)
# 顯式等待
wait = WebDriverWait(browser, 10)
wait.until(expected_conditions.presence_of_element_located((By.CSS_SELECTOR, '.login_panel_iframe')))
iframe1 = browser.find_element_by_css_selector('.login_panel_iframe')
# 記錄iframe1的位置（相對位置）
x1, y1 = iframe1.location['x'], iframe1.location['y']
# Chrome對象的switch_to屬性的frame方法，可以從頁面切換到iframe中
browser.switch_to.frame(iframe1)
iframe2 = browser.find_element_by_css_selector('#ding-login-iframe')
x2, y2 = iframe2.location['x'], iframe2.location['y']
browser.switch_to.frame(iframe2)
username_input = browser.find_element_by_css_selector('#username')
# 模擬用戶輸入
username_input.send_keys('xxxx.com')
password_input = browser.find_element_by_css_selector('#password')
password_input.send_keys('xxxx!!')
# 創(chuàng)建一個(gè)等待對象
wait = WebDriverWait(browser, 10)
wait.until(expected_conditions.element_to_be_clickable((By.CSS_SELECTOR, '#login_checkcode_ico')))
captcha_img = browser.find_element_by_css_selector('#login_checkcode_ico')
# WebElement對象的size屬性代表元素寬度和高度，location屬性代表元素在窗口中的位置
size, location = captcha_img.size, captcha_img.location
x3, y3, width, height = location['x'], location['y'], size['width'], size['height']
# 截取整個(gè)瀏覽器窗口的圖片獲得圖片的二進(jìn)制數(shù)據(jù)
image_data = browser.get_screenshot_as_png()
# bytes（只讀字節(jié)串） ----> io.BytesIO（可寫字節(jié)串）---> getvalue() ---> bytes
# str（只讀字符串） ----> io.StringIO（可寫字符串）---> getvalue() ---> str
browser_image = Image.open(io.BytesIO(image_data))
# 從截圖上剪裁出驗(yàn)證碼的圖片
x, y = x1 + x2 + x3, y1 + y2 + y3
# Windows系統(tǒng)的寫法 ---> 如果截圖有問題就把坐標(biāo)寫死
# print(x, y, width, height)
checkcode_image = browser_image.crop((x * 1.25, y * 1.25, (x + width) * 1.25, (y + height) * 1.25))
# macOS系統(tǒng)的寫法
# checkcode_image = browser_image.crop((x * 2, y * 2, (x + width) * 2, (y + height) * 2))
checkcode_image.save('result.png')
# 通過超級鷹打碼平臺打碼
chaojiying = ChaojiyingClient('賬戶', '密碼', 'ID')
with open('result.png', 'rb') as file:
    image_data = file.read()
    result_dict = chaojiying.post_pic(image_data, 1902)
# 將識別出的驗(yàn)證碼輸入文本框
checkcode_input = browser.find_element_by_css_selector('#login_checkcode')
checkcode_input.send_keys(result_dict['pic_str'])
login_button = browser.find_element_by_css_selector('#login_submit_btn')
# 模擬用戶點(diǎn)擊
login_button.click()

五、通過接碼平臺接收手機(jī)驗(yàn)證碼(隱私短信平臺)

通過隱私短信平臺接收驗(yàn)證碼（免費(fèi)）

import re

import bs4
import requests

pattern = re.compile(r'\d{4,6}')

resp = requests.get('https://www.yinsiduanxin.com/china-phone-number/verification-code-16521686439.html')
soup = bs4.BeautifulSoup(resp.text, 'html.parser')
# print(resp.text)
td = soup.select_one('body > div.container > div:nth-child(4) > div:nth-child(3) > div.main > div.layui-row > table > tbody > tr:nth-child(1) > td:nth-child(2)')
results = pattern.findall(td.text)
print(results[0])

到此這篇關(guān)于Python中常見的反爬機(jī)制及其破解方法總結(jié)的文章就介紹到這了,更多相關(guān)Python反爬機(jī)制及其破解內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

python 常見的反爬蟲策略
Python常見反爬蟲機(jī)制解決方案
python解決網(wǎng)站的反爬蟲策略總結(jié)
python中繞過反爬蟲的方法總結(jié)
Python反爬蟲技術(shù)之防止IP地址被封殺的講解
Python爬蟲和反爬技術(shù)過程詳解

標(biāo)簽：楊凌六盤水聊城牡丹江迪慶揚(yáng)州南寧撫州

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《Python中常見的反爬機(jī)制及其破解方法總結(jié)》，本文關(guān)鍵詞 Python,中,常見,的,反爬,機(jī)制,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。

濮阳杆衣贸易有限公司

Python中常見的反爬機(jī)制及其破解方法總結(jié)

一、常見反爬機(jī)制及其破解方式

二、調(diào)用三方API接口數(shù)據(jù)（天行數(shù)據(jù)）

三、OCR（光學(xué)文字識別）庫

四、第三方打碼平臺（超級鷹打碼平臺）

五、通過接碼平臺接收手機(jī)驗(yàn)證碼(隱私短信平臺)

一、常見反爬機(jī)制及其破解方式

二、調(diào)用三方API接口數(shù)據(jù)（天行數(shù)據(jù)）

三、OCR（光學(xué)文字識別）庫

四、第三方打碼平臺（超級鷹打碼平臺）

五、通過接碼平臺接收手機(jī)驗(yàn)證碼(隱私短信平臺)