目錄
- 一、爬蟲(chóng)的流程
- 二、requests模塊的導(dǎo)入
- 三、完整代碼
一、爬蟲(chóng)的流程
開(kāi)始學(xué)習(xí)爬蟲(chóng),我們必須了解爬蟲(chóng)的流程框架。在我看來(lái)爬蟲(chóng)的流程大概就是三步,即不論我們爬取的是什么數(shù)據(jù),總是可以把爬蟲(chóng)的流程歸納總結(jié)為這三步:
1.指定 url,可以簡(jiǎn)單的理解為指定要爬取的網(wǎng)址
2.發(fā)送請(qǐng)求。requests 模塊的請(qǐng)求一般為 get 和 post
3.將爬取的數(shù)據(jù)存儲(chǔ)
二、requests模塊的導(dǎo)入
因?yàn)?requests 模塊屬于外部庫(kù),所以需要我們自己導(dǎo)入庫(kù)
導(dǎo)入的步驟:
1.右鍵Windows圖標(biāo)
2.點(diǎn)擊“運(yùn)行”
3.輸入“cmd”打開(kāi)命令面板
4.輸入“pip install requests”,等待下載完成
如圖:
如果還是下載失敗,我的建議是百度一下,你就知道(我也是邊學(xué)邊寫(xiě),是在是水平有限)
歐克,既然導(dǎo)入成功后我們就簡(jiǎn)單的來(lái)爬取一下搜狗的首頁(yè)吧!
三、完整代碼
import requests
if __name__ == "__main__":
# 指定url
url = "https://www.sougou.com/"
# 發(fā)起請(qǐng)求
# get方法會(huì)返回一個(gè)響應(yīng)數(shù)據(jù)
response = requests.get(url)
# 獲取響應(yīng)數(shù)據(jù)
page_txt = response.text # text返回一個(gè)字符串的響應(yīng)數(shù)據(jù)
# print(page_txt)
# 存儲(chǔ)
with open("./sougou.html", "w", encoding = "utf-8") as fp:
fp.write(page_txt)
print("爬取數(shù)據(jù)結(jié)束!??!")
我們打開(kāi)保存的文件,如圖
歐克,這就是最基本的爬取,如果學(xué)會(huì)了,那就試一試爬取 B站 的首頁(yè)吧。
到此這篇關(guān)于Python爬蟲(chóng)基礎(chǔ)之requestes模塊的文章就介紹到這了,更多相關(guān)Python requestes模塊內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
您可能感興趣的文章:- python—sys模塊之獲取參數(shù)的操作
- Python協(xié)程asyncio模塊的演變及高級(jí)用法
- python process模塊的使用簡(jiǎn)介
- 聊一聊python常用的編程模塊
- python文件目錄操作之os模塊
- Python collections模塊的使用技巧
- Python使用random模塊實(shí)現(xiàn)擲骰子游戲的示例代碼
- Python多線(xiàn)程編程之threading模塊詳解
- python通配符之glob模塊的使用詳解
- Python基礎(chǔ)之模塊相關(guān)知識(shí)總結(jié)