前言
本文結(jié)構(gòu)如下:
1、爬取某東暢銷商品數(shù)據(jù)
2、清洗數(shù)據(jù)并并進行簡單分析
3、將數(shù)據(jù)進行可視化展示
數(shù)據(jù)的字段如下:
![](/d/20211017/714c45e87c2e3c12bb88b9b539d2bbc6.gif)
一共爬取了243條某東暢銷商品數(shù)據(jù)
一、獲取數(shù)據(jù)
1. 分析網(wǎng)頁
在編寫代碼之前,先來分析一波網(wǎng)頁。
![](/d/20211017/024c133f9fadf0e392d42ae7a811ccc7.gif)
上面是某東的暢銷商品,通過辰哥分析分析,該網(wǎng)頁有異步加載(前面10個商品是靜態(tài)加載,剩下的是動態(tài)異步加載),因此我們需要寫了個請求去獲取數(shù)據(jù)。
2. 獲取靜態(tài)網(wǎng)頁商品鏈接
商品的銷售、評論等數(shù)據(jù)在商品詳情頁,這里先獲取商品詳情頁鏈接
![](/d/20211017/58ec9f6b5ed86bf543c2e460aa3fc868.gif)
結(jié)果如下:
![](/d/20211017/fb5fa5076e5963435d42b625328aa75c.gif)
3. 獲取動態(tài)網(wǎng)頁商品鏈接
通過抓包可以獲取到動態(tài)加載鏈接,并獲取到商品標(biāo)題和商品id(這里的商品id可以用于后面拼接商品詳情頁鏈接)
![](/d/20211017/cac317cb789f697e348f54c547cab29c.gif)
![](/d/20211017/d843f26db45184dba17f0e47d4d28b2d.gif)
獲取json數(shù)據(jù)后,提取出商品標(biāo)題和商品ID
![](/d/20211017/6a462e37869eb5dacd8ab5ec347b380f.gif)
4. 獲取打折、原價、秒殺價
通過商品ID可以獲取到商品打折、原價、秒殺價(這里有接口,接口是通過抓包獲取的,感興趣的可以去自己去嘗試,不明白的可以直接使用)
![](/d/20211017/d4a919386eeefc3facdc18131574b962.gif)
這里將該功能封裝成函數(shù),通過傳入商品ID就可以獲取該商品的商品打折、原價、秒殺價
結(jié)果如下:
![](/d/20211017/780c3999c72516c34502e914779a5800.gif)
5. 獲取評論數(shù)、好評數(shù)、中評數(shù)、差評數(shù)、好評率
通過商品ID可以獲取到評論數(shù)、好評數(shù)、中評數(shù)、差評數(shù)、好評率(同樣這里有接口,接口是通過抓包獲取的,感興趣的可以去自己去嘗試,不明白的可以直接使用)
![](/d/20211017/85f37de05d321d678cbedccedb75c58c.gif)
結(jié)果如下:
![](/d/20211017/6938f84de341fda2a4729849f9dc6cb6.gif)
6. 保存到excel
接著開始遍歷商品,并通過ID去獲取商品的銷售情況(步驟4和步驟5的函數(shù)),最后把數(shù)據(jù)保存到execl
定義表頭
![](/d/20211017/ea5e361524f7dc98b9199b326d49a5a8.gif)
寫入數(shù)據(jù)
![](/d/20211017/bfdf87c85935bbb1547be3f25ad67fad.gif)
其中的get_price和CommentCount是步驟4和步驟5的函數(shù)。count是excel中行數(shù),因此在循環(huán)中count+1,依次寫入下一行。
最終保存結(jié)果
![](/d/20211017/176e170e27ea1aa175566b3580ae6f58.gif)
一共爬取了243條某東暢銷商品數(shù)據(jù)
二、數(shù)據(jù)分析可視化
1.數(shù)據(jù)清洗
![](/d/20211017/8234ddf216a085c035564a4d448f1289.gif)
需要清洗的內(nèi)容,主要有圖中這三列(標(biāo)題、打折、好評數(shù))。
清洗目標(biāo):
標(biāo)題過長(長度控制在10內(nèi)),不方便后面的畫圖
打折字段中含有折字,在進行排序時不能直接轉(zhuǎn)數(shù)值型。
好評數(shù)中的萬,轉(zhuǎn)為具體數(shù)值,如1.2萬轉(zhuǎn)為12000
![](/d/20211017/1de835442a68f99b75a1309800350d63.gif)
清洗結(jié)果:
![](/d/20211017/51c61092090e5cda782536c91c2d2707.gif)
2.可視化-商品打折力度
從清洗后數(shù)據(jù)中取出:商品名稱和打折這兩列,進行【排序】從打折最大到打折最小。最后取出前15名進行可視化
核心代碼****如下:
![](/d/20211017/b8303bda19410764d2e970357901c7cb.gif)
可視化效果:
![](/d/20211017/45cdbd6eaafe967de15b92446c012a7e.gif)
3.可視化-好評率統(tǒng)計
從數(shù)據(jù)中取出:好評率這列,對不同的好評率進行統(tǒng)計,如好評率是100%(1)的商品多少件,好評率99%(0.99)的商品多少件等。
![](/d/20211017/bc06d2081ceda8b465c544ff27cba350.gif)
核心代碼****如下:
![](/d/20211017/87f2c235f58ba98c32447850064b8da5.gif)
可視化效果:
![](/d/20211017/a9b1f3dc0e3a78fe219fda0d1b3ef26e.gif)
3.可視化-暢銷商品銷量排行
從數(shù)據(jù)中取出:商品名稱和評論數(shù)這兩列,這里根據(jù)評論數(shù)去作為銷售依據(jù),對商品的銷量進行排序(高到低),并取出前15名進行可視化。
核心代碼****如下:
![](/d/20211017/0c7a8c5a355e78afc38d1808d43b1bf9.gif)
可視化效果:
![](/d/20211017/0d80c7f546ad789901ffe84a41173526.gif)
4.可視化-暢銷商品前15名原價與秒殺價對比
在上面的分析中可以知道暢銷商品的銷量前15名,這里將這15件商品的原價和秒殺價進行可視化對比。
核心代碼****如下:
![](/d/20211017/313167bac2b9f92a9612505900ca2990.gif)
可視化效果:
![](/d/20211017/ab5e10b030764abb41f9a46d82ce42ec.gif)
到此這篇關(guān)于用Python爬取618當(dāng)天某東熱門商品銷量數(shù)據(jù),看看大家喜歡什么!的文章就介紹到這了,更多相關(guān)Python爬取商品銷量數(shù)據(jù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
您可能感興趣的文章:- Python爬蟲實戰(zhàn)之爬取京東商品數(shù)據(jù)并實實現(xiàn)數(shù)據(jù)可視化
- Python實現(xiàn)數(shù)據(jù)可視化看如何監(jiān)控你的爬蟲狀態(tài)【推薦】
- Python 爬取淘寶商品信息欄目的實現(xiàn)
- 基于Python爬取京東雙十一商品價格曲線
- Python通過正則庫爬取淘寶商品信息代碼實例