成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用Python爬取了某寶1166家月餅數(shù)據(jù)進行可視化分析,終于找到最好吃的月餅~

大數(shù)據(jù) 數(shù)據(jù)可視化
數(shù)據(jù)采集是數(shù)據(jù)可視化分析的第一步,也是最基礎(chǔ)的一步,數(shù)據(jù)采集的數(shù)量和質(zhì)量越高,后面分析的準(zhǔn)確的也就越高,我們來看一下淘寶網(wǎng)的數(shù)據(jù)該如何爬取。

大家好,我是志斌~

在有幾天就是中秋節(jié)了,不知道大家有沒有跟志斌一樣的選擇困難癥,面對琳瑯滿目的商品,不知道挑哪款月餅送長輩最好。

不過好在志斌會Python,將淘寶上的月餅商品都爬取了下來,并進行可視化分析,從而你看看哪款月餅是最合適的。

1.數(shù)據(jù)采集

數(shù)據(jù)采集是數(shù)據(jù)可視化分析的第一步,也是最基礎(chǔ)的一步,數(shù)據(jù)采集的數(shù)量和質(zhì)量越高,后面分析的準(zhǔn)確的也就越高,我們來看一下淘寶網(wǎng)的數(shù)據(jù)該如何爬取。

淘寶網(wǎng)站是一個動態(tài)加載的網(wǎng)站,我們之前可以采用解析接口或者用Selenium自動化測試工具來爬取數(shù)據(jù),但是現(xiàn)在淘寶對接口進行了加密,使我們很難分析出來其中的規(guī)律,同時淘寶也對Selenium進行了反爬限制,所以我們要換種思路來進行數(shù)據(jù)獲取。

志斌打開開發(fā)者模式,開始對網(wǎng)頁進行觀察后發(fā)現(xiàn),淘寶商品的數(shù)據(jù)竟然在源網(wǎng)頁中以注釋的方式存儲著。

圖片

已經(jīng)發(fā)現(xiàn)了數(shù)據(jù)存儲的位置和方式,那我們可以直接構(gòu)建爬蟲了,部分代碼如下:

import requests
import re
import openpyxl
response = requests.get(url, headers=headers, params=params)for i in range(44):
try:
if (fukuanrenshu[i] == '1.5萬+'):
f = 15000
elif (fukuanrenshu[i] == '1.0萬+'):
f = 10000
elif ('+'in fukuanrenshu[i]):
f = re.findall('\d+', fukuanrenshu[i])
else:
f = fukuanrenshu[i]
if float(jiage[i]) > 10:
sheet.append([dianpumingcheng[i], shangpinming[i], float(jiage[i]), fahuodi[i], f])

2.數(shù)據(jù)清洗

數(shù)據(jù)采集后,要對其進行清洗,剔除臟數(shù)據(jù),有助于提高分析的準(zhǔn)確性。

(1)導(dǎo)入商品數(shù)據(jù)

用pandas讀取爬取后的商品數(shù)據(jù)并預(yù)覽。

import pandas as pd
df = pd.read_excel('月餅.xlsx',names=['店鋪名稱','商品名','價格','產(chǎn)地','付款人數(shù)'])
print(df.head())

圖片

(2)刪除重復(fù)數(shù)據(jù)

df.drop_duplicates()

(3)查看數(shù)據(jù)類型

查看字段類型和缺失值情況,符合分析需要,無需另做處理。

df.info()

圖片

3.可視化分析

我們來對這1166家月餅商品數(shù)據(jù)進行可視化分析。可視化圖是由Python、Tableau和Excel共同繪制而來。

(1)在售月餅的特點

通過對月餅的商品名稱進行詞云圖繪制,志斌發(fā)現(xiàn)蛋黃、廣式、五仁、蓮蓉、豆沙味的月餅售賣較多,同時淘寶上售賣的月餅大多是用來給人們送禮的。

圖片

制作代碼如下:

from imageio import imread
import jieba
from wordcloud import WordCloud, STOPWORDS

with open("1.txt",'r',encoding='utf-8') as f:
job_title_1 = f.read()
contents_cut_job_title = jieba.cut(job_title_1)
contents_list_job_title = " ".join(contents_cut_job_title)
wc = WordCloud(stopwords=STOPWORDS.add("一個"), collocations=False,
background_color="white",
font_path=r"K:\msyh.ttc",
width=400, height=300, random_state=42,
mask=imread('月餅.jpg', pilmode="RGB")
)
wc.generate(contents_list_job_title)
wc.to_file("推薦語.png")

(2)各省產(chǎn)量分布圖

通過對各商品的產(chǎn)地數(shù)據(jù)進行統(tǒng)計并繪制了全國地圖,我們發(fā)現(xiàn)廣東、浙江和北京這三個地方生產(chǎn)月餅最多,分別是312家、221家和131家。

圖片

制作代碼如下:

import openpyxl
from collections import Counter
from pyecharts import Map
wb = openpyxl.load_workbook('月餅.xlsx')
sheet = wb['Sheet']
a = []
for i in range(2,1960):
D = sheet[f'D{i}']
a.append(D.value)
province_distribution = dict(Counter(a))
provice = list(province_distribution.keys())
values = list(province_distribution.values())
map = Map("中國地圖",width=1200, height=600)
map.add("", provice, values, visual_range=[0, 50], maptype='china', is_visualmap=True,
visual_text_color='#000',is_label_show=True)
map.render(path="地圖.html")

我們進一步對廣東省的產(chǎn)地數(shù)據(jù)進行分析發(fā)現(xiàn),廣州的月餅商家最多,占全省的40%。

圖片

(3)月餅價格區(qū)間分布

我們對月餅價格以100為分點,進行可視化后發(fā)現(xiàn),價格在100以內(nèi)的月餅商品最多,有478家,其次是價格在100-200之間的,有399家。看來月餅的價格還是相對便宜的~

圖片

(4)月餅月銷量top20商家

我們發(fā)現(xiàn)月餅銷量top20的商店都是旗艦店,看來大家在網(wǎng)上購買食品類商品時還是喜歡去官方的店鋪進行購買。其中稻香村食品店的月餅銷量最高,志斌一會去這家看看。

圖片

看完月銷量,在來看看月銷額。我們發(fā)現(xiàn)美心官方旗艦店的月銷額很高,但是它的月銷量很低,看來它的月餅商品價格略高。

圖片

(5)志斌入手的月餅

經(jīng)過以上的分析和對寶貝的評價、好評率等數(shù)據(jù)進行綜合考慮之后,志斌最終選擇購買這款月餅來送給長輩。

圖片

責(zé)任編輯:武曉燕 來源: 志斌的python筆記
相關(guān)推薦

2021-11-03 09:49:25

Python可視化數(shù)據(jù)

2021-06-30 23:38:56

Python微信好友

2022-06-15 08:25:07

Python天氣數(shù)據(jù)可視化分析

2020-09-28 16:14:42

Python月餅數(shù)據(jù)

2016-11-25 11:16:22

阿里支付寶數(shù)據(jù)分析

2019-01-16 18:34:37

Python 開發(fā)數(shù)據(jù)

2016-11-28 15:03:06

Python數(shù)據(jù)可視化網(wǎng)絡(luò)分析

2021-05-11 07:49:31

Python數(shù)據(jù)分析

2021-06-04 12:56:22

數(shù)據(jù)分析崗位

2023-07-26 12:38:42

PyGWalker數(shù)據(jù)類型

2017-01-05 16:48:50

Python道路數(shù)據(jù)數(shù)據(jù)可視化

2018-01-25 14:34:18

大數(shù)據(jù)可視化工具

2020-09-09 12:15:50

大數(shù)據(jù)互聯(lián)網(wǎng)可視化

2020-09-27 14:56:33

工具數(shù)據(jù)可視化技術(shù)

2021-09-22 11:12:24

機器人人工智能月餅

2021-11-29 13:29:06

Basemap可視化分析

2016-12-22 17:01:11

2018-01-03 17:22:22

DataHunter數(shù)據(jù)可視化分析

2018-11-14 10:15:58

開源技術(shù) 數(shù)據(jù)

2021-05-06 09:57:18

Python 開發(fā)編程語言
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩国产一区二区三区 | 亚洲毛片 | 国产欧美一区二区久久性色99 | 久久久久久91香蕉国产 | 久久久久久国产精品 | 秋霞电影院午夜伦 | 久久免费国产 | 国产一区久久精品 | 久久精品国产亚洲 | 日韩免费网站 | 国产精品我不卡 | 久久久精品一区 | 超碰国产在线 | 亚洲视频二区 | 亚洲福利 | 欧美a√| 先锋资源网 | 日本三级全黄三级三级三级口周 | 国产精品视频 | 日韩快播电影网 | 99国产精品久久久 | 国产成人影院 | 国产jizz女人多喷水99 | 别c我啊嗯国产av一毛片 | 91精品国产91久久久久久最新 | 精品三级在线观看 | 中文字幕精品视频 | 日韩激情网 | 精品一区二区在线观看 | 一区二区福利视频 | 成人美女免费网站视频 | 欧美一区二区三区在线视频 | 精品乱人伦一区二区三区 | 日干夜干 | 日韩天堂av | 视频一区二区在线观看 | 欧美成人精品激情在线观看 | 日本亚洲欧美 | 国产午夜精品福利 | 久久久精品久久 | 亚洲精品区 |