使用Python进行数据挖掘,快速上手实操,三行代码爬取网上口红销量最高的数据

目录

    • 爬虫
    • 爬取网络数据
      • 以爬取京东数据为例
    • 解析网络数据
    • 存取网络数据
    • 数据可视化
    • 大功告成

爬虫

  • 爬虫

爬取网络数据的虫子(Python程序)

  • 爬虫实质

模拟浏览器的工作原理,向服务器请求相应的数据

爬取网络数据

爬取一页京东上销量最高的口红评论区数据

  • 找不到这双口红的销售数据怎么办?

曲线救国,通过评论数据间接得到口红的销售数据

  • 如何找到评论区内容背后的URL?

(1)从谷歌游览器打开京东(www.jd.com),鼠标右击选择检查,进入程序员调试窗口

(2)点击network(网络),刷新当前商品的界面
(3)复制一小段评论区内容,然后在程序员调试窗口点击放大镜,粘贴

(4)点击刷新小圆圈查找
(5)点击查询结果的第二行,跳转到对应的请求
(6)点击Headers,找到Request URL即几评论区数据背后的URL

以爬取京东数据为例

  • 梳理代码流程:

(1)引入Python工具包requests
(2)使用工具包中的get方法,向服务器发起请求
(3)打印输出请求回来的数据(print语法)

import requests
wang=requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100011323932&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
print(wang.text)

结果

使用Python进行数据挖掘,快速上手实操,三行代码爬取网上口红销量最高的数据_第1张图片

解析网络数据

  • 如何解析这堆杂乱无章的数据?

(1)打开网页工具 www.json.cn
(2)将数据整理成Json格式:以大括号开头和结尾
(3)找到目标数据值对应的名字

  • Python replace语法

replace为替换的意思,可以使用replace把任何不想要的数据替换成一个新值

  • 引入Python整理数据的工具包 json、获取口红颜色及size数据
import requests
import json
resp = requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100006262957&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
content = resp.text
text = content.replace('fetchJSON_comment98(','').replace(');','')	#去掉'fetchJSON_comment98('和')'
json_data = json.loads(text)
comments = json_data['comments']	#一页十个评论
for item in comments:
  color = item['productColor']
  print("productColor=",color)

结果
使用Python进行数据挖掘,快速上手实操,三行代码爬取网上口红销量最高的数据_第2张图片

存取网络数据

  • 学会引入openpyxl工具包存储数据?

(1)创建一个Excel表格

(2)创建一个sheet

(3)在sheet里面保存数据

(4)把表格保存在一个磁盘里

import requests
import json #必须以大括号开头,以大括号结尾
import openpyxl

wk=openpyxl.Workbook() #创建excel表格
sheet=wk.create_sheet()


wang=requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100011323932&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
content=wang.text
#去前缀后缀
rest=content.replace('fetchJSON_comment98(','').replace(');','')

json_data=json.loads(rest)
comments=json_data['comments'] #这里面有十个值
for item in comments:
  color=item['productColor']
  size=item['productSize']
  sheet.append([color,size]) #指定第一列第二列保存的列名
  wk.save('data/LJL-1986334632n.xlsx')

使用Python进行数据挖掘,快速上手实操,三行代码爬取网上口红销量最高的数据_第3张图片

数据可视化

Excel数据的可视化分析

import openpyxl
import matplotlib.pyplot as plt
wk = openpyxl.load_workbook('data/LJL-1986334632n.xlsx')
sheet = wk['Sheet1']
colors = []
for i in range(1,11):
  colors.append(sheet['A' + str(i)].value)
color_class = set(colors)
count = len(colors)
color_percent = []
for clr in color_class:
  color_percent.append(colors.count(clr)/count)
plt.pie(x=color_percent,labels=color_class,autopct='%1.3f%%')
plt.rcParams['font.sans-serif']=['SimHei']
plt.legend()
plt.savefig('data/msf-1557486419n.png')

使用Python进行数据挖掘,快速上手实操,三行代码爬取网上口红销量最高的数据_第4张图片

大功告成

你可能感兴趣的:(研0,python,数据挖掘,爬虫)