爬取网络数据的虫子(Python程序)
模拟浏览器的工作原理,向服务器请求相应的数据
爬取一页京东上销量最高的口红评论区数据
曲线救国,通过评论数据间接得到口红的销售数据
(1)从谷歌游览器打开京东(www.jd.com),鼠标右击选择检查,进入程序员调试窗口
(2)点击network(网络),刷新当前商品的界面
(3)复制一小段评论区内容,然后在程序员调试窗口点击放大镜,粘贴
(4)点击刷新小圆圈查找
(5)点击查询结果的第二行,跳转到对应的请求
(6)点击Headers,找到Request URL即几评论区数据背后的URL
(1)引入Python工具包requests
(2)使用工具包中的get方法,向服务器发起请求
(3)打印输出请求回来的数据(print语法)
import requests
wang=requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100011323932&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
print(wang.text)
结果
(1)打开网页工具 www.json.cn
(2)将数据整理成Json格式:以大括号开头和结尾
(3)找到目标数据值对应的名字
replace为替换的意思,可以使用replace把任何不想要的数据替换成一个新值
import requests
import json
resp = requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100006262957&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
content = resp.text
text = content.replace('fetchJSON_comment98(','').replace(');','') #去掉'fetchJSON_comment98('和')'
json_data = json.loads(text)
comments = json_data['comments'] #一页十个评论
for item in comments:
color = item['productColor']
print("productColor=",color)
(1)创建一个Excel表格
(2)创建一个sheet
(3)在sheet里面保存数据
(4)把表格保存在一个磁盘里
import requests
import json #必须以大括号开头,以大括号结尾
import openpyxl
wk=openpyxl.Workbook() #创建excel表格
sheet=wk.create_sheet()
wang=requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100011323932&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
content=wang.text
#去前缀后缀
rest=content.replace('fetchJSON_comment98(','').replace(');','')
json_data=json.loads(rest)
comments=json_data['comments'] #这里面有十个值
for item in comments:
color=item['productColor']
size=item['productSize']
sheet.append([color,size]) #指定第一列第二列保存的列名
wk.save('data/LJL-1986334632n.xlsx')
Excel数据的可视化分析
import openpyxl
import matplotlib.pyplot as plt
wk = openpyxl.load_workbook('data/LJL-1986334632n.xlsx')
sheet = wk['Sheet1']
colors = []
for i in range(1,11):
colors.append(sheet['A' + str(i)].value)
color_class = set(colors)
count = len(colors)
color_percent = []
for clr in color_class:
color_percent.append(colors.count(clr)/count)
plt.pie(x=color_percent,labels=color_class,autopct='%1.3f%%')
plt.rcParams['font.sans-serif']=['SimHei']
plt.legend()
plt.savefig('data/msf-1557486419n.png')