Python入门三天体验课

第一关:爬虫小白的进阶之路

前言

欢迎来和我们一起探究Python的奥妙。

本次课程共分为三天,你将学到爬虫基础知识、代码优化、数据的存储.....

老师会手把手带你实操写代码,一起感受python给我们的生活和工作带来的高效

开始学习前老师还有个小tips:将学习界面添加到收藏夹,学习更便捷

OK~一切准备就绪,let's go

初识python爬虫

  • 什么是爬虫?
    爬取网络数据的虫子(Python程序)
  • 爬虫实质是什么呢?
    模拟浏览器的工作原理,向服务器请求相应的数据
  • 浏览器的工作原理


    image.png

    浏览器在这个过程中还起到了翻译数据的作用哦

爬虫的工作原理如下图:


image.png

数据背后的秘密

找不到这双鞋子的销售数据怎么办?

  • 曲线救国,通过评论数据间接得到鞋子的销售数据
    如何找到评论区内容背后的URL?

(1)鼠标右击选择检查,打开程序员调试窗口,点击network(网络)
(2)刷新当前页面
(3)复制一小段评论区内容,然后在程序员调试窗口点击放大镜,粘贴
(4)点击刷新小圆圈查找
(5)点击查询结果的第二行,跳转到对应的请求
(6)点击Headers,找到Request URL即几评论区数据背后的URL


image.png

Request URL: https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100011323932&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1

3行代码爬取京东数据

梳理代码流程:

(1)引入Python工具包requests
(2)使用工具包中的get方法,向服务器发起请求
(3)打印输出请求回来的数据(print语法)

import requests as rq
import json
resp= rq.get("https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100019039124&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1")
print(resp.text)

牛刀小试1

爬取一页京东上销量最高的口红评论区数据


image.png
import requests as rq
import json
resp= rq.get("https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100011323932&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1")
print(resp.text)

第二关:python高手过招

Python代码解析数据

如何解析这堆杂乱无章的数据?

  • (1)打开网页工具 www.json.cn
  • (2)将数据整理成Json格式:以大括号开头和结尾
  • (3)找到目标数据值对应的名字

Python replace语法

replace为替换的意思,可以使用replace把任何不想要的数据替换成一个新值

引入Python整理数据的工具包 json、获取鞋子颜色及鞋码数据

import requests as rq
import json
resp= rq.get("https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100019039124&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1")
content  =resp.text
rest=content.replace("fetchJSON_comment98(",'').replace(");",'')
json_data= json.loads(rest)
comments =json_data["comments"]
for item in comments:
  color =item["productColor"]
  size=item["productSize"]
  print(color)
  print(size)

怎么样?自己爬到数据的感觉有没有很奇妙

牛刀小试2

利用for循环写一段代码,爬取评论中口红的色号数据

import requests
import json
resp =requests.get("https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100011323932&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1")
content =resp.text
rest=content.replace('fetchJSON_comment98(','').replace(');','')
json_data=json.loads(rest)
comments=json_data['comments']
for item in comments:
  color =item['productColor']
  print(color)

第三关:化身数据分析师

学会引入openpyxl工具包存储数据?

(1)创建一个Excel表格

(2)创建一个sheet

(3)在sheet里面保存数据

(4)把表格保存在一个磁盘里

import openpyxl
wb =openpyxl.Workbook()
sheet1=wb.create_sheet()
sheet1.append(['aaa','bbb'])
wb.save('data/123_ABC_CDE.xlsx') 

注意⚠️:我们的数据保存在云服务器,服务器访问入口:http://py.xxx.com/pythondata

体验数据可视化分析

使用之前爬取的数据存储为CSV文件,然后进行可视化分析

import requests as rq
import json
import openpyxl
wb =openpyxl.Workbook()
sheet1=wb.create_sheet()
resp= rq.get("https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100019039124&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1")
content  =resp.text
rest=content.replace("fetchJSON_comment98(",'').replace(");",'')
json_data= json.loads(rest)
comments =json_data["comments"]
for item in comments:
  ids =item['id']
  color =item["productColor"]
  size=item["productSize"]
  sheet1.append(['ids','color','size'])
  sheet1.append([ids,color,size])
  wb.save('data/ABCD_20220511.csv')

使用pandas与matplotlib对Excel数据进行可视化分析

import pandas as pd
import matplotlib as plt
# data =pd.read_csv('data/ABCD_20220511.csv')
data =pd.read_excel('data/ABC_20220511.xlsx',sheet_name='Sheet1')

nrows =data.shape[0]
ncols=data.columns.size
count =data.groupby(['color'])['size'].sum()
count.plot.bar()

打开新世界的大门
Python操作处理大量Excel表格
Wow~恭喜完成了3天的体验课程

import os
import openpyxl
wb=openpyxl.Workbook()
sheet1=wb.create_sheet()
src_dir="data/"
files =os.listdir(src_dir)
print(files)
for item in files:
  item.replace('.xlsx','')
  sheet1.append([item])
wb.save("data/20220509.xlsx")

牛刀小试3

将爬取的数据成功保存至Excel中

import requests as rq
import json
import openpyxl
wb =openpyxl.Workbook()
sheet1=wb.create_sheet()
resp= rq.get("https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100019039124&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1")
content  =resp.text
rest=content.replace("fetchJSON_comment98(",'').replace(");",'')
json_data= json.loads(rest)
comments =json_data["comments"]
for item in comments:
  color =item["productColor"]
  size=item["productSize"]
  sheet1.append(['color','size'])
  sheet1.append([color,size])
  wb.save('data/123_ABC_CDE.xlsx')

你可能感兴趣的:(Python入门三天体验课)