python爬取虎扑评论_Python爬取NBA虎扑球员数据

虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球、足球、游戏电竞、运动装备、影视、汽车、数码、情感等一切人和事的见解,热闹、真实、有温度。

受害者地址

https://nba.hupu.com/stats/players

本文知识点:

系统分析网页性质

结构化的数据解析

csv数据保存

环境介绍:

python 3.6

pycharm

requests

csv

爬虫案例的一般步骤

1.确定url地址(网页分析) 完成一半

2.发送网络请求 requests(js\html\css)

3.数据解析(筛选数据)

4.保存数据(本地文件\数据库)

部分代码

导入工具

import requests # 第三方工具

import parsel # 数据解析工具 (css\正则表达式\xpath)

import csv

确定url地址(网页分析) 完成一半 (静态网页\动态网页)

url = 'https://nba.hupu.com/stats/players/pts/{}'.format(page)

发送网络请求 requests(js\html\css)

response = requests.get(url=url)

html_data = response.text

数据解析(筛选数据)

selector = parsel.Selector(html_data)

trs = selector.xpath('//tbody/tr[not(@class="color_font1 bg_a")]')

for tr in trs:

rank = tr.xpath('./td[1]/text()').get() # 排名

player = tr.xpath('./td[2]/a/text()').get() # 球员

team = tr.xpath('./td[3]/a/text()').get() # 球队

score = tr.xpath('./td[4]/text()').get() # 得分

hit_shot = tr.xpath('./td[5]/text()').get() # 命中-出手

hit_rate = tr.xpath('./td[6]/text()').get() # 命中率

hit_three = tr.xpath('./td[7]/text()').get() # 命中-三分

three_rate = tr.xpath('./td[8]/text()').get() # 三分命中率

hit_penalty = tr.xpath('./td[9]/text()').get() # 命中-罚球

penalty_rate = tr.xpath('./td[10]/text()').get() # 罚球命中率

session = tr.xpath('./td[11]/text()').get() # 场次

playing_time = tr.xpath('./td[12]/text()').get() # 上场时间

print(rank, player, team, score, hit_shot, hit_rate, hit_three,

three_rate, hit_penalty, penalty_rate, session, playing_time)

data_dict = {

'排名': rank, '球员': player, '球队': team, '得分': score,

'命中-出手': hit_shot, '命中率': hit_rate, '命中-三分': hit_three, '三分命中率': three_rate,

'命中-罚球': hit_penalty, '罚球命中率': penalty_rate, '场次': session, '上场时间': playing_time}

csv_write.writerow(data_dict)

# 想要完整源码的同学可以关注我的公众号:松鼠爱吃饼干

# 回复“虎扑NBA”即可免费获取

运行代码,效果如下

python 爬取天猫美的评论数据

笔者最近迷上了数据挖掘和机器学习,要做数据分析首先得有数据才行.对于我等平民来说,最廉价的获取数据的方法,应该是用爬虫在网络上爬取数据了.本文记录一下笔者爬取天猫某商品的全过程,淘宝上面的店铺也是类似 ...

Python爬取6271家死亡公司数据,一眼看尽十年创业公司消亡史!

​ 小五利用python将其中的死亡公司数据爬取下来,借此来观察最近十年创业公司消亡史. 获取数据 F12,Network查看异步请求XHR,翻页. ​ 成功找到返回json格式数据的url, 很多人 ...

Python 爬取大众点评 50 页数据,最好吃的成都火锅竟是它!

前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 胡萝卜酱 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...

Python爬取上交所一年大盘数据

前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 半个码农2018 PS:如有需要Python学习资料的小伙伴可以加点 ...

Python爬取6271家死亡公司数据,看十年创业公司消亡史

前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 朱小五 凹凸玩数据 PS:如有需要Python学习资料的小伙伴可以加 ...

使用python爬取东方财富网机构调研数据

最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研 网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...

python爬取安居客二手房网站数据(转)

之前没课的时候写过安居客的爬虫,但那也是小打小闹,那这次呢, 还是小打小闹 哈哈,现在开始正式进行爬虫书写 首先,需要分析一下要爬取的网站的结构: 作为一名河南的学生,那就看看郑州的二手房信息吧! 在 ...

用python爬取杭电oj的数据

暑假集训主要是在杭电oj上面刷题,白天与算法作斗争,晚上望干点自己喜欢的事情! 首先,确定要爬取哪些数据: 如上图所示,题目ID,名称,accepted,submissions,都很有用. 查看源代码 ...

[转]使用python爬取东方财富网机构调研数据

最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研 网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...

随机推荐

加速Eclipse使其成为超快的IDE

按照下述步骤来加速Eclipse为超快的IDE,它适用于32和64位版本的Eclipse /JDK(OS为64位Windows 7). 1.禁用防病毒软件,或将JDK.Eclipse.workspac ...

元素设置position:fixed属性后IE下宽度无法100%延伸

元素设置position:fixed属性后IE下宽度无法100%延伸 IE bug 出现条件: 1.div1设置position:fixed属性,并且想要width:100%的效果. 2.div2(下 ...

compass和sass很好的两篇文章

Sass是一种"CSS预处理器",可以让CSS的开发变得简单和可维护.但是,只有搭配Compass,它才能显出真正的威力. 本文介绍Compass的用法.毫不夸张地说,学会了Com ...

调用firebug-lite调试ie6

作为前端或网页开发者而言,在IE6上做CSS调试在之前简直是一个噩梦.作为前端或网页开发者而言,但这又是无法回避的事情.某日从红茶那边听说了Firebug Lite这个好东西,可以在不装插件的情况下, ...

【JavaScript 6连载】一、关于对象(访问)

QT中添加 动态库(.so) 和 静态库 (.a) 的方法

在QT 的Makefile文件中: 1 添加动态库,如lipcap.so 则,在LIBS一行中添加“-L/usr/local/lib -lpcap”,依据自己的情况修改libpcap.so的路径 2 ...

SAS FORMAT 逻辑库存储 【输出格式 没有找到或无法加载】解决方法

SAS FORMAT 逻辑库存储 [输出格式  没有找到或无法加载]解决方法:需要指定FORMAT 搜索的路径:OPTIONS FMTSEARCH=(F WORK); 以下为完整示例代码: 00@DA ...

C++ Explicit Constructors(显式构造函数)

C++ 为类(Class)提供了许多默认函数.如果自己没有申明,编译器会为我们提供一个copy构造函数.一个copy assignment操作符和一个析构函数.此外,如果没有申明任何构造函数,编译器会 ...

Linux字符设备驱动--No.1

平台:tiny210SOC:s5pv210内核:Linux 3.0.8字符驱动:按键中断驱动源码: /************************************************* ...

js标准对象——Date

在JavaScript中,Date对象用来表示日期和时间. 要获取系统当前的时间: var now = new Date(); alert(now); now;//Mon Oct 23 2017 11 ...

你可能感兴趣的:(python爬取虎扑评论)