用工具爬虎牙星秀VS用代码

先来个工具操作

1、获取链接https://www.huya.com/g/xingxiu

用工具爬虎牙星秀VS用代码_第1张图片

 2、删除字段、增加字段、开始采集

用工具爬虎牙星秀VS用代码_第2张图片

 3、启动

用工具爬虎牙星秀VS用代码_第3张图片

 4、运行中

用工具爬虎牙星秀VS用代码_第4张图片

 5、采的太多了我就停止了

用工具爬虎牙星秀VS用代码_第5张图片

 6、导出数据Excel格式

用工具爬虎牙星秀VS用代码_第6张图片

 用工具爬虎牙星秀VS用代码_第7张图片

 7、查看本地文件

用工具爬虎牙星秀VS用代码_第8张图片

 8、导入到mysql数据库

用工具爬虎牙星秀VS用代码_第9张图片

 9、mysql配置

用工具爬虎牙星秀VS用代码_第10张图片

用工具爬虎牙星秀VS用代码_第11张图片

10、选择导出设置

用工具爬虎牙星秀VS用代码_第12张图片

 11、查看mysql数据库里面的数据

用工具爬虎牙星秀VS用代码_第13张图片

 12、OK啦!好开心!!!

用代码开始操作

1、首先咱们创建个爬取的工程项目

scrapy startproject huyaPro

用工具爬虎牙星秀VS用代码_第14张图片

 2、创建虫子

用工具爬虎牙星秀VS用代码_第15张图片

 3、settings配置文件里面修改

用工具爬虎牙星秀VS用代码_第16张图片

 4、先看下数据试试

scrapy crawl huya

用工具爬虎牙星秀VS用代码_第17张图片

 5、复制ul的xpath

用工具爬虎牙星秀VS用代码_第18张图片

 6、分别定位标题、作者、热度

用工具爬虎牙星秀VS用代码_第19张图片

import scrapy
class HuyaSpider(scrapy.Spider):
name = 'huya'
start_urls = ['https://www.huya.com/g/xingxiu']
def parse(self, response):
# 复制ul的xpath并获取下面所有的li数据:
li_list = response.xpath('//*[@id="js-live-list"]/li')
# 定义空列表:
all_data = []
for li in li_list:
# 获取标题:
title = li.xpath('./a[2]/text()').extract_first()
# 获取作者:
author = li.xpath('./span/span[1]/i/text()').extract_first()
# 获取热度:
hot = li.xpath('./span/span[2]/i[2]/text()').extract_first()
# 定义字典形式:
dic = {
"title": title,
"author": author,
"hot": hot
}
# 列表里面增加字典的数据:
all_data.append(dic)
return all_data
7、存储到本地文件.csv格式

终端执行命令:scrapy crawl huya -o huya.csv

 用工具爬虎牙星秀VS用代码_第20张图片

 用工具爬虎牙星秀VS用代码_第21张图片

 8、存储到mysql数据库

 用工具爬虎牙星秀VS用代码_第22张图片

 9、items.py

用工具爬虎牙星秀VS用代码_第23张图片

 10、接下来管道处理

用工具爬虎牙星秀VS用代码_第24张图片

 11、配置文件开启管道

用工具爬虎牙星秀VS用代码_第25张图片

12、爬取到本地

终端执行命令:scrapy crawl huya

用工具爬虎牙星秀VS用代码_第26张图片

 13、mysql配置部分

用工具爬虎牙星秀VS用代码_第27张图片

 14、管道mysql

用工具爬虎牙星秀VS用代码_第28张图片

 15、后台查数据

用工具爬虎牙星秀VS用代码_第29张图片

 16、存储到redis

17、升级redis版本

pip install -U redis==2.10.6

用工具爬虎牙星秀VS用代码_第30张图片

 18、终端执行命令

scrapy crawl huya

用工具爬虎牙星秀VS用代码_第31张图片

 19、查看redis库

用工具爬虎牙星秀VS用代码_第32张图片

lrange huyaList 0 -1查看所有内容

你可能感兴趣的:(用工具爬虎牙星秀VS用代码)