使用Scrapy爬取租号玩网站lol待租账号信息(完整代码)

一、项目Githun地址


https://github.com/zhonghangAlex/LOLSpider

欢迎大家访问下载!

 

二、LoLSpider 


本项目基于scrapy,对租号玩网站的英雄联盟相关出租账号信息进行爬取,并且存取入库,使用随机User-Agent和随机高匿IP(Based on scrapy, this project crawls the rental account information related to heroic alliance of rental number playing website, and accesses and stores it in the library, using random User-Agent and random high-anonymity IP.)

 

三、相关库、框架、功能


  • scrapy(爬虫框架)
  • scrapyd(服务端部署)
  • fake_useragent(随机请求头)
  • crawl_xici(西刺高匿代理)
  • twisted(异步存储数据库)
  • pymysql(mysql链接)

 

四、说明


  • 项目入口文件是main.py,直接运行该文件则可以启动爬虫项目
  • 请先pip安装scrapy,fake_useragent,pymysql保证程序可以正常运行
  • 项目通过使用fake_useragent,制造了随机请求头
  • 数据库文件存放在db_file中,请先将数据还原,并且如果要使用动态IP,需要找到crawl_xici.py文件,调用crawl_ips()方法,将最新的高匿IP写入到数据库中
  • 动态IP请求功能默认关闭,如果希望开启,可以在settings.py文件中,将DOWNLOADER_MIDDLEWARES的注释部分LOLSpider.middlewares.RandomProxyMiddleware取消注释

 

五、爬取网站


网站主页:https://www.zuhaowan.com/zuhao-17

网站详情页:https://www.zuhaowan.com/zuhao/520342.html 

 

六、数据库存储效果图 


使用Scrapy爬取租号玩网站lol待租账号信息(完整代码)_第1张图片

 使用Scrapy爬取租号玩网站lol待租账号信息(完整代码)_第2张图片

你可能感兴趣的:(scarpy,西刺高匿,租号玩爬取,随机请求头,scrapy入库)