bugly_爬虫

很简单 三步走  过程中遇到问题查阅资料

获取数据=>存储数据=>可视化数据

获取数据:

工具

1. python  

    插件requests: 

        优点:很容易模拟网络请求,cookies自动持久化

        缺点:安全性比较高的网站 登陆请求的参数很难尽知,我们只知道账号密码

    插件selenium:模拟用户点击操作,类似自动化测试工具airtest,按键精灵

          功能:能获取有限的信息:浏览器解析后的xml,cookies

          优点:只要知道账号密码就行,不关心网站的加密策略       

           缺点:比如请求头,响应头,报文主体 无法获取 

    插件seleniumwire: pip install selenium-wire

        seleniumwire是对selenium的封装,

        优点:可以获取请求头,响应头,报文主体

        缺点:还是模拟点击,效率比requests低

2. 浏览器google 

3.chromedriver

我们的方案:

1.seleniumwire+selenium+chromedriver 实现自动化登陆获取cookies,headers缓存到本地

2.再利用requests直接请求想要的数据 

3.多线程+多进程 来提高获取数据的效率


存储数据:

工具:python

    插件:pymongo    

数据库:mongodb  存储的数据结构没有限制,很符合bugly上报日志的复杂

    可以申请免费的云数据库耍耍

可视化数据:

1.MongoDB Compass (官方)

    支持各种查询

2.python强大的库: plotly_express+pandas+pymongo

    pymongo:访问数据库

    pandas:构造符合标准的数据

    plotly_express:画图        

你可能感兴趣的:(bugly_爬虫)