基于Python百度指数实现---每日指数提取

由于想利用百度指数做点东西,就准备下载点儿百度指数数据,去看了一下,居然不让下载,然后就打算用python爬一下,指数数据居然是图片,百度,算你狠!

没有办法,要用没有办法,只能硬着头皮上了~

本来想着这个问题应该有人遇到过,解决了,就去网上找代码,找了一圈,发现代码都存在各种各样的问题,可能平台不一样吧。

最为坑爹的是,基本都是爬最近7天,30天什么的,这个就算能爬的有什么用,靠人不如求己。

总结了一下百度指数爬虫的难点:

1.  登陆,百度指数必须要登陆才能搜索,所以首先需要实现登陆。

2.  获取自定义时间范围内指数,而非固定时间指数

3.  获取显示指数区域的整体图片

4. 获取整体图片中的指数显示图片

5. 识别指数图片中的指数数字

11699

经过大约2周的时间的反复修改和调试,终于实现全部功能。

只需要提供关键词需求列表 以及 对应的时间区间要求即可查询要求区间的指数每日的数据。

数据要求格式:

最终实现的数据结果:

你可能感兴趣的:(基于Python百度指数实现---每日指数提取)