实战 | webmagic爬取实战之爬取保险经纪人信息

实战 | webmagic爬取实战之爬取保险经纪人信息_第1张图片

介绍

小小根据上次爬取经验,发现爬取的时候,信息不太完善,这次针对手机页面进行爬取。

查看手机页面

相对于pc端口的页面,手机端的页面更容易爬取。通过网络信息,可以查看到是这个请求发起的网络信息。查看相应的参数。实战 | webmagic爬取实战之爬取保险经纪人信息_第2张图片通过查看相应的参数,可以知道发送的json如下

Search.Pagesize: 10
Search.Pageindex: 2
Search.CompSymbol:
Search.CitySymbol: BeiJing
Search.ProvinceSymbol: Beijing

换城市的时候,发送该请求,可以看到使用的是拼音的简称。实战 | webmagic爬取实战之爬取保险经纪人信息_第3张图片

发送的json如下

Search.Pagesize: 10
Search.Pageindex: 2
Search.CompSymbol:
Search.CitySymbol: Dongguan
Search.ProvinceSymbol: Guangdong

这样就完成了最基本的json相关的数据。

postman进行基本测试

这里使用postman实现基本测试。发送的url如下实战 | webmagic爬取实战之爬取保险经纪人信息_第4张图片

经过测试,这个接口可以使用。

编写爬虫url爬取相关url链接

查询获取url的基本方法

这里查询获取url的基本方法,由于沃宝全是顶级的cn域名,所以这里只能采用获取所有连接+正则的方式进行匹配。匹配效果如下 通过发送链接,可以看到有的地址没有。查询postman,查看相关的发送请求。实战 | webmagic爬取实战之爬取保险经纪人信息_第5张图片通过这样,就可以看到需要添加以下的三个参数。

webmagic 添加相关的参数

添加相关的参数以后发现请求失败。如图。实战 | webmagic爬取实战之爬取保险经纪人信息_第6张图片

这里由于请求出错,所以根据问题进行排查。发现需要添加三个请求头。

添加请求头

使用postman挨个测试接口。实战 | webmagic爬取实战之爬取保险经纪人信息_第7张图片

添加请求头

实战 | webmagic爬取实战之爬取保险经纪人信息_第8张图片

问题依旧呈现。

搜索问题

问题搜索下来说是去掉参数Content-Length 的问题。重新再次测试。

夜晚已经很深了,明天博主将会继续进行爬取 对头部信息进行测试

实战 | webmagic爬取实战之爬取保险经纪人信息_第9张图片

小明菜市场

推荐阅读

● 实战 | WebMagic 爬取某保险经纪人网站经纪人列表之网站列表爬取

● 实战 | WebMagic 实现分布式爬虫

● 实记 | MongoDB 多表连接查询

 新知 | MongoDB 账号管理

● 方案 | Mongodb 高可用落地方案

实战 | webmagic爬取实战之爬取保险经纪人信息_第10张图片

你可能感兴趣的:(python,html,java,http,网络)