头大的一次爬虫

上周四接到了一个新单,需求是爬取富途牛牛上面某些股票下面的新闻.

听起来挺简单的一个需求,最多就是做一个图形化界面客户端会废点时间,其余的写一套爬虫直接搞定,而且客户也不着急,前两天也没有着手开始研究.

昨天开始抓包,先是看了富途牛牛的网页版,如果网页版本有想要的资料的话,就非常简单了,因为http的数据包都暴露在外面了,但是当我看的时候发现!
image.png

被限制了.

既然网页看不到了,那就看看app吧,app没有让我失望,
头大的一次爬虫_第1张图片
image.png

里面的新闻是可以通过下拉显示更多的,这不就是一个ajax动态请求嘛,只要把json数据的接口拿到就ok了,这种事情也做过不少了.

于是开了fiddler抓包工具,给手机开了代理,开始抓包吧,但是无论怎么下滑刷新,任何有价值的包都没有抓到.

这是为什么?

或许是给拦截了?持着怀疑的态度,我下了一个安卓模拟器,换了一个工具,Wireshark,工具很强大,不仅可以抓到http的包,udptcp的包也可以抓到,我做了筛选只看http的包,然后操作安卓模拟器上的app,发现,依旧是那些没有用的包.

这应该不是我这边的问题了,百度了很多,终于找到了一个合理的答案,那就是他这个软件没有走http协议,所以我的fiddler根本就抓不到,基于网络知识,http是基于tcp协议实现的,或许他走的是tcp,但是我能抓到的tcp太多了,分辨不出来哪个是我需要的,而且,不像http协议那样有完整的链接地址,所以暂时先不考虑了.

那就只剩下pc客户端了,这是我没有接触过的领域,百度了一下午,因为pc客户端是不支持使用代理的,无法直接获取,需要用Proxifier转到fiddler,但是鼓捣了一下午,代理总是连接失败,明天再试试吧~

编程真的是深似海呀~~~

你可能感兴趣的:(头大的一次爬虫)