这个嘛,也不算失败,只是记录了爬虫分析采集的过程而已,最终结果还没有出来呢。
简要记述了美团外卖商家的爬虫分析过程,结果不尽如人意有点,需要调用JS才可以实现。
一开始直接选择的是美团的网页版,随便选择一个地方,进入外卖的商家列表
这个时候,我是直接开始写JAVA的Jsoup代码的,将所有的请求header 以及所请求的参数 全部放到代码当中进行请求,结果只是返回了一个:
{"data":{"customer_ip":"61.135.15.2"},"code":200100,"msg":""}
也就是说没有获取到数据,这个时候也不知道下一步该怎么进行了。于是就在网上进行搜索 美团外卖 爬虫。在这里有一点的是 如果你是采集的是美团商家,就是全网遍历的那种,这个商家数据是可以获取下来的。但是如果是外卖的话就得单独进行采集了。
当然在网页采集不利的情况下,也去查看了美团APP的外卖链接:参数非常的多,无从下手,然后开始从网页上搜索文章
终于搜索到一篇文章:https://blog.csdn.net/qq_26712977/article/details/78459284 这篇提供了一个思路吧。可以先看一下这篇文章。
先进行分析美团 H5页面的数据
结合CSDN的那篇文章,也就是说只要知道token的生成方式,然后使用参数调用这个方法获取到token即可,当然 http://blog.csdn.net/qq_26712977/article/details/78282995 这篇文章也稍微提示了一下,但是仅此而已,只是介绍了怎么直接调用JS代码而已。还需要自己动手,才能丰衣足食啊。
下面呢就应该分析token是怎么生成的?网上也搜了一大把的文章,有了点提示,https://www.52pojie.cn/thread-621269-1-1.html 这篇文章很长,不留心真不行啊
这个时候,直接去H5页面先找到这个js文件再说。我们不能直接用文中的那个js,因为有可能js已经升级了呢,所以还是去查找最新版的js文件吧。
这个时候,已经验证了 破解网的那篇文章所说的,那么我们再在原文h5页面搜索一下 Rohr_Opt 这个词吧
既然出现不一样了,那么就得看看美团外卖页面列表是怎么调用这个reload方法的,继续搜索下 Rohr_Opt 为什么,因为它是全局的,调用的话也会直接使用这个名称来进行调用的,注意这个时候的搜索不是在view source里面来搜索,而是在调试页面的源码里面进行搜索,毕竟现在已经属于运行时状态了,可喜可贺:
我们将红框中的代码复制下来,进行下代码结构化分析分析,看看能够出现什么样的结果。
现在我们确定了t+p,test.html测试一下:
都到这一步了,那么就继续观察一下 这个reload是怎么实现的,里面到底是什么东西啊,为什么导致同样的参数 刷新就不一样了,打开那个min.js文件直接搜索reload:
这个时间戳就是这样的呆在那里,搜索没有找到用处,作为一个对象的内部字段,已经在用了应该。
现在已经分析到这块了,接下来就应该测试JAVA调用JS的技术了。但是这部分的东西还没有搞清楚!如果谁弄好了,通知下哈。复制个简单的调用代码:
参考链接