爬取淘宝商品详情评论,最新版

第一步 抓包
打开你想要爬取的商品详情页,这里我是输入手机然后随便点开的一个页面。(这里建议用谷歌浏览器,懂的人都懂不必多说)
然后右键点击检查,选择network,找到保存评论的url。在这里提供一个小技巧,我们在打开网页的时候默认评论一栏是没有点开的,所以现有的url里并不存在我们所需要的评论的url。所以可以先把现有的url全部清除,再点击网页中的‘’累计评论‘’,这样找起来会简单的多爬取淘宝商品详情评论,最新版_第1张图片大家第一次做可以在js里慢慢找,我这里就直接把评论的url地址给大家指出来了。爬取淘宝商品详情评论,最新版_第2张图片我们点击Headers可以得到相关的url以及参数。在这里提醒一句,一般情况下我们拿到这个url直接复制到浏览器上是可以看到内容的,但是淘宝的反爬机制并不允许你这么做,就算你把这个url直接复制到浏览器打开你也是看不到你想要的评论信息的,因为需要携带上cookie信息才能查询到。不信你可以试试爬取淘宝商品详情评论,最新版_第3张图片好了,我们拿到需要的参数就直接来到pycharm里做数据提取。为了大家能最大程度地理解,照顾到初学者,这里我们用最简单的方法来实现数据提取。
图中就是所需提供的参数以及请求头信息,Cookie是必须要带的,Referer是不是必须的我没有做测试大家想知道可以自己做测试。因为涉及到证书认证所以加上了verify=False。如此便能拿到数据
爬取淘宝商品详情评论,最新版_第4张图片直接打印res是可以拿到评论详情的。然后就是提取数据,这里推荐大家用正则提取,我提取的是评论内容以及评论时间在这里插入图片描述爬取淘宝商品详情评论,最新版_第5张图片爬取淘宝商品详情评论,最新版_第6张图片没错,就是这么简单一行代码就能实现,然后就可以进行存储了,我这里就用txt格式保存。爬取淘宝商品详情评论,最新版_第7张图片
如果想要翻页爬取,只需要修改params中的currentPage参数,我用了for循环所以截图里显示的是i。

你可能感兴趣的:(爬取淘宝商品详情评论,最新版)