python爬虫爬取淘宝天猫商品评论数据教程(附源码)

最近,因为工作需要,需要获取天猫某一商品的全部评论数据。于是,写了一个python脚本,自动爬取所有评论。做个记录。

 

一、准备阶段

  1. 获取评论数据来源

天猫的评论数据一般会放在JS文件里,故我们只需要打开商品页,快捷键Fn+F12,选择NetWork,筛选JS文件,找到名称为“rate.tmall....”开头的文件。

python爬虫爬取淘宝天猫商品评论数据教程(附源码)_第1张图片

 

复制JS文件的链接,在新的页面打开访问。

python爬虫爬取淘宝天猫商品评论数据教程(附源码)_第2张图片

bingo!就是我们需要的评论数据。

 

二、python代码

  1. 导入需要的第三方库

python爬虫爬取淘宝天猫商品评论数据教程(附源码)_第3张图片

2.生成链接列表

python爬虫爬取淘宝天猫商品评论数据教程(附源码)_第4张图片

3.获取评论数据的函数

python爬虫爬取淘宝天猫商品评论数据教程(附源码)_第5张图片

4.将爬下来的数据写入到txt文件中

python爬虫爬取淘宝天猫商品评论数据教程(附源码)_第6张图片

 

5.主函数,开始运行

python爬虫爬取淘宝天猫商品评论数据教程(附源码)_第7张图片

 

6.最终得到一个txt文件, 打开后有完整的数据,如果有需要可以导入到csv或者excel文件里。

python爬虫爬取淘宝天猫商品评论数据教程(附源码)_第8张图片

 

三、遇到的坑及解决方案

  1. 一定要加头文件,头文件里一定要有cookie,否则获取不到正确的js

  2. 商品评论中有emoji表情包,而gbk编码方式无法识别表情包。有两种解决方式,一个是转换为UTF-8之后使用ignore参数再转换为gbk编码,这样会忽略掉无法识别的emoji表情包;另一个办法是直接将数据存为txt文件,会默认忽略掉非文本数据,简单粗暴。

  3. 天猫会有反爬虫机制,大批量的访问会导致IP受限。这时候就要用到IP池了。

 

四、后续操作

因为淘宝天猫取消了差评的筛选,所以我们是无法直接分类出哪些评论是差评。但是通过一些中文文本挖掘库进行购物评论文本情感分析,可以对评论进行语义分析。时间有限,后续再说。

 

获取源码

如何获取源代码:

关注微信公众号“无知红”,后台回复  “ 评论数据  ” ,即可获取下载地址

python爬虫爬取淘宝天猫商品评论数据教程(附源码)_第9张图片

你可能感兴趣的:(python,爬虫,评论,天猫,商品,工具类)