Python爬取京东商品评价(动态网页的爬取)

完整代码可以关注公众号:Romi的杂货铺

首先打开京东的任意几个商品页面,并观察URL,可以发现都是https://item.jd.com/+数字+.htm的格式,而且数字也随着商品的改变而改变,基本上可以确定这串数字是商品ID

image

之后我们找到网页的源码并随便复制一句评论,在网页源码中查找,发现并没有找到评论内容,说明jd的评论页面并非静态网页

AJAX:
AJAX的全称是Asynchronous JavaScript and XML(异步的 JavaScript 和 XML)。
ajax不是新的编程语言,而是一种使用现有标准的新方法。ajax是与服务器交换数据并更新部分网页的艺术,在不重新加载整个页面的情况下。
ajax是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。
ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换。ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。而传统的网页(不使用ajax)如果需要更新内容,必须重载整个网页面。

既然确定是AJAX的方式加载,我们可以直接打开chrome的调试工具,在network中的XHR和JS中寻找保存有评论的文件。注意这里必须先下拉到评论页面使数据文件加载下来,否则会找不到加载的数据文件

我们可以通过两种方式来查找包含评论的文件:
1.可以在js和XHR中寻找comment关键字,查看是否有文件符合要求,并对符合要求的结果筛选
2.评论在页面的最下方,根据文件的加载顺序可以大致了解到会在后面,从后面开始找即可

最终确定js文件,如下图所示

image

这样我们就可以确定评论的请求地址并开始抓取

import requestsimport jsonurl='https://item.jd.com/52297931949.html'jsonurl='https://club.jd.com/comment/productPageComments.action?productId=52297931949&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'html=requests.get(jsonurl).text#print(html)josntext=json.loads(html)comments= josntext['comments']for comment in comments:    content = comment['content']    print(content)

这里需要注意一下原始的jsonurl得到的文件并不是标准的json文件格式,我们可以将得到的文本内容复制到https://www.json.cn发现这并不是一个标准的josn文件,所以直接loads()会直接报错:json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0),只要返
回的对象不是josn对象就会出现此错误
解决的方法有两个,一是将URL中的?callback=fetchJSON_comment98去除,另外一种方法是将返回的文本对象中的fetchJSON_comment98替换为空

得到所需要的json文件后就可以将数据存到sqllite中了
sqllite是python内置的关系型数据库,具有以下优点:

  • 不需要一个单独的服务器进程或操作的系统(无服务器的)。

  • SQLite不需要配置,这意味着不需要安装或管理。

  • 一个完整的SQLite数据库是存储在一个单一的跨平台的磁盘文件。

  • SQLite是非常小的,是轻量级的,完全配置时小于 400KiB,省略可选功能配置时小于250KiB。

  • SQLite是自给自足的,这意味着不需要任何外部的依赖。

  • SQLite事务是完全兼容 ACID 的,允许从多个进程或线程安全访问。

  • SQLite支持 SQL92(SQL2)标准的大多数查询语言的功能。

  • SQLite使用 ANSI-C 编写的,并提供了简单和易于使用的 API。

  • SQLite 在 UNIX(Linux, Mac OS-X, Android,iOS)和 Windows(Win32, WinCE,WinRT)中运行。

python操作SQLite流程与连接其他的数据库相同,大概分为以下五步

  • 通过sqlite3.open()创建与数据库文件的连接对象connection;

  • 通过connection.cursor()创建光标对象cursor;

  • 通过cursor.execute()执行SQL语句;

  • 通过connection.commit()提交当前的事务,或者通过cursor.fetchall()获得查询结果;

  • 通过connection.close()关闭与数据库文件的连接

这一部分代码如下所示

conn=sqlite3.connect("comments.db")#建立连接,数据库存在时,直接连接;不存在时,创建相应数据库#新建一张表conn.execute('''CREATE TABLE Comments_jd      (ID text PRIMARY KEY     NOT NULL,      comment text     );''')#注意sql语句中使用了格式化输出的占位符%s和%d来表示将要插入的变量,其中%s需要加引号''for comment in comments:    sql = "insert into Comments_jd(ID,comment) values('%s','%s')" % (comment['id'],comment['content'])    conn.execute(sql)conn.commit()# 关闭数据库连接conn.close()

之后检查以下数据是否有问题:

conn=sqlite3.connect("comments.db")cursor = conn.execute("select *  from Comments_jd")for row in cursor:    print('ID = ', row[0], '  Comment = ', row[1])conn.close()

得到的结果如下图所示

image

这样整个流程就搞定了

原文链接http://smilecoc.vip/2020/03/02/%E4%BA%AC%E4%B8%9C%E5%95%86%E5%93%81%E8%AF%84%E8%AE%BA%E7%88%AC%E8%99%AB/

你可能感兴趣的:(Python爬取京东商品评价(动态网页的爬取))