为了使我们日常生活购物更加方便,购物时可以更加直观的看到商品的信息,所以我们对1688网络购物平台的商品及商品信息进行爬取。我们爬取的商品信息保存在excel中,因此可以更加直观的看出商品价格和商品名称等信息,更方便人们对商品的选择购买。
以下为部分代码和代码所实现的功能:
这代码的功能是实现对商品url地址的抓取来获取信息,因为所有商品的前半部分url地址都是相似的,所以我使用start_url获取主地址,在后半段地址获取后进行拼接,拼接成完整的商品url地址进行访问和翻页。最后打印出所爬取的页数。
第一段代码的功能是将爬虫进行伪装,将爬虫伪装成浏览器以防被网站检测识别,触发网站的限制访问。使用python中的try..except..进行异常处理,使用requests中的get对url地址的信息进行获取,并修改所获取到的数据格式,并返回到text文本格式。
这段代码主要实现的功能就是将爬取的商品价格和商品名称按顺序存储到excel表的对应位置处。要实现存储功能,首先需要建表,也就是将每一行每一列所代表的含义写入表中,再通过代码将数据存储到excel表中,然后通过代码获取表的名称,可以直观地在pycharm中查看。存储数据时,爬取的代码数据量比较大,所以需要用调用库将所需的数据查找出来,因为需要将获取的数据以文本形式存储,所以需要转换成合适的格式,也是通过这一部分代码来实现的。