python爬虫之阿迪达斯天猫旗舰店所有男子商品获取

电商是爬虫不可略过的去处。
目标天猫旗舰店,将阿迪达斯天猫旗舰店所有男子商品名称及价格信息获取下来。

开发环境

  • python3.7
  • requests模块
  • lxml模块
  • json模块
  • mysql模块

获取分析

页面多请求多还复杂,找到这个URL可真不容易,毕竟是天猫。
能发现所需的数据虽然是通过异步加载得到,但并不是理想的json格式。
除此之外还能发现,jsoup,是java的html解析器。
用lxml同样能解析!

    response = requests.get(url,headers = headers).text
    html = etree.HTML(response)
    itemsname = html.xpath("//div/div[3]/div/dl/dd[2]/a/text()")
    itemsprice = html.xpath("//div/div[3]/div/dl/dd[2]/div/div/span[2]/text()")
    for name in itemsname:    
        itemname.append(name.strip())
    for price in itemsprice:    
        itemprice.append(price.strip())

所需数据已经抓取下来。
最后通过pymysql模块将数据保存下来。

结果展示:


(阿迪达斯天猫旗舰店一共4520件男子商品(目前)。后续商品数量或许不止4520件,会有所增加。)

你可能感兴趣的:(python爬虫之阿迪达斯天猫旗舰店所有男子商品获取)