淘宝任意关键词搜索采集商品名称、价格、收货人数等

概要:

基于python实现淘宝任意关键词搜索,采集搜索结果中指定页数的:店铺、店铺地址、价格、收货人数、网址 产品标题。关注公众号“数云智连”,回复“淘宝采集程序”获取下载链接

采集结果数据示例:

一、程序实现步骤

1、打开淘宝搜索页输入关键词搜索;

2、分析翻页链接,提取通用采集链接

第1页:
https://s.taobao.com/search?q={}&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20190331&ie=utf8&bcoffset=6&ntoffset=6&p4ppushleft=1%2C48&s=0

第2页:
https://s.taobao.com/search?q={}&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20190331&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=44

第3页:
https://s.taobao.com/search?q={}&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20190331&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=88
这里可以分析出{}内都是相同的,是对应的关键词;最后的数字跟页数的关系为(n-1)44,所以可以得到通用链接为:
https://s.taobao.com/search?q={}&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20190331&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=(n-1)
44

3、解析和爬取单个网页每个商品信息

循环每页每一个商品的数据块,分别提取:店铺、店铺地址、价格、收货人数、网址 产品标题。

4、数据存入excel

采集的数据如下:

二、采集程序使用

1、回复:淘宝采集程序,获取下载链接;

2、根据提示输入需采集的搜索词、需采集页数、cookie

因需登录采集,需用带cookie请求以保证采集到数据

登录淘宝后,浏览器里:按下F12、按下F5刷新(主流的chrome、火狐、360等都有该功能);点击Doc,找到search?q=文件,Headers里可以看到cookie,:后面的文本都复制粘贴进来。

3、运行后,会自动生成"taobao.xlsx"的excel文件,存储采集结果

二、程序运行环境
因程序用python写的,需要python的运行环境
1、请务必是win7 以上64位系统,xp安装python环境非常麻烦,还会经常出现意想不到的安装包不可用的错误;

2、安装python 3以上版本及以下包:
pip install json
pip install requests
pip install pandas

你可能感兴趣的:(淘宝任意关键词搜索采集商品名称、价格、收货人数等)