凡是用过UIBot的用户,应该都会试过运行UIBot自带的《京东商品抓取》脚本。
但是这个脚本使用自带的数据抓取功能,只能抓取商品、链接、价格等信息, 有些用户想抓取链接就比较犯难了。
实际上,UIBot的数据抓取功能是能抓取京东商品的链接,只是因为商品信息的div标签把title跟href合在了一起,这个抓取功能解析的时候比较傻,只解析到了title,没有解析到url,所以只需要修改一下抓取后目标栏里的json即可实现抓取标题以及url。
关键在 "props": ["url"]这段里面。
这是完整的句子, 可以获取商品标题/商品价格/商品的链接
{
"Columns": [{
"props": ["text"],
"selecors": [{
"className": "gl-warp clearfix",
"index": 0,
"prefix": "",
"tag": "ul",
"value": "ul.gl-warp.clearfix"
}, {
"index": 0,
"prefix": ">",
"tag": "li",
"value": "li"
}, {
"className": "gl-i-wrap",
"index": 0,
"prefix": ">",
"tag": "div",
"value": "div.gl-i-wrap"
}, {
"className": "p-name p-name-type-2",
"index": 0,
"prefix": ">",
"tag": "div",
"value": "div.p-name.p-name-type-2"
}, {
"className": "",
"index": 0,
"prefix": ">",
"tag": "a",
"value": "a"
}, {
"className": "",
"index": 0,
"prefix": ">",
"tag": "em",
"value": "em"
}]
}, {
"props": ["text"],
"selecors": [{
"className": "gl-warp clearfix",
"index": 0,
"prefix": "",
"tag": "ul",
"value": "ul.gl-warp.clearfix"
}, {
"index": 0,
"prefix": ">",
"tag": "li",
"value": "li"
}, {
"className": "gl-i-wrap",
"index": 0,
"prefix": ">",
"tag": "div",
"value": "div.gl-i-wrap"
}, {
"className": "p-price",
"index": 0,
"prefix": ">",
"tag": "div",
"value": "div.p-price"
}, {
"index": 0,
"prefix": ">",
"tag": "strong",
"value": "strong"
}, {
"className": "",
"index": 0,
"prefix": ">",
"tag": "i",
"value": "i"
}]
}, {
"props": ["url"],
"selecors": [{
"className": "gl-warp clearfix",
"index": 0,
"prefix": "",
"tag": "ul",
"value": "ul.gl-warp.clearfix"
}, {
"index": 0,
"prefix": ">",
"tag": "li",
"value": "li"
}, {
"className": "gl-i-wrap",
"index": 0,
"prefix": ">",
"tag": "div",
"value": "div.gl-i-wrap"
}, {
"className": "p-name p-name-type-2",
"index": 0,
"prefix": ">",
"tag": "div",
"value": "div.p-name p-name-type-2"
}, {
"index": 0,
"prefix": ">",
"tag": "a",
"value": "a"
}]
}],
"ExtractTable": 0
}
下面是获取链接的数据原
{
"props": ["url"],
"selecors": [{
"className": "gl-warp clearfix",
"index": 0,
"prefix": "",
"tag": "ul",
"value": "ul.gl-warp.clearfix"
}, {
"index": 0,
"prefix": ">",
"tag": "li",
"value": "li"
}, {
"className": "gl-i-wrap",
"index": 0,
"prefix": ">",
"tag": "div",
"value": "div.gl-i-wrap"
}, {
"className": "p-name p-name-type-2",
"index": 0,
"prefix": ">",
"tag": "div",
"value": "div.p-name p-name-type-2"
}, {
"index": 0,
"prefix": ">",
"tag": "a",
"value": "a"
}]
}