RuiJi Scraper 快速上手

RuiJi Scraper网络数据提取工具支持目前大部分主流浏览器。
例如以谷歌为内核开发的谷歌浏览器、腾讯浏览器、猎豹浏览器、百度浏览器、360极速浏览器,以及火狐浏览器、微软最新的Edge浏览器。
因为谷歌浏览器应用商店在国内有墙的限制,今天我们就使用火狐浏览器为大家演示如何快速上手RuiJi Scraper来采集数据。
1.打开火狐浏览器附加组件管理器,搜索RuiJi Scraper并安装。

RuiJi Scraper 快速上手_第1张图片

 

 

2.登录RuiJi Scraper,如果没有账号可以用邮箱注册(注册直接送7天会员哦,如果有推荐码还额外赠送7天)。

RuiJi Scraper 快速上手_第2张图片

 

 

3.打开想要提取的界面,点击RuiJi按钮打开提取面板。

RuiJi Scraper 快速上手_第3张图片

 

 

4.我们首先能看到公共规则面板,点击大拇指可以点赞,点击五角星可以收藏。点开收藏面板,可以看到我们刚刚收藏的规则。

RuiJi Scraper 快速上手_第4张图片

 

 

5.点击查看按钮,可以按照当前规则进行查看能选中哪些元素。

RuiJi Scraper 快速上手_第5张图片

 

 

6.点击抽取按钮,进行实际抽取,抽取后可进入工作簿查看抽取的内容。我们可以看到RuiJi Scraper将所有图片的描述信息和地址提取出来了。

 

 

7.打开工作簿可以选择导出自己想要的格式化文件,我们以csv格式的excel表格为例。检测地址可以检测出可以下载的页面、图片、视频、音频等进行打包下载。

RuiJi Scraper 快速上手_第6张图片

 

 

8.可以通过点击公共规则的编辑按钮或者右上角的+按钮进入,创建私有规则的界面。

RuiJi Scraper 快速上手_第7张图片

 

 

9.编辑私有规则,首先为规则添加一个名称,指定通配符(标识这个规则适用于哪些地址,*代表多个任意字符,?代表一个任意字符),指定域。

RuiJi Scraper 快速上手_第8张图片

 

 

10.选定一个块选区域,指定需要提取网页哪个部分的信息,填写可增加精确度。(可忽略)

RuiJi Scraper 快速上手_第9张图片

 

 

11.选定一个片选区域,需要提取哪些重复片中的信息。

RuiJi Scraper 快速上手_第10张图片

 

 

12.首先我们提取一个商品名称,指定好要提取的标签元素特征,再指定提取元素下的text文本即可。

RuiJi Scraper 快速上手_第11张图片

 

 

13.我们再来提取链接,方法同上,但是链接一般都在a标签中,所以为了精确性需要2步执行。

RuiJi Scraper 快速上手_第12张图片


 

RuiJi Scraper 快速上手_第13张图片

 

 

14.再来提取店名,方法同商品名称。

RuiJi Scraper 快速上手_第14张图片

 

 

15.最后我们提取价格,同样为了准确性我们需要两步来筛选,去掉人民币符号。还要注意我们提取的价格是浮点小数,所以将提取结果指定为double,而不是字符串的str。编辑后保存。

RuiJi Scraper 快速上手_第15张图片


 

RuiJi Scraper 快速上手_第16张图片

 

 

16.使用我的规则进行抽取,抽取结果在工作簿查看。(还可看到之前公共规则测试提取的所有图片)

RuiJi Scraper 快速上手_第17张图片

 

 

17.按价格排序,然后导出数据。

qq群 : 545931923

你可能感兴趣的:(RuiJi,Scraper,scraper,crawler,chrome)