[460]Web Scraper Chrome插件

摘要 : Web Scraper是一款可以从网页中提取数据的chrome网页数据提取插件,是一款非常好用的爬虫工具。

我们常常有种强烈的需求就是不需要编程,也能够网页抓取。做新媒体运营也是,很多时候会需要用到数据来帮助工作。比如,我们登陆淘宝,京东等商务网站,抓取某一类商品的规格说明,价格,厂家等信息;我们希望可以抓取我们进入头条上的最热门的文章,也可以抓取我们自己的所有文章列表,发布时间,阅读和浏览量等信息,当然也能抓取我们的粉丝列表。 那么有没有这样一款工具存在呢?今天我们chrome插件网要为大家介绍的这款Web Scraper插件就是这样一款你不需要写任何的代码,只需点击,点击,点击,四步使用者就能通过该插件来建立页面数据提取规则,从而快速对网页中需要的内容进行提取,最后还能把抓取的结果导出为Excel可以识别的CSV格式。

[460]Web Scraper Chrome插件_第1张图片

Web Scraper插件使用方法

1、如果你可以进入Chrome 应用商店,那么可以选择在线安装。如下图所示:

[460]Web Scraper Chrome插件_第2张图片

不能访问的话就在这下载。最新chrome浏览器下载地址:http://chromecj.com/category/chrome/。

如果可以谷歌应用商店下载安装,可跳过chrome插件的离线安装方法这节


chrome插件的离线安装方法

  • 怎么在谷歌浏览器中安装.crx扩展名的离线Chrome插件?

如果网络状态允许或者用户直接在谷歌提供的服务中获取的Chrome插件,就可以点击其提供的一键跳转按钮直接根据提示安装到Chrome浏览器中,这种安装Chrome插件的方式最为简单,但是要求用户的网络状态良好,并且用户可以从谷歌的相关服务中获取Chrome插件的下载链接。

有一部分网友反映子chrome 67版本以后以前离线安装chrome插件的方法无法使用,虽然小编的电脑仍然可以使用,但是既然有那么多用户反映,自然是存在这种问题的,如果你在安装chrome插件时也出现此类问题。

如果没有下面这个问题,也可跳过对应的这节
1--------------------------------------------------------------------------------

chrome 67版本后无法拖拽离线安装CRX格式插件的解决方法。

第一种:开启开发者模式即可 (推荐)

chrome  的设置 -> 更多工具 -> 扩展程序,开启开发者模式即可!

[460]Web Scraper Chrome插件_第3张图片

这是最简单的方法,小编自己就是使用的这种方法!

第二种方法:修改参数

首先打开下面地址:chrome://flags/#extensions-on-chrome-urls

[460]Web Scraper Chrome插件_第4张图片

将 disabled 改为 enable重启即可

第三种:修改文件格式,加载扩展程序

有时候要在 chrome安装本地插件时,会报错,这时候将插件的后缀名 .crx 改为  .zip或者 .rar,然后将改好后缀名的文件解压到本地文件夹中,然后在 chrome  的设置 -> 更多工具 -> 扩展程序:
[460]Web Scraper Chrome插件_第5张图片

在上图中的加载已解压的扩展程序,找到刚才的解压的扩展程序即可。
1--------------------------------------------------------------------------------

但是大多数情况我们的网络状态都不会允许我们这么做的,那我们更加不可能直接获取Chrome插件在谷歌服务中的下载链接了,用户只能通过在其他网站上下载(如:Chrome插件网),或者用户通过好友之间分享获得Chrome插件的离线安装版(扩展名为.crx的文件)。

可是就算获得了这些crx的Chrome插件离线安装文件有些用户可能还不太清楚这些离线插件的安装方法,所以今天有必要为一些不知道怎么使用crx文件的小伙伴讲解一下离线Chrome插件安装文件(crx)的安装方法了。

1.首先用户点击谷歌浏览器右上角的自定义及控制按钮,在下拉框中选择工具选项,然后点击扩展程序来启动Chrome浏览器的扩展管理器页面。

[460]Web Scraper Chrome插件_第6张图片

2.在打开的谷歌浏览器的扩展管理器中用户可以看到一些已经安装程序的Chrome插件,或者一个Chrome插件也没有。

[460]Web Scraper Chrome插件_第7张图片

3.找到自己已经下载好的Chrome离线安装文件xxx.crx,然后将其从资源管理器中拖动到Chrome的扩展管理界面中,这时候用户会发现在扩展管理器的中央部分中会多出一个”拖动以安装“的插件按钮。

[460]Web Scraper Chrome插件_第8张图片

4.松开鼠标就可以把当前正在拖动的插件安装到谷歌浏览器中去,但是谷歌考虑用户的安全隐私,在用户松开鼠标后还会给予用户一个确认安装的提示。

[460]Web Scraper Chrome插件_第9张图片

5.用户这时候只需要点击添加按钮就可以把该离线Chrome插件安装到谷歌浏览器中去,安装成功以后该插件会立即显示在浏览器右上角(如果有插件按钮的话),如果没有插件按钮的话,用户还可以通过Chrome扩展管理器找到已经安装的插件。

[460]Web Scraper Chrome插件_第10张图片

用户只需要通过上面介绍的五个步骤就可以轻松地把离线谷歌浏览器插件安装到Chrome中去,希望这个离线Chrome插件的安装方法能够帮助到您或者是您的朋友。

2--------------------------------------------------------------------------------
如果通过上述方法安装Chrome插件的时候,谷歌浏览器提示“只能通过Chrome网上应用商店安装该程序”。

解决“只能通过Chrome网上应用商店安装该程序”的方法

由于一些特殊原因,极个别Chrome插件在使用上述的安装方法的时候,Chrome会提示“只能通过Chrome网上应用商店安装该程序”,如图所示:

[460]Web Scraper Chrome插件_第11张图片

为此Chrome插件网为用户带来一种解决方法来解决上述问题,具体的操作方法如下:

1.把下载后的.crx扩展名的离线Chrome插件的文件扩展名改成.zip或者.rar(如果看不到Chrome插件的扩展名请百度搜索相关操作系统的设置方法,这里不再叙述),如图所示:

[460]Web Scraper Chrome插件_第12张图片

2.右键点击该文件,并使用压缩软件(如winrar、好压、360压缩等)对该压缩文件进行解压,并保存到系统的一个任意文件夹下,如图所示:

[460]Web Scraper Chrome插件_第13张图片

3.解压成功以后,该Chrome插件就会以文件夹的形式存在于操作系统的某一个目录下面,如图所示:

[460]Web Scraper Chrome插件_第14张图片

4.在Chrome的地址栏中输入:chrome://extensions/ 打开Chrome浏览器的扩展程序管理界面,并在该界面的右上方的开发者模式按钮上打勾,如图所示:

[460]Web Scraper Chrome插件_第15张图片

5.在勾选开发者模式选项以后,在该页面就会出现加载正在开发的扩展程序等按钮,点击“加载正在开发的扩展程序”按钮,并选择刚刚解压的Chrome插件文件夹的位置,如图所示:

[460]Web Scraper Chrome插件_第16张图片

6.这时候如果不出意外,Chrome插件就会成功加载到谷歌浏览器中。但是如果运气不好也有意外的情况,如图所示:

[460]Web Scraper Chrome插件_第17张图片

7.出现这种情况Chrome浏览器会提示无法加载以下来源的扩展程序: xxx路径(Chrome插件文件的解压位置)Cannot load extension with file or directory name metadata. Filenames starting with "" are reserved for use by the system.出现这种情况,是因为这款Chrome插件与新版的Chrome浏览器有些不兼容,这时候,用户可以打开刚刚解压的Chrome插件文件夹,并把其中_metadata文件夹的名字修改为metadata(把前面的下划线去掉),如图所示:

[460]Web Scraper Chrome插件_第18张图片

8.更新文件夹名称成功以后,点击该错误提示下方的“重试”按钮,就可以成功地把Chrome插件加载谷歌浏览器中了,如图所示:

[460]Web Scraper Chrome插件_第19张图片

9.基于这种模式安装的chrome插件会因为用户启用了开发者模式而遭到谷歌的警告,用户可以选择忽略Chrome的警告,或者参考:通过改变计算机策略来解决“只能通过Chrome网上应用商店安装该程序”的方法及模版文件下载。
2--------------------------------------------------------------------------------

标签页输入【chrome://extensions/】进入chrome扩展程序,解压你在本页下载的Web Scraper插件,并拖入扩展程序页即可。

2、插件安装完成后,在浏览器中会出现其按钮标记。用户可以先在设置页面中对该插件的储存设置和储存类型功能进行设置。

3、用户可以使用Web Scraper插件来抓取页面,其操作方法如下:

1)、打开你要抓取的网页。

首先要使用该插件来提取网页数据需要在开发者工具模式中使用,使用快捷键Ctrl+Shift+I/F12或者点击右键,选择“检查(Inspect)”,在开发者工具下面就能看到WebScraper的Tab。如下图所示:

[460]Web Scraper Chrome插件_第20张图片

2)、新建一个Sitemap。点击Create New Sitemap,里面有两个选项,import sitemap是指导入一个现成的sitemap,咱小白一般没有现成的,所以一般不选这个,选create sitemap 就好。
[460]Web Scraper Chrome插件_第21张图片

然后进行这两个操作:
(1)Sitemap Name:代表你这个Sitemap是适用于哪一个网页的,所以你可以根据网页来自命名,不过需要使用英文字母,比如我抓的是今日头条的数据,那我就用toutiao来命名;
(2)Sitemap URL:把网页链接复制到Star URL这一栏,比如图片里我把「吴晓波频道」的主页链接复制到了这一栏,而后点击下方的create sitemap来新建一个Sitemap。

3)、设置这个Sitemap
整个Web Scraper的抓取逻辑是这样:设置一级 Selector,选定抓取范围;在一级 Selector 下设置二级 Selector,选定抓取字段,然后抓取。
对于文章而言,一级 Selector 就是你要把这一块文章的要素圈出来,这个要素可能包含了 标题、作者、发布时间、评论数等等,然后我们再在二级 Selector 中挑出我们要的要素,比如标题、作者、阅读数。
[460]Web Scraper Chrome插件_第22张图片

下面我们来拆解这个设置一级、二级 Selector 的工作流:

[460]Web Scraper Chrome插件_第23张图片

(1)点击 Add new selector 创建一级 Selector。
而后按照以下步骤操作:
-输入id:id代表你抓取的整个范围,比如这里是文章,我们可以命名为wuxiaobo-articles;
-选择Type:type 代表你抓取的这部分的类型,比如元素/文本/链接,因为这个是整个文章要素范围选取,我们需要用Element 来先整体选取(如果这个网页需要滑动加载更多,那就选 Element Scroll Down);
-勾选Multiple:勾选 Multiple 前面的小框,因为你要选的是多个元素而不是单个元素,当我们勾选的时候,爬虫插件会帮助我们识别多篇同类的文章;
-保留设置:其余未提及部分保留默认设置。

(2)点击select选择范围,按照以下步骤操作:
-选择范围:用鼠标选择你要爬取数据的范围,绿色是待选区域,用鼠标点击后变为红色,才是选中了这块区域;
-多选:不要只选一个,下面的也要选,否则爬出来的数据也只有一行;
-完成选择:记得点Done Selecting;
-保存:点击Save Selector。
[460]Web Scraper Chrome插件_第24张图片

(3)设置好了这个一级的Selector之后,点进去设置二级的Selector,按照以下步骤操作:
-新建Selector:点击 Add new selector ;
-输入id:id代表你抓取的是哪个字段,所以可以取该字段的英文,比如我要选「作者」,我就写「writer」;
-选择Type:选Text,因为你要抓取的是文本;
-勿勾选Multiple:不要勾选 Multiple 前面的小框,因为我们在这里要抓取的是单个元素;
-保留设置:其余未提及部分保留默认设置。
[460]Web Scraper Chrome插件_第25张图片

(4)点击 select,再点击你要爬取的字段,按照以下步骤操作:
-选择字段:这里爬取的字段是单个的,用鼠标点击该字段即可选定,比如要爬标题,那就用鼠标点击某篇文章的标题,当字段所在区域变红即为选中;
-完成选择:记得点 Done Selecting;

-保存:点击 Save Selector。

[460]Web Scraper Chrome插件_第26张图片

(5)重复以上操作,直到选完你想爬的字段。
4、爬取数据
(1)之后你想要爬取数据只需要设置完所有的Selector就可以开始:
点击Scrape,然后点Start Scraping,弹出一个小窗后爬虫就会开始工作。你会得到一个列表,上面有你想要的所有数据。

(2)如果你希望把这些数据做一个排序,比如按照阅读量、赞数、作者等指标排序,让数据更一目了然,那么你可以点击 Export Data as CSV,把它导入 Excel 表里。
(3)导入 Excel 表格之后,你就可以对数据进行筛选了。

[460]Web Scraper Chrome插件_第27张图片

我们这里只是简单介绍总结了Web Scraper的插件的功能,安装以及一个简单的单页面例子。其实Web Scraper的功能远远不止于此,其实还能抓取分页,还能多页多元素的抓取,还能抓取二级页面。大家自己慢慢摸索吧。

Web Scraper插件官方教程视频

http://webscraper.io/tutorials

来源:
http://chromecj.com/productivity/2018-05/942.html
http://chromecj.com/utilities/2014-09/181.html
http://chromecj.com/utilities/2018-09/1525.html
http://chromecj.com/utilities/2015-04/423.html

你可能感兴趣的:(爬虫)