通过cws(chwod web spider)进行互联网数据的收集

通过cws(chwod web spider)进行互联网数据的收集

  • 简介
  • 安装
  • 使用
  • 录制
    • 等待
    • 页面操作或信息采集
    • 跳转
  • 执行
  • 数据编排和下载
  • 相关链接

简介

触手可及的互联网数据收集整理工具。通过简单的操作即可在杂乱无章和比较讲究的网站中找到有价值的数据。比如新闻列表、商品信息、公司名录、邮件地址等任何感兴趣的内容。
三步即可完成整个过程:

  1. 指定一个开始地址(通常就是一个url地址)
  2. 确定你感兴趣的内容,并标记下来,在必要的情况下,配合一些页面操作,比如打开链接、内容录入,按下按钮等动作;最后让其自动运行
  3. 对收集到的数据进行整理,最后按下下载按钮,稍等片刻,即可完成

特征清单:

  • 可以在任意一个页面内寻找有价值的内容,也可以在多个页面内寻找,在不同的页面之间进行自动切换,无需手动进行
  • 可以获取页面中单一的内容,也可以同时获取多个相似或不相似的内容
  • 可以自动打开页面中的链接、单击某个按钮, 或是录入一些内容,就像用户操作一样
  • 可以将固定内容、提前准备好的数据,以及已经找到的数据自动填充到某个输入组件内
  • 对于反复的操作,可以通过跳转来实现,在必要的地方使用跳转即可实现多次重复操作
  • 在重复操作的过程中,如果遇到需要使用不同数据的情况,可以不必担心,因为每次使用的数据都是按照先后次序有序使用,直到所有数据都被使用过,也可以设定一个跳转次数,在达到设定的跳转次数后终止跳转
  • 当所有设定完成之后,就可以让其自动运行,在此期间,你可以去喝杯咖啡
  • 当数据到手后,别着急,还可以进行基本的编排动作,比如调整先后顺序,层次结构
  • 当数据准备完成后,就可以下载,稍等片刻即可完成

安装

该扩展程序是chrome扩展,需要首先安装chrome浏览器,最低版本要求为54版本。
下载扩展插件:
http://cws.chwod.com/chwod-spider.zip
下载后解压安装包到一个不碍事或不起眼的地方。
启动chrome浏览器,在地址栏输入:

chrome://extensions/

展示为如下图所示:
通过cws(chwod web spider)进行互联网数据的收集_第1张图片
如上图所示:首先单击右上角的按钮,启用开发者模式,如图中的位置1
如图中的位置2,单击“加载已解压的扩展程序”,弹出对话框,选择下载后解压的那个不碍事或不起眼的目录。
如果加载成功,会在下方如图中的位置3处展示刚刚加载的扩展程序,请确认插件名称是否是chwod web spider;同时在右上角地址栏后(图中位置5)出现cws的图标;

由于该模式是开发者模式,对于部分版本的chrome浏览器在重启后,可能会得到一些警告消息,甚至会在某中情况下自动关闭开发者模式,遇到此种情况请在上图中的位置1处重新启用即可。

如果开发者模式处于开启模式,但是地址栏后并不显示cws的图标,那么也可能是当前扩展程序被禁用,请在如图中位置4的地方保该扩展程序是开启状态;

使用

在地址栏右侧单击cws图标(上一部分中图中位置5)即可打开相关页面,如下图所示:
通过cws(chwod web spider)进行互联网数据的收集_第2张图片
主要内容包含三部分:

  • 数据源:可以为后续数据收集过程中提前预备部分数据,比如一些地区数据
  • 录制和执行:是该扩展程序的重要功能体现,后续进行详细描述
  • 配置管理:包含一些配置信息

如果采集数据超过一千条,你需要注册一个帐号并登录进去。

为达到基本录制的能力,我们只使用录制和执行部分,其余两部分在本次操作中不会使用,有兴趣可以自行体验,其功能并不复杂。
切换到录制和执行页面,如下图所示;
通过cws(chwod web spider)进行互联网数据的收集_第3张图片

  • 新建(图中位置1):新建一个录制任务,指定一个名称和一个起始URL地址即可
  • 录制(图中位置2):当新建了一个录制任务,就可以开始进行录制,单击该按钮即可开始,后续会详细说明;如果没有选择任何一条记录,则该功能不可用
  • 执行(途中位置3):当录制完成后,该程序就完成了数据收集的必须准备,单击该按钮即开始自动运行过程中,这是具体数据收集过程;如果还没有录制,则该功能不可用
  • 数据编排和下载(途中位置4):当录制完成后,可以随时到这里进行数据的基本处理,并下载该数据;后续会进行详细说明;如果没有执行过,代表还没有数据,则该功能不可用
  • 删除(图中位置5):顾名思义,你会抛弃这个记录,如果已经收集了数据,会连同数据一并清除

录制

录制是该扩展程序的核心功能。
在上个步骤中新建或选择一个已经存在的记录,并单击录制按钮,会弹出一个对话框,如下图所示:
通过cws(chwod web spider)进行互联网数据的收集_第4张图片
此处展示提示信息,提示用户会以一个新的窗口打开目标网站。单击开始录制按钮,弹出新的窗口,打开目标网站,会首先弹出一个对话框,提示一些操作方法:

通过cws(chwod web spider)进行互联网数据的收集_第5张图片
如果不想下次再次弹出,则可以选择途中的复选框
单击开始录制按钮,开始录制,对话框会关闭,在网站的顶部会出现一个工具栏,如下图所示(当工具栏出现时,你无法操作目标网站的任何内容):
工具栏

  • 最左侧展示当前准备录制的计数器,刚开始录制,是从步骤1开始的
  • 等待:在遇到验证码之类的验证时,必须用户主动介入才能完成的动作,需要按下等待按钮,详细信息请参考下文等待部分
  • 结束录制:结束录制,完成当前脚本录制过程

等待

等待一般发生在脚本录制的开始阶段,如果出现需要人为干预的情况才有必要使用次功能。比如录入验证码。在等待的情况下页面顶部会展示一个按钮,如下图所示:
通过cws(chwod web spider)进行互联网数据的收集_第6张图片
此时,可以操作目标页面的内容进行人为干预,在人为干预的过程中,程序不做任何处理。必须单击上述按钮,才能将控制权交还给程序,并进行下一步的操作
此操作在脚本自动执行过程中,出现一个等待人为干预的过程,以提供人为干预的机会
如果仅仅是输入用户名和密码等之类的登陆操作,则无需此操作,可以通过页面操作来实现(请参考下一部分内容)

此操作在脚本中并不是必须过程,不必每次都添加

页面操作或信息采集

可以通过此功能实现替代人为操作的功能或提取页面信息。该按钮被按下后,会展示一个工具栏,如下图所示:
通过cws(chwod web spider)进行互联网数据的收集_第7张图片

  • 多选(图中位置1):如果需要同时选择多个内容,则需要勾选此项;只有在单击“确定”按钮(图中位置7)后,方可对数据进行处理或进行下一步操作
  • 链接(图中位置2):如果比较确定的是你的目标是一个或多个链接,请勾选此项,这样可以对不是链接的内容视而不见
  • 输入框(图中位置3):如果比较确定的是你的目标是一个或多个输入框,请勾选此项,这样可以对不是输入框的内容视而不见
  • 单选框/复选框(图中位置4):如果比较确定的是你的目标是一个或多个单选框或复选框,请勾选此项,这样可以对不是单选框或复选框的内容视而不见
  • 按钮(图中位置5):如果比较确定的是你的目标是一个或多个按钮,请勾选此项,这样可以对不是按钮的内容视而不见

其中链接,输入框,单选框/复选框和按钮,可以同时选择其中一个或多个,这样你可以同时快速选择多个不同类型的目标,而对没有选择的类型视而不见
如果没有选择任何一项,则对所有可能的目标都加以扑捉

  • 重选(图中位置6):如果你希望重新进行选择,则单击此按钮即可
  • 确定(图中位置7):如果你是在多选的模式下进行选择,则当你选择完成后,单击此按钮进行下一步操作
  • 取消(图中位置8):取消当前操作,回退到初始工具栏状况

当鼠标在目标网页内进行移动时,鼠标所在的目标如果可用,则会有一个浮动层提示对应的信息,如图中的位置9,所包含的内容有如下几部分:

  • 目标类型,比如是一个链接、按钮或输入框等
  • ID:目标的一个路径编码,是该扩展程序确认目标位置的依据
  • URL:如果目标是一个链接,则会展示链接内容
  • 文本:这部分展示目标展示的文本,比如上图中的武清区
  • 可选操作:是提示可用的操作类型,在单击该目标后(没有勾选多选的状态下)或单击确定按钮后(在勾选了多选状态下),提示对目标的可能操作类型

当确定目标后,只需要单击目标即可选中。大可不必担心单击后可能会发生页面跳转(比如链接),页面录入(比如输入框)或出发某些功能(比如按钮)。

当选择了多选功能后,你还可以继续选择更多的目标,如果多个目标比较相似,比如上图中的各区都是相似目标,则当你选择了第二个相似目标后,程序会认为你可能要选择所有相似的目标,此时,会自动选择所有相似目标。如果你不希望徐泽所有的目标,你可以单击重选按钮重新选择,特别是当你可能不希望选择众多相似目标中的一个时,你可以单击已经选中的目标,从而仅仅取消此选中状态。

选中状态下的目标会有被选中的状态,很容易区分出来

当选中目标后(单选)或单击确定按钮后(多选),会弹出一个可选操作的列表,如下图所示:
通过cws(chwod web spider)进行互联网数据的收集_第8张图片
这里列出了所有可能的操作,上图中红色部分是可操作列表,单击每一个操作即可展开对应的详情,同时代表针对刚选中的目标的操作方式。展开后的效果如下图所示:
通过cws(chwod web spider)进行互联网数据的收集_第9张图片
在每一个展开的操作的右侧(如上图中红色部分)都会展示添加为第几步的展示(上图表示提交之后,将成为第三步)
不同的目标类型以及是否多个都会有不同的可操作列表, 比如当前的操作就是针对多个相似链接进行的可选操作
在每一个步骤中都会有一个针对性的标题输入框,该内容表示当前步骤的展示名称,在后续和之后需要展示步骤名称时使用,可以保持该名称,也可以录入一个新的名称,让其更有意义

单击按钮或打开链接:代表在操作时,需要打开目标链接,如果有多个,则会打开第一个链接,如果重复执行此操作,则会按次序打开后续链接(在后续跳转中会有相关设定)

  1. 采集链接地址:会获取所有目标的链接信息,如下图所示:
    通过cws(chwod web spider)进行互联网数据的收集_第10张图片
  • 修正:有些链接为相对路径,如果不是一个有效和完整的链接,会以红色显示,代表为一个相对链接,可以勾选修正符选择,以展示完全如下图所示
    通过cws(chwod web spider)进行互联网数据的收集_第11张图片
  • 合并:如果你从不同的位置采集相同范畴的数据,比如不同的页面可能都有地区数据,可能会将这些地区数据合并为一组数据,则需要使用合并功能,如下图所示:
    通过cws(chwod web spider)进行互联网数据的收集_第12张图片
    如果需要使用合并功能,则必须先存在一个采集步骤,假设我们已经添加了一个标题为“区”的采集步骤,则当选中合并之后,会展示一个可以合并的步骤列表。选择需要添加的步骤即可
  1. 采集文本信息:跟采集链接地址类似,但是链接一般用来做页面操作或跳转使用,文本信息主要是我们的最终数据目标。如下图所示
    采集文本信息
  • 深度文本:某些情况下,可能只显示部分文本,完整的文本可能会在不同的目标下,因此,勾选此项,可以一次性获取所有文本。

这里没有合并选项

3.输入内容:如果选择的目标是一个输入框,则会展示输入内容步骤,如下图所示:
通过cws(chwod web spider)进行互联网数据的收集_第13张图片
输入的内容可以是固定内容,也可以是数据源中输入,也可以是之前采集步骤中已经采集到的数据
- 固定内容:每次输入都会是固定内容
- 从数据源输入:数据源是提前预置好的数据列表,可以参考“步骤3:使用”中关于数据源的说明。如果选择从数据源输入,则会展示一个可用的数据源列表
- 从采集步骤中输入:选择此项会展示一个可用的采集步骤列表。必须至少存在一个采集步骤才可使用,否则无法添加当前步骤

跳转

跳转是为了支持反复和循环操作而添加的特殊步骤。在必要情况下,跳转到需要反复或循环执行的步骤即可
通过cws(chwod web spider)进行互联网数据的收集_第14张图片

  • 跳转到: 可以选择跳转到之前的某一个步骤,或者之前采集步骤中采集到的某个链接
  • 跳转到步骤:如果选择了步骤,则会展示一个可用的步骤列表
  • 跳转到链接:如果选择了跳转到链接,则会展示一个可用的链接列表如下图所示:
    通过cws(chwod web spider)进行互联网数据的收集_第15张图片
    可以选择跳转到固定俩接,或者之前的步骤中采集到的链接
    如果是刚采集的链接,则会展示一个可用的链接列表,如下图所示:
    通过cws(chwod web spider)进行互联网数据的收集_第16张图片
  • 跳转次数:可以选择总是跳转,不限制次数,或者选择固定次数,如下图所示:
    通过cws(chwod web spider)进行互联网数据的收集_第17张图片

执行

当脚本录制完成后,最后单击结束录制,会自动关闭当前窗口,回到之前的页面
在录制和执行选项卡中选择刚刚录制完成的脚步,并单击执行,如下图所示:
通过cws(chwod web spider)进行互联网数据的收集_第18张图片
程序会自动运行脚本,剩下的就是等待过程,或者你在这个过程中去喝杯咖啡
如果在脚本录制过程中添加的等待步骤,则在执行时,会产生等待过程,此时需要人为干预才能继续执行
当执行完成之后,进入数据编排和下载步骤

数据编排和下载

当执行完毕后,会自动关闭目标页面,回到当前页面,并自动打开数据编排和数据下载页面,如果没有自动打开,则可以随时在录制和执行页面中,选中对应脚本,并单击“数据编排和下载”按钮,进入数据编排和下载页,如下图所示:
通过cws(chwod web spider)进行互联网数据的收集_第19张图片

  • 移到第一列(图中位置1):将选中的列移动到第一列
  • 左移一列(图中位置2):将选中的列向左移动一列
  • 右移一列(图中位置3):将选中的列向右移动一列
  • 移到最后一列(图中位置4):将选中的列移动到最后一列
  • 降级(图中位置5):将选中列的数据进行降级处理,降级后,当前列是前一列的下一级,其中第一列不能降级,已经是前一列的下一级不能降级
  • 升级(图中位置6):将选中列的数据进行升级处理,升级后,当前列与前一列的平级数据,已经是第一级的数据不能升级,与前一列已经是平级的数据不能升级
  • 重命名(图中位置7):将列头进行重命名,下载后数据文件的标题头将使用修改后的名称
  • 删除(图中位置8):从当前表格中隐藏选中的数据列。并不是实际删除数据。可以通过重置按钮恢复删除的数据
  • 重置(图中位置9):如果你将数据处理的一团糟,你可以通过重置按钮恢复数据
  • 下载数据(图中位置10):当你编排完成后,或者认为不需要编排,那么单击此按钮可以进行数据的下载,采集到的数据会生成excel文件

相关链接

  • 【CWS】如何批量快速获取网页中的数据和链接信息

你可能感兴趣的:(cws)