如何不编程也能使用爬虫采集图片或图片地址

       采集图片,或者采集图片的链接地址是常见的数据采集需求。如何在不写代码编程的情况下,又可以简单有效的抓取到图片或图片地址呢?

       首先,我们使用的工具是前嗅大数据的ForeSpider数据采集系统。在前嗅大数据官网下载免费版(www.forenose.com),免费版就可以满足我们抓取图片的需求。

       下载安装后,启动软件。根据如下步骤,即可抓取到图片或图片的地址了。


(一)采集图片

       采集图片和采集文本内容的配置方法类似。区别在于需要将存储图片的字段的取值类型设置为“原始数据流”,以及需要填写“链接额外标签”。

       以“凤凰网(www.ifeng.com)”为例,采集新闻内的图片。

       1.配置频道,创建模板


【采集图片:创建模板】

      第一个模板对应新闻的链接列表,第二个模板对应新闻的正文内容,第三个模板对应新闻正文里链接到的图片。

      2.配置新闻列表页模板

      模板1用于过滤新闻的链接。

如何不编程也能使用爬虫采集图片或图片地址_第1张图片

【模板1配置】

      3.配置新闻正文页模板

      模板2用于采集新闻的内容数据,以及链接到图片的地址。

      (1)链接抽取

      该链接抽取需要关联模板3(图片),并在“链接额外标签”处填写“src”(图片链接的属性)。地址过滤一般不需要再填写过滤串。

如何不编程也能使用爬虫采集图片或图片地址_第2张图片

【模板2配置】

      (2)数据抽取

       数据抽取新闻页的数据内容。关联新闻表单,分别配置各字段的取值。

       4.配置图片页模板

      (1)创建图片表单

       首先在“表单”选项卡中创建一个用于存储图片的数据表单,设置一个主键字段,一个图片字段。图片字段的变量类型必须是“stream”类,取值类型须为“原始数据流”,扩展主类型为“图片”。这样设置后才能正确的在软件中预览图片,并存入数据库中。

       如果不预先在“表单”选项卡中设置好该数据表单,也可以在模板3中右键创建字段,存储图片的字段的取值类型必须选择“原始数据流”。这样设置也可以采集到图片,但无法在软件中提前预览到图片。

      (2)关联表单

       在模板3中创建数据抽取,关联图片表单,关联后无需进行其他配置操作,即可采集到图片数据了。

如何不编程也能使用爬虫采集图片或图片地址_第3张图片

【模板3配置】

(二)采集图片的链接地址

       采集图片的链接地址,字段的取值类型需要用“节点属性”。例如某企业信息网,联系电话为一张图片,需要采集该图片的链接地址。“取值类型”选择“节点属性”,由于链接是链接,属性为href,因此在“取值标示”处填写“href”,就可以采集到图片的链接地址了。

      “定位类型”选择“特征定位”是由于各页面的联系方式表格的内容排列顺序不同,表格行数也不同,此时选择“标准定位”会出现错误。因此,根据表头内容的特征信息“公司电话”进行特征定位。

如何不编程也能使用爬虫采集图片或图片地址_第4张图片

【节点属性示例】

你可能感兴趣的:(指导性文章)