java爬虫技术—内功修炼之网络爬虫概念、作用、分类(二)

    次日,小奇早早的到了问道阁,这时已经有一些同时入门的弟子都坐到了各自自定的座位上。传功长老看人员到齐之后开始讲述网络爬虫的基本知识。

    随着互联网的迅速发展,网络资源越来越丰富,信息需求者如何从网络中抽取信息变得至关重要。目前,有效的获取网络数据资源的重要方式,便是网络爬虫技术。简单的理解,比如您对百度贴吧的一个帖子内容特别感兴趣,而帖子的回复却有1000多页,这时采用逐条复制的方法便不可行。而采用网络爬虫便可以很轻松地采集到该帖子下的所有内容。

    网络爬虫技术最广泛的应用是在搜索引擎中,如百度、Google、Bing 等,它完成了搜索过程中的最关键的步骤,即网页内容的抓取。现在新兴的学科大数据技术的数据采集也要用到网络爬虫技术。

    什么是网络爬虫呢?网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。在搜索引擎领域称为网络蜘蛛,在大数据领域又称为数据采集。

    网络爬虫的作用主要用在以下几个方面:

    舆情分析:企业或政府利用爬取的数据,采用数据挖掘的相关方法,发掘用户讨论的内容、实行事件监测、舆情引导等。

    企业的用户分析:企业利用网络爬虫,采集用户对其企业或商品的看法、观点以及态度,进而分析用户的需求、自身产品的优劣势、顾客抱怨等。

    科研工作者的必备技术:现有很多研究都以网络大数据为基础,而采集网络大数据的必备技术便是网络爬虫。利用网络爬虫技术采集的数据可用于研究产品个性化推荐、文本挖掘、用户行为模式挖掘等。

   网络爬虫原理分析:

java爬虫技术—内功修炼之网络爬虫概念、作用、分类(二)_第1张图片

    首先是通过互联网进行网页抓取,把准备好的URL队列里的网页内容全部获取出来。然后把获取到的数据进行预处理操作,进行初步的去重,去燥,再按照既定的规则进行数据检索,从而得到需要的数据展示给用户。

    网络爬虫的分类:

    通用网络爬虫:爬行对象从一些种子 URL 扩充到整个 Web,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。 通用网络爬虫的爬取范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求较低,通常采用并行工作方式,有较强的应用价值。

    聚焦网络爬虫:  又称为主题网络爬虫:是指选择性地爬行那些与预先定义好的主题相关的页面,和通用爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,可以很好地满足一些特定人群对特定领域信息的需求。

    增量网络爬虫:对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面,历史已经采集过的页面不重复采集。增量网络爬虫避免了重复采集数据,可以减小时间和空间上的耗费。通常在设计网络爬虫时,需要在数据库中,加入时间戳,基于时间戳上的先后,判断程序是否继续执行。 常见的案例有:论坛帖子评论数据的采集(如论坛的帖子,它包含400多页,每次启动爬虫时,只需爬取最近几天用户所发的帖子);天气数据的采集;新闻数据的采集;股票数据的采集等。

    Deep Web 爬虫:指大部分内容不能通过静态链接获取,只有用户提交一些表单信息才能获取的 Web 页面。例如,需要模拟登陆的网络爬虫便属于这类网络爬虫。另外,还有一些需要用户提交关键词才能获取的内容,如京东淘宝提交关键字、价格区间获取产品的相关信息。

    听了长老的讲解,小奇若有所思,对网络爬虫有了更进一步的了解。

   更多视频java爬虫视频课程:https://edu.csdn.net/course/detail/20623/258631

 

你可能感兴趣的:(思普大数据技术,java爬虫技术)