网络爬虫——网络爬虫的发展

网络爬虫本质就是模拟人模拟浏览器访问网站,保存网站内容。


网络爬虫最开始是为了整理网络信息,抓取初步处理成资料文档,类似heritrix爬虫。

另一个广泛的应用就是搜索引擎,搜索引擎需要全网采集内容构建倒排索引。


后来国内出现了一片做网络舆情的公司,网络爬虫需要采集的东西主要是新闻资讯,和搜索引擎的爬虫相似,

近期伴随着大数据的热潮,爬虫也被归于大数据范畴,

原因我猜是大家hadoop框架搭好之后,发现,没数据。

写爬虫吧,这其中有代表性的是互联网金融,需要采集用户信息,构建用户行为。


你可能感兴趣的:(网络爬虫——网络爬虫的发展)