网络爬虫的介绍

一.网络爬虫介绍

网络爬虫,英文名为Spider,又称为网页蜘蛛,网络机器人,在数据分析应用中,更多的将爬虫称为数据采集程序,是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做爬虫也只能获取客户端(浏览器)所展示出来的数据
网络中的数据可以是由web服务器【Nginx/Apache】,数据库服务【MySQL/Redis/MongoDB】,索引库,大数据,视频/图片库,云存储【阿里云的OSS】等提供的,最主要的来源是Web服务器

二.爬虫的作用

爬虫在互联网世界中有很多的作用,比如:
1. 数据采集,比如:

抓取微博评论(机器学习舆情监控)
抓取招聘网站的招聘信息(数据分析、挖掘)
新浪滚动新闻
百度新闻网站
2. 软件测试

爬虫之自动化测试
自动化测试所必需的selenium . selenium是一个用于Web应用程序测试的工具,selenium 测试直接运行在浏览器中,就像真正的用户在操作一样。 支持的浏览器包括IE,chrome和Firefox等。其实就是借助于selenium做爬虫的事情。

3. 抢票和投票

12306抢票
投票网
4. 网络安全

短信轰炸
web漏洞扫描

你可能感兴趣的:(爬虫,数据库,mongodb)