第一章:爬虫基础-爬虫介绍

第一章:爬虫基础
爬虫介绍:
#什么是爬虫?
通俗理解,爬虫是一个模拟人类请求网站行为的程序,可以自动请求网页,并把数据爬取下来,然后使用一定的规则提取有价值的数据。
#爬虫的应用场景
1.搜索引擎(百度及谷歌)
2.伯乐在线
3.惠惠购物助手
4.数据分析
5.抢票软件等
#为什么用Python写爬虫
1.PHP:PHP是世界上最好的语言,但他天生不是做这个的,而且对多线程和异步支持不是很好,并发处理能力弱。爬虫是工具性程序,对速度和效率要求较高。
2.Java:Java生态圈很完善,是Python爬虫的最大竞争对手,但是Java语言本身很笨重,代码量很大。重构成本比较高,任何修改会导致代码大量改动,爬虫经常要修改和采集代码。
3.c/c++:运行效率是无敌的,但是学习和开发成本高,写个小爬虫程序可能要大半天。
4.Python:语法优美,代码简洁,开发效率高,支持的模块多。相关的http模块和html解析模块非常丰富。还有scrapy和scrapy-redis框架让我们开发爬虫变得异常简单。

你可能感兴趣的:(第一章:爬虫基础-爬虫介绍)