python爬虫精选01集(初识爬虫)

python爬虫精选01集(初识爬虫)

python学习目录传送门

文章目录

  • python爬虫精选01集(初识爬虫)
  • 网络爬虫概述
    • 一、定义
    • 二、爬取数据目的
    • 三、企业获取数据方式
    • 四、python做爬虫的优势
    • 五、爬虫分类
    • 六、爬虫爬取数据步骤

网络爬虫概述

一、定义

  • 网络蜘蛛、网络机器人,抓取网络数据的程序。

  • 其实就是用Python程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好。

二、爬取数据目的

  • 获取大量数据,用来做数据分析
  • 公司项目的测试数据,公司业务所需数据

三、企业获取数据方式

  • 公司自有数据

  • 第三方数据平台购买(数据堂、贵阳大数据交易所)

  • 爬虫爬取数据

四、python做爬虫的优势

1、Python :请求模块、解析模块丰富成熟,强大的Scrapy网络爬虫框架

2、PHP :对多线程、异步支持不太好

3、JAVA:代码笨重,代码量大

4、C/C++:虽然效率高,但是代码成型慢

五、爬虫分类

1、通用网络爬虫(搜索引擎使用,遵守robots协议)

	robots协议 :网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,

	通用网络爬虫需要遵守robots协议(君子协议)

	https://www.taobao.com/robots.txt

2、聚焦网络爬虫 :自己写的爬虫程序

六、爬虫爬取数据步骤

1、确定需要爬取的URL地址

2、由请求模块向URL地址发出请求,并得到网站的响应

3、从响应内容中提取所需数据

	① 所需数据,保存

	② 页面中有其他需要继续跟进的URL地址,继续第2步去发请求,如此循环

你可能感兴趣的:(爬虫)