python网络爬虫_Python连载(一):网络爬虫基础及pythpon环境搭建

从今天开始,我们的Python连载正式开始啦~

接下来我们会给大家分享Python网络爬虫的相关技术课程。

一、我们先来了解下什么是网络爬虫?

网络爬虫又被称为网页蜘蛛、网络蚂蚁、网络机器人等,可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则我们称之为网络爬虫算法。

python网络爬虫_Python连载(一):网络爬虫基础及pythpon环境搭建_第1张图片

爬虫的对象较丰富:文字、图片、视频、任何结构化非结构化的数据爬虫。也衍生了一些爬虫类型:

通用爬虫是搜索引擎抓取系统(百度、谷歌、搜狗等)的重要组成部分,把互联网上的所有网页下载下来,放到本地服务器里形成备份,在对这些网页做相关处理,主要是针对搜索引擎和web服务商提供的爬虫。工作流程:爬取网页——存储数据——内容处理——提供检索——排名服务。

聚焦爬虫:是面向特定需求的一种网络爬虫程序,根据既定的抓取目标,有选择的访问万维网上的网页与相关的连接来获取所需要的信息。通常是爬虫程序员写的针对某种内容的爬虫,而且保证内容需求尽可能相关。

增量网络爬虫:对已经抓取的网页进行实时更新。

深层网络爬虫:爬取一些需要用户提交关键词才能获得的Web页面。

python网络爬虫_Python连载(一):网络爬虫基础及pythpon环境搭建_第2张图片

二、网络爬虫和Python有什么联系

今天听到有人问:python是爬虫吗?爬虫又叫python吗?我第一反应不是回答问题,而是想为什么会这么问?我想大概是大家对python的概念有点模糊,两者混淆,所以我这里来澄清下。

Python是一种跨平台的计算机程序设计语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言,随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。简单的说,python是一门编程语言!

那为什么一说到爬虫的时候,大部分程序员潜意识里都会想到爬虫呢,为什么会这样,我觉得有两个原因:

1、python生态及其丰富,像Requst、Beautiful Soup、Scrapy、PySpider等第三方库比较强大。

2、Python语法简洁易上手,分分钟就能写出一个爬虫(有人吐槽Python慢,但是爬虫的瓶颈和语言关系不大)

python网络爬虫_Python连载(一):网络爬虫基础及pythpon环境搭建_第3张图片

Python作为一种解释型脚本语言,可以用于以下领域:

1、WEB和Internet开发

2、科学计算和统计

3、教育

4、桌面界面开发

5、软件开发

6、后端开发

python网络爬虫_Python连载(一):网络爬虫基础及pythpon环境搭建_第4张图片

所以,爬虫是对网络资源的抓取,因为python的脚本特性,易于配置,对字符的处理也非常灵活。简单的用python自己的urllib库也可以用python写一个搜索引擎,而搜索引擎就是一个复杂的爬虫,所以python爬虫是基于python编程创造出来的一种网络资源的抓取方式,python并不是爬虫。

搞清楚什么是python后,接下来要知道如何在不同系统上搭建python开发环境。

Python程序开发一般包含两部分,编写python程序和运行python程序,所以一个python开发环境主要包含两部分:编辑python代码的编程器和运行python代码的解释器。

python网络爬虫_Python连载(一):网络爬虫基础及pythpon环境搭建_第5张图片

1、python解释器+普通文本编辑器

普通文本编辑器我们可以使用Windows系统自带的txt文本编辑器、notepad++、sublime、editplus、ue等等、任何能够进行文本编辑的软件都可以作为python程序开发的代码编辑器。

2、python解释器+交互式终端

在安装python解释器时安装了交互式终端,我们可以通过在命令行窗口中,输入python或者python3进入不同python版本的交互式终端。

3、python解释器+集成开发环境

集成开发环境是用于提供程序开发环境的应用程序,一般包括代码编辑器、编译器、调试器和图形用户界面等工具,集成了代码编写功能、分析功能、编译功能、调试功能等一体化的开发软件服务套,所有具备这一特征的软件或者软件套都可以叫集成开发环境

你可能感兴趣的:(python网络爬虫)