网络爬虫(又被称为网页蜘蛛Spider,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。本书将使用Python语言作为开发工具从Python基础开始由浅入深的讲解爬虫的开发流程及设计思路。
★本章导读★
有句老话说得好,“工欲善其事,必先利其器”,由于本书中所涉及示例代码均以Python作为主要开发语言。所以在学习网路爬虫开发之前,需要对Python的基本使用有个大致的了解。同时本书致力于从零基础入门,本章将会对Python的基础语法和使用做个大致的讲解但不会讲得太详细,只需要了解基础语法使用即可。如果读者已有Python基础可跳过本章的学习,进入到第2章开始。
★知识要点★
通过本章内容的学习,学完后读者能掌握以下知识技能。
1.1 Python环境搭建
Python(英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/), 是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。
Python是纯粹的自由软件, 源代码和解释器CPython遵循 GPL(GNU General Public License)协议。Python语法简洁清晰,特色之一是强制用空白符(white space)作为语句缩进。
Python具有丰富和强大的库。它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。常见的一种应用情形是,使用Python快速生成程序的原型(有时甚至是程序的最终界面),然后对其中有特别要求的部分,用更合适的语言改写,比如3D游戏中的图形渲染模块,性能要求特别高,就可以用C/C++重写,而后封装为Python可以调用的扩展类库。需要注意的是在您使用扩展类库时可能需要考虑平台问题,某些可能不提供跨平台的实现。
由于语法简洁和拥有非常全的第三方类库支持等原因,它非常适合用于爬虫程序的编写。Python目前分为两个大的版本,一个是Python2.x版本,另一个是Python3.x版本。这两个版本差距比较大,目前最新版本为3.7.x版本。本书中所涉及到的代码均以Python3.6.4为主。
接下来,本节将会讲解如何在常用操作系统下搭建Python3开发环境,进行Python的基础知识学习和代码编写。
1.1.1 Windows下Python环境的安装与配置
Python是个夸平台的语言,支持在各种不同的系统中运行,以下先来讲解我们最熟悉的Windows系统中的Python环境安装与测试。
1.下载Python安装包
根据Windows版本(64位/或者32位)从Python官网下载对应的版本安装包,Python官网下载地址为:https://www.python.org/ 。本书以Windows10系统为例。相关的操作步骤如下:
步骤1:首先需要下载安装包,打开https://www.python.org/ 这个地址,鼠标移动到【Downloads】选项,可以看到Python的最新版本为Python 3.7.2。如图1-1所示
图1-1 Python 官网首页
步骤2:接下来由于我们使用的Windows系统,所以需要下载Windows版本的Python,在上一步骤的基础上,鼠标移动到【Windows】选项点击,点击之后将进入到版本选择的界面。如图1-2所示:
图1-2 版本选择
步骤3:最后选择需要的版本进行下载,本书中所使用的是Python 3.6.4,所以需要鼠标往下滑,找到3.6.4版本的Python安装包并点击下载。如图1-3所示:
图1-3 选择对应的版本
2.安装Python
下载完后,鼠标双击【python-3.6.4-amd64.exe】运行安装程序进入到安装引导界面,如图1-4所示。
图1-4 Python安装引导界面
接下来,就可以开始进行安装了,相关的安装步骤如下:
步骤1:勾选【Add Python 3.6 to PAHT】选项后单击【Customize installation】选项。这一步的操作作用是把Python加入到系统的path环境变量中。如果不勾选的话,就要手动去配置环境变量。点击【Customize installation】之后将会弹出一个可选特性界面选项,如图1-5所示:
图1-5 可选特性界面
步骤2:在弹出的可选特性界面中【勾选】所有的选项。主要有以下5个选项:
勾选之后点击【Next】按钮进入到下一步骤。
步骤3:通过步骤2之后,进入到了Advanced Options(高级选项)配置界面,保持默认的勾选状态,然后单击【Browse】选择安装路径,如图1-6所示:
图1-6 高级选项
步骤4:点击【Install】按钮进行安装,这个安装过程可能会有点久,耐心等待。安装完成后,在控制台打开cmd命令行窗口,输入“python”,检查是否安装成功。如果安装成功了将会出现类似以下信息的内容,从中可以看到关于所安装的Python版本等信息:
C:\Users\lyl>python
Python 3.6.4 (v3.6.4:69c0db5, Mar 21 2017, 18:41:36) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>>
后续内容待有时间再补充。。。。。。。。。。。