python爬虫教程（一）

Python版本：python3.6
使用工具：pycharm

一、第一个爬虫程序

获得网址源代码。如下图获取百度页面源代码。

二、Web请求过程

1. 服务器渲染：在服务器中直接把数据和html整合在一起，返回给浏览器。（在页面源代码中能看到数据）
2. 客户端渲染：第一次请求只要一个html骨架，第二次请求拿到数据，进行数据展示。（在页面源代码中，看不到数据）

三、requests入门

1. 获取搜狗引擎搜索周杰伦页面源代码。

2. 出现报错，网页存在反爬，处理反扒。

3. 修改代码，使其更加灵活获取不同搜索内容对应不同页面源代码。

4．当请求方式为POST时，以百度翻译为例获取页面源代码。

5. 当想要爬取数据与网页框架不在一起时。以豆瓣电影排行榜为例。需先找到所需爬取数据位置。

将其参数变量进行封装，补充网址参数，其参数信息位置及代码如下：

注意：使用完爬虫程序后，关闭爬虫程序。
如上示例需使用resp.close()关闭爬虫程序。

四、数据解析

本文中将介绍三种解析方式：re解析、bs4解析、xpath解析。
1、re解析：Regular Expression，正则表达式，一种使用表达式的方式对字符串进行匹配的语法规则。
优点：速度快、效率高、准确性高
缺点：上手难度较高
语法：使用元字符进行排列组合用来匹配字符串（元字符是具有固定含义的特殊符号），常用元字符：
. 匹配除换行符以外的任意字符 a|b 匹配字符a或b
\w 匹配字母或数字或下划线 \W 匹配非字母或数字或下划线
\s 匹配任意空白符 \S 匹配非空白符
\d 匹配数字 \D 匹配非数字
[…] 匹配字符组中的字符 [^…] 匹配除字符组中的所有字符
^ 匹配字符串的开始 $ 匹配字符串的结束
量词：控制元字符出现的次数
* 重复零次或多次
+ 重复一次或多次
？重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次
（1）re模块使用，findall() 匹配字符串中所有的符合正则的内容