学习Python 简单爬虫实战

爬虫这个功能，我个人理解是什么语言都能写的，只要能正常发送 HTTP 请求，将响应回来的静态页面模版 HTML 上把我们所需要的数据提取出来就可以了，原理很简单，这个东西当然可以手动去统计收集，但是网络平台毕竟还是很多的，还是画点时间，写个爬虫把数据爬取下来，存到数据库里，然后写一个统计报表的 SQL 语句比较方便，后续如果有时间的话，我会写一个简单的前后端分离的报表样例分享出来。

网上现在 Python 爬虫的课程非常的火爆，其实我心里也有点小九九，想玩点骚操作，不想用老本行去写这个爬虫，当然最后的事实是证明确实用 Python 写爬虫要比用 Java 来写爬虫要简单的多。

1. 环境准备

首先笔者的电脑是 Win10 的，Python 选用的是 3.7.4 ，貌似现在网上 Python3 的爬虫教程并不多，其中还是遇到不少的问题，下面也会分享给大家。

开发工具笔者选用的是 VSCode ，在这里推荐一下微软这个开源的产品，非常的轻量化，需要什么插件自己安装就好，不用的插件一律不要，自主性非常高，如果感觉搞不定的朋友可以选择 JetBrains 提供的 Pycharm ，分为社区版和付费版，一般而言，我们使用社区版足矣。

笔者这里直接新建了一个文件夹，创建了一个名为spider-demo.py的文件，这个就是我们一会要写的爬虫的文件了，可以给大家看下笔者的开发环境，如下：

这其实是一个调试成功的截图，从下面打印的日志中可以看到，笔者这里抓取了三个平台的数据。

2. 数据库

笔者使用的数据是 Mysql 5.7.19 版本，数据库的字符集是使用的 utf8mb4 ，至于为什么使用 utf8mb4 而不是 utf8 ，各位百度一下吧，很多人讲的都比我讲的好，我简单说一句就是 Mysql 的 utf8 其实是一个假的 utf8 ，而后面增加的字符集 utf8mb4 才是真正的 utf8 。

而 Python 连接 Mysql 也是需要驱动的，和在 Java 中连接数据库需要驱动一样，这里使用的是 pymysql ，安装命令：

有没有感觉很简单， pip 是 Python 的一个包管理工具，我的个人理解是类似于一个 Maven 的东西，所有的我们需要的第三方的包都能在这个上面下载到。

当然，这里可能会出现timeout的情况，视大家的网络情况而定，我在晚上执行这个命令的时候真的是各种timeout，当然 Maven 会有国内的镜像战， pip 显然肯定也会有么，这里都列给大家：

阿里云 https://mirrors.aliyun.com/pypi/simple/

中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/

豆瓣(douban) https://pypi.douban.com/simple/

清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/

中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/

具体使用方式命令如下：

笔者这里仅仅尝试过阿里云和清华大学的镜像站，其余未做尝试，以上内容来自于网络。

表结构，设计如下图，这里设计很粗糙的，简简单单的只做了一张表，多余话我也不说，大家看图吧，字段后面都有注释了：

整体思路分以下这么几步：

通过 GET 请求将整个页面的 HTML 静态资源请求回来

通过一些匹配规则匹配到我们需要的数据

存入数据库

学习Python 简单爬虫实战

你可能感兴趣的:(学习Python 简单爬虫实战)