零基础自学Python爬虫,5天快速入门指南

首先声明:爬虫不是Python的专利!!!

之所以把这句话放在前面,是因为有太多小白觉得爬虫只能用Python。如果以这样的迷糊状态开启编程之路,就显得有点稀里糊涂了。

Python能在爬虫领域得到广泛利用,主要是它写起来简单,又拥有庞大的类库。有现成的爬虫框架,比如,scrapy;不用框架的话,还有requests 和beautifusoup。

零基础自学Python爬虫,5天快速入门指南_第1张图片

什么是爬虫

通俗点说就是爬各种数据、图片的工具。官方话术:

网络爬虫(又被称为网页 蜘蛛,网络机器人,在 FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取 万维网信息的程序或者脚本。另外一些不常使用的名字还有 蚂蚁、自动索引、模拟程序或者 蠕虫。

爬虫如何工作

有着钢铁般身躯的爬虫,工作不是996而是007。

呃 ,不对。这里是要说它的工作原理:

零基础自学Python爬虫,5天快速入门指南_第2张图片

1、发送请求

使用http库向目标站点发起请求,即发送一个Request

Request包含:请求头、请求体等

Request模块缺陷:不能执行JS 和CSS 代码

2、获取响应内容

如果服务器能正常响应,则会得到一个Response

Response包含:html,json,图片,视频等

3、解析内容

解析html数据:正则表达式(RE模块),第三方解析库如lxml,bs4等

解析json数据:json模块

解析二进制数据:以wb的方式写入文件

4、保存数据

数据库(MySQL,Mongdb、Redis)

文件

如何学习Python爬虫

鉴于我们都是新手,这里就先学点简单实用的爬虫知识,然后做出一些可以看到成绩的结果吧。比如爬取豆瓣电影排行榜;

1、准备工作

既然开始学习Python爬虫了,pycharm还是必须得下载配置好呗,这是我们写Python代码的工具。你要是刚开始学Python,嫌配置环境麻烦,也可以用下面这个在线编程网站过渡下。

代码课堂——零基础,在线编程学习平台

2、Python基础语法知识

写一些简单的爬虫,不需要学习完Python所有的语法知识。但下面这几个点你必须得掌握:

Python判断语句和循环语句;

常用数据结构:列表、元组、集合、字典、函数;

文件操作、错误与异常处理。

3、爬虫入门

在一定程度上掌握了Python语法知识后,我们先来学习Python爬虫入门,

主要是两个知识点:

urllib库的使用

正则表达式

好了,学到这儿我们就可以上手爬取豆瓣电影排行榜了;

这个学习路径是B站李巍老师的《5天快速入门Python爬虫》

Python爬虫基础5天速成(2021全新合集)Python入门+数据可视化

非常适合零基础的新手入门Python爬虫,如果你觉得配置编译环境麻烦,也可以去下面这个在线编程网站边看边学:Python爬虫基础5天入门速成

Python爬虫入门书籍

1、Python网络爬虫权威指南(第2版)

2、Python 3网络爬虫开发实战

Python爬虫的妙处,就在于老少皆宜。新手可以用其爬点简单的数据,大佬则可以利用爬虫在各种网站中踏雪无痕般穿梭。总之,学习Python爬虫是件长远的事情,我们一步一步来吧。

码了这么多字,还是点个赞再走吧~

你可能感兴趣的:(零基础自学Python爬虫,5天快速入门指南)