python 爬虫学习 第二弹

连续好几天不更新了,以后坚持每周更新两篇,要养成一个自律的好习惯,才有可能摆脱一个菜鸟

本章实现的是一个简单的爬虫,爬取贴吧图片

首先还是简单介绍一下本章使用的三个库

1.urllib 上一弹简单介绍过 是用来进行url请求的库

2.re 库 是用来从html 库中解析获取图片的

3.os库是系统库,获取系统的某些信息

主要分为一下几个步骤

1.根据url获取网页html内容

2.从html中解析出所有的jpg 或者png图片的url

3.用图片url下载图片并保存成指定的文件名

第一步 根据url获取网页html内容


第二步 从html中解析出所有jpg或者png图片的url


备注:在解析图片url的时候使用到了 正则表达式 (非常重要的东西) 以后网络爬取的时候会经常用到

第三步 用图片url下载图片并保存成指定文件名


以下是完整的代码


代码很简单,多多练习熟能生巧,每天学习一点新东西,早日摆脱菜鸟,做一名合格的程序猿,加油~~~

你可能感兴趣的:(python 爬虫学习 第二弹)