用Python写一个网络爬虫爬取网页中的图片

写一个爬虫爬取百度贴吧中一个帖子图片
网址:壁纸

用谷歌浏览器的开发工具检查网页,可以发现其每一张图片都有如下格式


所有图片在代码中的相同点就是都以开头且都有相似的src。

图片的src可以通过正则表达式来获取

r'

解释:[^"]+. 多次匹配除"以外的所有字符,\. 是转义 . (.是正则表达式的一种符号,要表达 . 必须转义)

知道了这些,就能获取到页面中的图片,下面用Python来实现这个网络爬虫。

每一句都有注释↓__↓

#导入用于打开URL的扩展库模块
import urllib.request
#导入正则表达式模块
import re

def OpenUrl(url):
    #将Request类实例化并传入url为初始值,然后赋值给req
    OperateUrl = urllib.request.Request(url)
    #伪装成Chrome浏览器
    OperateUrl.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36')
    #访问url,并将页面的二进制数据赋值给page
    page = urllib.request.urlopen(url)
    #将page中的内容转换为utf-8编码
    html = page.read().decode('utf-8')
    return html

def GetImg(html):
    # [^"]+\.jpg 匹配除"以外的所有字符多次,后面跟上转义的.和jpg
    adress = r'

你可能感兴趣的:(#,Python)