- Python 多媒体文件下载(利用urllib) [ 笔记 ]

目录

 

语法说明

举个栗子


语法说明

urllib模块的urlretrieve()方法,可以直接远程数据下载到本地:

语法:

urlretrieve(url, filename=None, reporthook=None, data=None, context=None)

参数 说明
url  
filename 指定了本地的存储路径,如果这里没有指定参数,urllib会生成一个临时的文件用于存放
reporthook 是一个回调函数,当连接上服务器以及相应的数据块都已经下载完毕的话,可以调用这个函数来显示一些进度
data 指post到服务器的参数,该方法返回一个元组,这个元组包含了filename和headers,filename表示保存到本地的路径,而headers表示服务器的响应头
context  

这块就比较简单,因为整个下载的流程就分为3步:

  1. 网络请求
  2. 解析网页
  3. 下载图片

举个栗子

- Python 多媒体文件下载(利用urllib) [ 笔记 ]_第1张图片

用以下代码,就可以将指定网页的图片下载下来: 

# -*- coding:utf-8 -*-
import urllib
from lxml import etree
import requests

i = 0

def running(i):
    print '当前正在下载第' + i + "张图片,请耐心等待下载 .."

url = 'http://588ku.com/?h=bd&sem=1'
r = requests.get(url)  # 网络请求
content = r.text
if r.status_code == requests.codes.ok:
    # 使用lxml解析网页
    html = etree.HTML(content)
    # 找到所有的img
    img_urls = html.xpath('.//img/@src')
    # 下载图片
    for img_url in img_urls:
        urllib.urlretrieve(img_url, 'img' + str(i) + '.jpg', running(str(i)))
        i = i + 1
else:
    r.raise_for_status()

有两点需要说明 ——

  1. url是我随便找的,如有侵权,可以留言我换掉
  2. 对于img_urls = html.xpath('.//img/@src')这行代码,如果有不懂的小伙伴,可以移步到 - Web前端基础 XPath [ 笔记 ]这里看一下对xpath的解释
  3. 以上,that‘s all~

你可能感兴趣的:(-,Python爬虫开发与项目实战,笔记,。,-,Python,。)