python批量下载文件

在已经有文件url的前提下,批量下载文件。

在excel文档中,保存url和文件名/编号。

request读取网页内容,filetype判断文件类型,批量下载保存。

需要安装filetype包:pip install filetype

# -*- coding: utf-8 -*-
"""
Created on Mon Feb 22 10:24:35 2021

@author: weisssun
"""
import requests
import pandas as pd
import filetype

myHeaders = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"}

# 定义文件下载函数 downloadFile

def downloadFile(url,savePath):
    # 将网页链接 url,文件夹路径 savePath 作为参数传入
    try:
        webPage = requests.get(url, headers = myHeaders, timeout=5)
        #print(webPage.status_code)
        # 获取网页
        webContent = webPage.content
        # 网页内容
        file_type = filetype.guess(webContent).extension
        # 识别文件类型
        #print(file_type)
        file_path = savePath + fileId + '.' + file_type
        # 根据文件夹路径、文件名id、文件类型,组合文件保存路径
        f = open(file_path, 'wb')
        f.write(webContent)
        # 将网页内容写入保存路径中
        f.close()
    except requests.exceptions.RequestException:
        print(fileId + '超时')

# 读取excel表格
        
data = pd.read_excel(r'D:\保存url和文件编号的文档.xlsx')
#data = pd.read_excel(r'D:\保存url和文件编号的文档.xlsx', sheet_name='abc')

# 下载文件保存文件夹
savePath = 'D:/文件下载/'

for i in data.index:
    fileId = str(data.loc[i, '编号'])
    url = str(data.loc[i, 'url'])
    if url == 'nan':
        continue
    else:
        downloadFile(url,savePath)
    

你可能感兴趣的:(Python,python,excel)