Python Requests和urllib两种方式下载网页到本地

目标:针对网页用requests和urllib两种方式将文件内容下载到本地txt文件中。
网页:百度首页 http://www.baidu.com
Requests方式:

# -*-coding:UTF-8 -*-
import requests
import sys

reload(sys)
sys.setdefaultencoding('utf-8')

def getWebPage(url):
    try:
        urlpage = requests.get(url)
    except IOError:
        print "IOError"
    '''
    urlpage.text中包含网页的源码内容
    '''
    WebPageDownload(urlpage.text)

def  WebPageDownload(text):
    '''
    将下载的网页保存到file.txt文件中
    '''
    ff = open("baiduPageByRequests.txt",'w')
    ff.writelines(text)
    ff.close()

if __name__ == '__main__':
   getWebPage(url='http://www.baidu.com')

urllib方式:

# -*-coding:UTF-8 -*-
from urllib import urlretrieve


def getWebPage(url):
    try:
        '''
        urlretrieve函数会将url定位的网页下载到临时文件中
        '''
        revtal = urlretrieve(url)[0]
    except IOError:
        revtal = None
    if revtal:#如果revtal不为空的话,说明网页下载成功了,那么我们就可以去处理它了
        saveWebPage(revtal)

def saveWebPage(webpage):
    '''
    将下载的网页保存到file.txt文件中
    '''
    f = open(webpage)#将下载的临时文件打开
    lines = f.readlines()#将下载的网页信息保存到lines中
    f.close()#关闭文件对象

    fobj = open("baiduPageByurllib.txt",'w')#以写的方式打开file.txt,如果file.txt不存在,那么将创建一个
    fobj.writelines(lines)#将网页信息写入file.txt中
    fobj.close()#关闭文件对象


if __name__ == '__main__':
   getWebPage(url='http://www.baidu.com')

两种方式都可以将网页源码下载到本地,这是我们将来分析网页或者做网页爬虫的第一步。
这里写图片描述

参考链接:
http://www.cnblogs.com/sysu-blackbear/p/3629420.html
http://blog.csdn.net/whiterbear/article/details/44654025
http://blog.csdn.net/huaweitman/article/details/9421407

你可能感兴趣的:(python)