目标:针对网页用requests和urllib两种方式将文件内容下载到本地txt文件中。
网页:百度首页 http://www.baidu.com
Requests方式:
# -*-coding:UTF-8 -*-
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
def getWebPage(url):
try:
urlpage = requests.get(url)
except IOError:
print "IOError"
'''
urlpage.text中包含网页的源码内容
'''
WebPageDownload(urlpage.text)
def WebPageDownload(text):
'''
将下载的网页保存到file.txt文件中
'''
ff = open("baiduPageByRequests.txt",'w')
ff.writelines(text)
ff.close()
if __name__ == '__main__':
getWebPage(url='http://www.baidu.com')
urllib方式:
# -*-coding:UTF-8 -*-
from urllib import urlretrieve
def getWebPage(url):
try:
'''
urlretrieve函数会将url定位的网页下载到临时文件中
'''
revtal = urlretrieve(url)[0]
except IOError:
revtal = None
if revtal:#如果revtal不为空的话,说明网页下载成功了,那么我们就可以去处理它了
saveWebPage(revtal)
def saveWebPage(webpage):
'''
将下载的网页保存到file.txt文件中
'''
f = open(webpage)#将下载的临时文件打开
lines = f.readlines()#将下载的网页信息保存到lines中
f.close()#关闭文件对象
fobj = open("baiduPageByurllib.txt",'w')#以写的方式打开file.txt,如果file.txt不存在,那么将创建一个
fobj.writelines(lines)#将网页信息写入file.txt中
fobj.close()#关闭文件对象
if __name__ == '__main__':
getWebPage(url='http://www.baidu.com')
两种方式都可以将网页源码下载到本地,这是我们将来分析网页或者做网页爬虫的第一步。
参考链接:
http://www.cnblogs.com/sysu-blackbear/p/3629420.html
http://blog.csdn.net/whiterbear/article/details/44654025
http://blog.csdn.net/huaweitman/article/details/9421407