python网络爬虫实践出真知(1)

一个下载网页的小程序,改编自汪海的blog。
# -*- coding:utf-8 -*-
'''
就是一个简单读取网页,将网页存入文件的小程序
'''
import string,urllib2

def baiduspider1(url,begin,end):#url 下载页面的地址 begin 开始页数 end 结束页数
    for i in range(begin,end+1):
        sName = string.zfill(i,5)+'.html'#将i填充成5位数,不足5位前面补0 例:00001
        print'正在下载第'+str(i)+'页'+sName+'......'
        f = open(sName,'w+')#创建名为sName的文件
        m = urllib2.urlopen(url+str(i)).read()#按照网页的规律,依次添加页数
        f.write(m)#将读取的网页存入文件sName
        f.close()#关闭文件

url = str(raw_input(u'请输入贴吧网址,去掉pn后的数字:\n'))
begin = int(raw_input(u'请输入开始的页数:\n'))
end = int(raw_input(u'请输入终点的页数:\n'))

baiduspider1(url,begin,end)

你可能感兴趣的:(python网络爬虫)