python 第一个爬虫

# -*- coding: utf-8 -*-   
#---------------------------------------  
#   程序:百度贴吧爬虫   
#   语言:Python 2.7  
#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数  
#   功能:下载对应页码内的所有页面并存储为html文件
#---------------------------------------  

import urllib2,string

def baidu_tieba(url,begin_page,end_page):
	for i in range(begin_page,end_page+1):
		sName = string.zfill(i, 5)+".html"
		print "正在下载第" + str(i) + "页,存储为文件" + sName + "......"
		f = open(sName,"w+")
		res = urllib2.urlopen(url) 
		f.write(res.read())
		f.close()
		
url = raw_input("请输入地址 : ")
begin_page = int(raw_input("输入开始页数 : "))
end_page = int(raw_input("输入结束页数 : "))

baidu_tieba(url, begin_page, end_page)

请输入地址 : http://tieba.baidu.com/p/3526302131?

输入开始页数 : 1

输入结束页数 : 2

正在下载第1页,存储为文件00001.html......

正在下载第2页,存储为文件00002.html......

OK了,打开看看有没有这两个文件。


你可能感兴趣的:(python 第一个爬虫)