python截取郑州大学贴吧网页

做这个有什么用呢?一方面,有时候想从贴吧网页中寻找我们需要的信息,但是一页一页翻过于繁琐,我们可以集中将网页内容截取下来,统一处理。另一方面,贴吧内容是实时更新的,有时候你想要的内容不经意间因贴吧机制就沉到了底。这时候,在没时间的情况下,我们就需要机器我们自动地将网页保存到本地啦。废话不多说。上菜。

# -*- coding: utf-8 -*- 
#--------------------------------------- 
# 程序:百度贴吧爬虫 
# 版本:0.1 
# 作者:陆嵩 
# 日期:2016-04-1 
# 语言:Python 2.7 
# 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。 
# 功能:下载对应页码内的所有页面并存储为html文件。 
#---------------------------------------
import string, urllib2
def baidu_tieba(url,begin_page,end_page):     
    for i in range(begin_page, end_page+1):  
        filename = string.zfill(i,3) + '.html'#自动填充成三位的文件名 
        print '正在获取第' + str(i) + '个网页,并将其存储为' + filename + '......'  
        f = open(filename,'w+')
        response = urllib2.urlopen(url + str(50*(i-1)),timeout=10)
        the_page = response.read()  
        f.write(the_page)  
        f.close()
zzuurl="http://tieba.baidu.com/f?kw=%E9%83%91%E5%B7%9E%E5%A4%A7%E5%AD%A6&ie=utf-8&pn="
begin_page = int(raw_input(u'请输入开始的页数:\n'))  
end_page = int(raw_input(u'请输入终点的页数:\n'))
baidu_tieba(zzuurl,begin_page,end_page) 

本代码是模仿“山东大学贴吧数据抓取”而为,版权所有。然,与其不同的是,页码的处理上,zzu是以50为一个单位的,且是从0开始,需要注意。

你可能感兴趣的:(python,utf-8)