Python爬取韩寒全部新浪博客


接上一篇,我们根据第一页的链接爬取了第一页的博客,我们不难发现,每一页的链接就只有一处不同(页码序号),我们只要在上一篇的代码外面加一个循环,这样就可以爬取所有博客分页的博文,也就是所有博文了。


# -*- coding : -utf-8 -*-
import urllib
import time
url = [' ']*350
page = 1
link = 1
while page <=7://目前共有7页,3
    con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_'+str(page)+'.html').read()
    i = 0
    title = con.find(r'


代码最下面部分,保存网页只能保存到50,不知道错在哪里。
Python爬取韩寒全部新浪博客_第1张图片

所以就将保存网页的代码放在搜索里,找到就保存!


正确运行界面:

Python爬取韩寒全部新浪博客_第2张图片


运行结果:

Python爬取韩寒全部新浪博客_第3张图片

你可能感兴趣的:(Python)