python爬虫新浪博客博文

一、功能描述

    通过指定新浪博客主页url,自动爬取目录列表中所有文章的文字。保存所有文章的url,

 

二、完整代码

reptile.py

#!/usr/bin/python
#coding=utf-8
# Script: reptile.py
# Author: charlotte
# Date: 2016.4.20
#
# Platform:python
import urllib
import os
import artical_content

#use blog homeblog(reptile url),get blog dir_url(url)
filename = 'url_file'
rep_url = 'http://blog.sina.com.cn/twocold'
content = urllib.urlopen(rep_url).read()
bloginfo = content.find(r'blognavInfo')
dir_href = content.find(r' span:
  break
 url = content[page_next+9:html+5]
# print url
 j = j+1
#print i,' ',j

#print content
#filename = url[-26:]
#open(filename,'w').write(content)

artical_content.py

 import urllib
import os
# Script: artical_content.py
# Author: charlotte
# Date: 2016.4.20
#
# Platform:python
def get_article(url):
 article = urllib.urlopen(url).read().lower()
 artical = article.find(r'articalcontent')
 article_b = article.find(r'style',artical)
 articalContent_e = article_b+1
 print url
 r=0
 while r<30:
  style = article.find(r'style',articalContent_e)
  if (style-articalContent_e)>30:
   break;
  articalContent_b = article.find(r'>',style)
  articalContent_e = article.find(r'
',articalContent_b)   articalContent = article[articalContent_b+2:articalContent_e]   if articalContent[0:3] == '

三、代码效果

url_file

python爬虫新浪博客博文_第1张图片

转载于:https://my.oschina.net/charlock/blog/662659

你可能感兴趣的:(python爬虫新浪博客博文)