[Python学习] 简单爬取CSDN下载资源信息

        这是一篇Python爬取CSDN下载资源信息的例子,主要是通过urllib2获取CSDN某个人所有资源的资源URL、资源名称、下载次数、分数等信息;写这篇文章的原因是我想获取自己的资源所有的评论信息,但是由于评论采用JS临时加载,所以这篇文章先简单介绍如何人工分析HTML页面爬取信息。

源代码
# coding=utf-8  
import urllib  
import time  
import re  
import os

#************************************************** 
#第一步 遍历获取每页对应主题的URL 
#http://download.csdn.net/user/eastmount/uploads/1
#http://download.csdn.net/user/eastmount/uploads/8
#**************************************************

num=1 #记录资源总数 共46个资源
number=1 #记录列表总数1-8
fileurl=open('csdn_url.txt','w+')  
fileurl.write('****************获取资源URL*************\n\n')

while number<9:
    url='http://download.csdn.net/user/eastmount/uploads/' + str(number)
    fileurl.write('下载列表URL:'+url+'\n\n')
    print unicode('下载列表URL:'+url,'utf-8')
    content=urllib.urlopen(url).read()
    open('csdn.html','w+').write(content)

    #获取包含URL块内容 匹配需要计算
个数 start=content.find(r'
') end=content.find(r'

你可能感兴趣的:(Python学习系列,Python网络爬虫,Python爬虫,Python,爬虫,获取CSDN信息,基础知识)