python--爬取CSDN作者信息及文章

        本次项目爬取的是CSDN上作者的数据信息以及作者的文章,本次项目主要用到parsel、os、re、xlwt、requests、pdfkit等库。此次项目写了两个方面,分别为:爬取用户数据,爬取作者文章并且转化为pdf。
        用户数据模块主要包括:原创数量,周排名,总排名,访问数,用户等级,积分,分数,收藏的文章数量。爬取作者文章模块:将HTML文章转化为pdf文件格式,便于阅读以及防止乱码,数据及丢失等情况。


下面是部分源码:

主要用到的模块:

python--爬取CSDN作者信息及文章_第1张图片

 

获取作者文章部分源码:

python--爬取CSDN作者信息及文章_第2张图片

 

python--爬取CSDN作者信息及文章_第3张图片

 

获取作者数据信息部分源码:

python--爬取CSDN作者信息及文章_第4张图片

 

生成EXCL表格并将数据存储到表格中的部分源码:

python--爬取CSDN作者信息及文章_第5张图片

 

python--爬取CSDN作者信息及文章_第6张图片

 

 python--爬取CSDN作者信息及文章_第7张图片

 

除此之外,我们还用pdf工具包htmltopdt将网页版的文章转化为pdf版

下面是项目展示(我们以爬取一个作者为例):

这是HTML版的作者文章:

 python--爬取CSDN作者信息及文章_第8张图片

 

 python--爬取CSDN作者信息及文章_第9张图片

 

PDF版的文章:

 python--爬取CSDN作者信息及文章_第10张图片

 

python--爬取CSDN作者信息及文章_第11张图片

爬取的作者信息和生成的EXCEL表格:

    python--爬取CSDN作者信息及文章_第12张图片  python--爬取CSDN作者信息及文章_第13张图片

通过这次PythonQ实训,我收获了很多,一方面学习到了许多以前没学过的专业知识与知识的应用,另-方面还提高了自我动手做项目的潜力。本次实训是对我潜力的进一步锻炼, 也是一种考验。 从中获得的诸多收获,也是很可贵的,是十分有好处的。

你可能感兴趣的:(python,pycharm,爬虫)