本次项目爬取的是CSDN上作者的数据信息以及作者的文章,本次项目主要用到parsel、os、re、xlwt、requests、pdfkit等库。此次项目写了两个方面,分别为:爬取用户数据,爬取作者文章并且转化为pdf。
用户数据模块主要包括:原创数量,周排名,总排名,访问数,用户等级,积分,分数,收藏的文章数量。爬取作者文章模块:将HTML文章转化为pdf文件格式,便于阅读以及防止乱码,数据及丢失等情况。
下面是部分源码:
主要用到的模块:
获取作者文章部分源码:
获取作者数据信息部分源码:
生成EXCL表格并将数据存储到表格中的部分源码:
除此之外,我们还用pdf工具包htmltopdt将网页版的文章转化为pdf版
下面是项目展示(我们以爬取一个作者为例):
这是HTML版的作者文章:
PDF版的文章:
爬取的作者信息和生成的EXCEL表格:
通过这次PythonQ实训,我收获了很多,一方面学习到了许多以前没学过的专业知识与知识的应用,另-方面还提高了自我动手做项目的潜力。本次实训是对我潜力的进一步锻炼, 也是一种考验。 从中获得的诸多收获,也是很可贵的,是十分有好处的。