Python 抓取知识星球内容生成词云并生成 PDF

知识星球是什么?

知识星球是创作者连接铁杆粉丝,做出高品质社群,实现知识变现的工具。创作者可以用知识星球连接铁杆粉丝,做出高品质社群,实现知识变现。

以上来自知识星球官网的介绍 https://help.zsxq.com/ 口号是连接1000位铁杆粉丝。

为什么用星球

我没做过社群,也不是什么行业专家,毕竟不是什么大v,为什么要用知识星球呢?主要是现在获取的资讯太多了,想沉淀记录些东西,方便自己,也方便他人找,为什么不用微博呢?微博用了很多年,每天都在更新,目前已经8万多条微博了。

Python 抓取知识星球内容生成词云并生成 PDF_第1张图片

微博上有很多mark党,不断转发微博,但几乎没再去看过,不知道你是否也这样,以为收藏就看过了,其实只是种心里安慰。

而且微博上转发的东西经常被删,微博太多管理起来也麻烦,于是6月份的时候建立了一个免费的星球,主要是收集些有用有意思的东西,就是这个了https://wx.zsxq.com/dweb2/index/group/141281112142

Python 抓取知识星球内容生成词云并生成 PDF_第2张图片

Python 抓取知识星球内容生成词云并生成 PDF_第3张图片 免费星球

星球还可以上传文件,和微博一样加标签方便分类,还提供网页版,很方便。

导出星球

过去3个月更新几百条信息了,也都加了标签。星球现在有200多个小伙伴了,你有兴趣也加入吧。

Python 抓取知识星球内容生成词云并生成 PDF_第4张图片

Python 抓取知识星球内容生成词云并生成 PDF_第5张图片


Python 抓取知识星球内容生成词云并生成 PDF_第6张图片

 

比如工具这个标签列表的内容

Python 抓取知识星球内容生成词云并生成 PDF_第7张图片

但内容多了以后翻起来也麻烦,于是想着下载下来看,最好能导出PDF,于是准备研究下,搜索下发现有人已经做过了,思路为抓取网页版的接口https://api.zsxq.com/v1.10/groups/141281112142/topics?scope=all&count=20 每次加载20条,每次的最后一条的create_time为下次的开始时间,如果没有20条说明加载完了。不过他的代码还有些问题,需要改动下,于是开始动手了。

Python 抓取知识星球内容生成词云并生成 PDF_第8张图片

用基于 Wkhtmltopdf 的 Python 包 pdfkit 生成的PDF文件有点大,565页 ,50多M,主要是评论和图片都下载了,不下载的话5M差不多。

Python 抓取知识星球内容生成词云并生成 PDF_第9张图片

为了验证付费星球也能下载,我还建了个付费星球https://wx.zsxq.com/dweb2/index/group/224445125221,以后也会经常更新。

Python 抓取知识星球内容生成词云并生成 PDF_第10张图片

Python 抓取知识星球内容生成词云并生成 PDF_第11张图片

评论和回复也下载了

Python 抓取知识星球内容生成词云并生成 PDF_第12张图片

Python 抓取知识星球内容生成词云并生成 PDF_第13张图片

2019.6.19创建的星球

Python 抓取知识星球内容生成词云并生成 PDF_第14张图片

Python生成的词云效果还不大好,没过滤好无用的词。

Python 抓取知识星球内容生成词云并生成 PDF_第15张图片

文字版也导出到TXT了。

Python 抓取知识星球内容生成词云并生成 PDF_第16张图片  

在词云网站 http://cloud.niucodata.com/ 将下载的文字放进去就能看到词频统计和词云图。

Python 抓取知识星球内容生成词云并生成 PDF_第17张图片  

Python 抓取知识星球内容生成词云并生成 PDF_第18张图片  

如果你想下载这个PDF,公众号回复 星球 获取PDF和文字版。

中文乱码

如果你是在 linux 上执行脚本可能会出现中文乱码,解决方法就是从windows拷贝宋体字体文件 c:\windos\fonts\simhei.ttf/usr/share/fonts/

cd /usr/share/fonts/
cp simhei.ttf .
mkfontscale
mkfontdir
fc-cache 

再次执行fc-list可以看到已经安装的字体了。

推荐星球

这段时间也加入了不少星球,推荐一个我几乎每天看的星球,为什么每天看呢,因为星主每天分享,太勤快了,星球名叫 风巢套利日享(限免),免费的https://wx.zsxq.com/dweb2/index/group/554228114224

Python 抓取知识星球内容生成词云并生成 PDF_第19张图片

Python 抓取知识星球内容生成词云并生成 PDF_第20张图片

推荐阅读:

没有提取码怎么获取百度网盘资源?

如何发一条空白的朋友圈

如何在电脑上登陆多个微信

如何提取公积金 9 天到账

免费在线听周杰伦歌曲

那些你可能不知道的微信奇技淫巧

如何在豆瓣租房小组快速找到满意的房子

那些你可能用得上的简历写作工具

Chrome 浏览器扩展神器油猴

我的新浪工作日常

公众号:苏生不惑

Python 抓取知识星球内容生成词云并生成 PDF_第21张图片 扫描二维码关注

你可能感兴趣的:(Python 抓取知识星球内容生成词云并生成 PDF)