公众号“企鹅爸爸”内容爬取&简析

公众号“企鹅爸爸”内容爬取&简析

目录

  • 公众号“企鹅爸爸”内容爬取&简析
    • 1.前言
    • 2.“企鹅爸爸”商城商品销售情况爬取及简析
    • 3.“企鹅爸爸”公众号最近50篇文章评论数等信息爬取及简析
    • 4.总结

1.前言

  1. 本篇主要围绕爬取和简析“企鹅爸爸”公众号中商城和历史文章的部分内容。(报告中爬取部分的代码以及采集到的具体数据有所省略)
  2. “企鹅爸爸”商城销售量信息较易爬取。共采集了有销售量的商品总数94条。
  3. 鹅厂的微信公众号,历史文章的反爬非常强,如果构建企业级爬虫成本极高。但为了满足初步分析的目的,我们可以另辟蹊径,先快速获取少量数据(最近的50篇文章)。ps:目前已经没有点赞数了。

2.“企鹅爸爸”商城商品销售情况爬取及简析

  1. “企鹅爸爸”在售商品价格分布情况:
    由图可知,“企鹅爸爸”在售商品的价格主要分布在200元内,总体平均价格为113元,50元左右的商品数最多。
    公众号“企鹅爸爸”内容爬取&简析_第1张图片
  2. “企鹅爸爸”各年龄层在售商品数及比例情况:
    由以下两图可知,各年龄层在售商品中,3岁+商品数最多。
    另外,3-6岁+的商品占据了整体在售产品数量的73.63%
    公众号“企鹅爸爸”内容爬取&简析_第2张图片
    公众号“企鹅爸爸”内容爬取&简析_第3张图片
  3. 哪些是爆款?
    有下表可知(销售量占中体前80%的商品列表),销售量前三名都是三岁+的产品(具体特点可以再仔细研究)。
    另外,通过计算,我们可以发现表中商品总数为26,占据整体有销量商品的27.66%,但占据了80%的销量,比较符合帕累托法则。
    公众号“企鹅爸爸”内容爬取&简析_第4张图片

3.“企鹅爸爸”公众号最近50篇文章评论数等信息爬取及简析

  1. 文章基本信息示例:
    最受欢迎的文章都是比较具有热点或话题性的内容
    公众号“企鹅爸爸”内容爬取&简析_第5张图片
  2. 是否原创对阅读数的影响:
    从数据上来看差别不大,原创平均阅读数上稍差,标准差较小,具体情况性质可以再仔细探讨。
    公众号“企鹅爸爸”内容爬取&简析_第6张图片
  3. 近50篇公众号阅读数分布密度图:
    每篇文章平均阅读数为4790,
    公众号“企鹅爸爸”内容爬取&简析_第7张图片

4.总结

1.本篇是简单爬取信息和分析的作业,“企鹅爸爸”具体内容有待深入研究。
2.爬虫部分占据整体过程的大部分的时间,建议聘用专业爬虫工程师或者支付一点费用直接购买相关服务,会省去大量时间等成本。
公众号“企鹅爸爸”内容爬取&简析_第8张图片

你可能感兴趣的:(数据脱口秀,爬虫,数据分析)