知识社区运营数据分析案例

学习爬虫的时候,对公司知识社区的推荐文章列表,用户列表进行了简单爬取,数据分析的过程中发现一些有意思的点,跟大家分享下。

本篇文章主要分为三部分:

  • 为什么做知识社区、这个社区是什么?
  • 社区的发展情况的数据分析
  • 结合数据分析给出的一些社区运营建设

why- 为什么做知识社区?

社区是公司老板为了推进TD构建学习型、开放型、分享型组织在2017年初做的一次尝试,从目前来看文章累积10w篇,推荐文章2400多篇,累积用户600多位,很好的带动了公司的学习和分享氛围。

这些文章大家肯定都不陌生:

《奔跑吧,程序员!》,《阿里曾鸣教授 到访交流纪要:商业模式、企业管理、数据和发展探讨》,《美国东岸大数据交流访问总结》,《XX项目纪实-客户需要外脑做什么?》

what- 知识社区是什么?

公司社区以类知乎的问答社区为模板,但是由于目前的封闭性(公司内部使用),用户人群数量和多样性无法保证很好的问答氛围,定位还是以知识、资讯的阅读和推荐为主。

how about- 社区发展的怎么样?

前面已经提到社区的文章数、推荐书、用户数,下面通过一些更具体的数据给大家展示下系统的运行情况(非官方)

社区发展的时间线分析

这里选取了社区最优质的内容-推荐文章的数量来反馈社区的整体发展情况

[图片上传中...(1.png-f21962-1517377751310-0)]

  • 第一阶段:201703-201707 启动阶段,以信息聚合和用户习惯培养为主

这个阶段社区冷启动,以Admin爬取网络热点信息为主,同时积极培育用户的使用习惯,主要的资讯来源有:

- 产品经理社区:人人都是产品经理、产品中国、产品壹佰、腾讯ISUX
- 科技资讯媒体:雷锋网、36kr、未央网、互联网一些事
- 人工智能和机器学习社区:机器之心(对社区内容的认可已经体现到公司的投资行为中)、KDnuggets
- 数据相关社区或者自媒体: 数据猿、数盟社区
  • 第二阶段:201708-201712 迅速增长阶段,文章推荐量、用户活跃迅速发展,一些知识大V涌现

这个阶段文章的推荐量、用户的使用习惯都已经形成,一些积极分享的大V涌现,成为某个专题的KOL

- 机器学习:xxxx 
- 金融科技:xxxx 
- 产品:xxx    
- 新零售: xxxx 
- 技术:xxxx
  • 当前情况:活跃有所下降,17年底18开年大家在社区上投入精力减少,结合具体的数据分析后面会提出一些运营的建议

以上是平台总体运营情况,下面通过三个案例进行下场景化分析

  • KOL影响力分析
  • 用户聚类分析
  • 其他可能分析方向

社区KOL分析

知识分享社区中KOL对平台的发展非常重要,如何用数据刻画,通过爬虫我从下面两个维度进行了大V信息的抓取

  • 大V文章的影响力数据,包括
    • 推荐列表文章数
    • 文章的浏览量
    • 文章的平均浏览量
    • 点赞数
    • 平均点赞数
    • 回复数
    • 平均回复数
  • 大V们的社区行为数据,包括
    • 发布文章数
    • 阅读文章数
    • 点赞数(点赞他人文章)
    • 推荐数(推荐他人文章)
    • 威望

上面的数据哪些最能反应大V的论坛影响力呢? 这里先进行了下关联度分析:

3.png

通过关联度的显著分析,我们是否可以这些假设:

  • 社区威望,初始规则-基于点赞和被推荐进行计算(目前Furion的设置规则不详?),是否合理的反应了大V的社区影响力(目前Grade并没有太多匹配的强相关数据)

  • 推荐和发布文章强相关,说明大家对内容的把握都比较高,认为可以推荐给大家给大家带来一些帮助

  • 推荐和文章回复强相关,说明被推荐的文章曝光和响应更多

  • 浏览和点赞强相关,说明浏览量大的文章质量都不错

  • 浏览和回复强相关,说明浏览量大的文章引出的互动更多

  • 点赞和回复强相关,可以作为文章质量的指标

  • 阅读和推荐强相关,读文章多的小伙伴在给大家当知识过滤器

总体看,KOL更多还是发表优秀的文章,通过推荐触达更多的用户,由所有用户的点赞、浏览、回复形成影响力。

以上这里KOL的界定还是以经验、数据表现为主,后续在全体用户的分析中,我会尝试通过标注的方式,让机器告诉我们谁是KOL、谁会是潜力KOL

社区用户聚类分析

通过用户的行为数据进行相关的聚类分析,主要数据如下:

  • 发布文章数
  • 阅读文章数
  • 回复文章数
  • 点赞文章数
  • 推荐文章数
  • 社区威望
  • 社区积分
  • 被点赞数

样本数据如下:

[图片上传失败...(image-585b26-1517376880821)]

执行聚类算法之前的假设,用户分为:KOL高影响力人群、活跃人群、潜力KOL人群、不活跃人群, 具体聚类的过程如下:

  • Round1 设置 k=4 聚类结果,发现有个聚簇只有一个样本,查询数据为admin(爬虫),清洗数据继续聚类
5.png
  • Roudn2 设置k=3,具体结果如下
6.png

聚类结果中大部分KOL被分入cluster_2,但是仍旧有不少KOL被列入cluster_1,而且聚簇效果一般。

需要进行数据清理两个办法:

  • 数据量纲统一:大部分长尾数据存在的情况下 统一量纲不是一个好选择;

  • 离群点处理:这里要注意避免误伤真正的KOL;离群点处理使用数据过滤,维度上设置阈值,针对超出的数据直接丢弃

    1. 阅读量大的极端用户:read>1000
    2. 被赞同量大的离群点:agreed>1000 Leo同学是不可复制的
    3. 无法明确含义的数据:grade列去掉
  • Round3 设置阈值后的聚类效果

    • k=3对应群组: KOL(发表文章、回复文章、被点赞较多)、Follower(阅读、点赞较多)、Un-active(较不活跃)

    • k=4对应群组:cluster_0 36位潜力KOL、cluster_1 106位积极参与者、cluster_2 9位KOL、cluster_3 430人这里区分还是不够清晰

      如何进一步尝试,切换聚类的算法?重设k值?

  • Round4 设置k=5,大概分群,这次分群有一定聚簇效果,但是可视化效果比较差

    • cluster_2低活跃
    • cluster_4 阅读和点赞较多
    • cluster_1 活跃度更高,开始尝试主动pub
    • cluster_0 KOL
    • cluster_3 输出为主
  • 经过N轮的整理,最后选择k=3

      结果的可视化效果(长尾分布可以使用log scale视图),通过调整得到最好的聚簇效果(弱相关特征维度上进行展现)
    
    • x轴-活跃:read 通过浏览和点赞行为可以反映用户的活跃程度;
    • y轴-发布:pub 通过发布文章反映用户的主动分享精神;
    • 气泡-被赞同:agreed 文章被赞同一定程度反馈了内容的价值和作者的影响力
8.png
*   大神:cluster_0(9)  高发布、高认同、高活跃,绝对的KOL(xxxx等大神)
*   勤奋学习者:cluster_1(72)  高活跃、中认同、中发布,积极的学习者和跟随者应该也是在Furion收获最大的一群小伙伴 
*   刚来的或者太忙的:cluster_2(500)  可以简单分为两类, 低发布低活跃低认同的小伙伴(可能新同事);中高发布和认同、低活跃的输出型人才(估计都是项目上的大忙人,阶段性的开坛作法,xxxxx等同学)

其他分析,未来引入更多的数据,可能在下面场景进行一些深入的分析

  • KOL预测(这是否一个好问题? 人的行为是否可以预测? 需要引入时序数据? KOL预测的意义和价值是什么?)

    KOL预测分析基于前面用户聚类、KOL判断的结果进行数据标注,分组后的数据通过逻辑回归方式进行KOL预测,将无监督学习的成果应用到监督分类模型中。

  • 社区活跃预测分析(需要引入时序数据?)

how- 社区后续的运营建议,主要从用户、内容、产品三个角度分析:

  • 用户运营:拉新、促活、留存,对用户的价值和激励
  • 内容运营:内容的质量、内容的推荐关联度
  • 产品运营:哪些产品功能可能引爆用户活跃和增长

用户运营

 用户运营的关键在于促活(社区全员参与),增加对用户/员工的价值:
  • 激励:通过参与获得积分兑换TD周边,这个要继续做,而且要增加周边的丰富度
  • 价值:推荐的文章能让大家真正学到东西,目前的推荐操作可能还是太简单粗暴,是否可以引入更好的推荐机制

内容运营

  • 优秀资源的聚合,通过爬虫抓取更多优秀资源
  • KOL优质内容的贡献,周期爆款文章是否有额外的积分奖励

产品运营

  • 搜索功能的优化,现在联结时代,互联网就是我们的存储器,没有好的索引肯定不行
  • 推荐,公司2018年在模型和算法上更进一步,这里可以做个试验田

总体上下面几个建议:

  1. 技术上,增强搜索、推荐功能
  2. 运营上,建议由KOL、高活跃用户成立虚拟委员会,每周(选出轮值主席)进行优秀资源更新、推荐文章标注、优秀文章评选等
  3. 内容上,高价值文章发掘、触达、激励
  4. 资源上,积分商城持续的运营加力,给大家足够的激励

你可能感兴趣的:(知识社区运营数据分析案例)