一个知识社区的运行分析报告-您是大神、勤奋学习者、大忙人还是吃瓜群众?

学习爬虫的时候,对公司知识社区的推荐文章列表,用户列表进行了简单爬取,数据分析的过程中发现一些有意思的点,跟大家分享下。

本篇文章主要分为三部分:

  • 为什么做知识社区?

  • 知识社区的发展情况的数据分析

  • 结合数据分析给出的一些知识社区运营建设

why- 为什么做知识社区?

知识社区是公司CEO为了推进公司构建学习型、开放型、分享型组织在2017年初做的一次尝试,从目前来看文章累积10w篇,推荐文章2400多篇,累积用户600多位,很好的带动了公司的学习和分享氛围。

这些文章大家肯定都不陌生:

《奔跑吧,程序员!(11月8日 产品研发会-Leo讲话)》,《阿里曾鸣教授 到访TalkingData 交流纪要:商业模式、企业管理、数据和发展探讨》,《美国东岸大数据交流访问总结_整体篇》,《Bestseller纪实-客户需要TD外脑做什么?》

what- 知识社区是什么?

公司的知识社区以类知乎的问答社区为模板,但是由于目前的封闭性(公司内部使用),用户人群数量和多样性无法保证很好的问答氛围,定位还是以知识、资讯的阅读和推荐为主。

how about- 知识社区发展的怎么样?

前面已经提到知识社区的文章数、推荐书、用户数,下面通过一些更具体的数据给大家展示下系统的运行情况(非官方)

知识社区发展的时间线分析

这里选取了社区最优质的内容-推荐文章的数量来反馈社区的整体发展情况

1.png
  • 第一阶段:201703-201707 启动阶段,以信息聚合和用户习惯培养为主

这个阶段社区冷启动,以Admin爬取网络热点信息为主,同时积极培育用户的使用习惯,主要的资讯来源有:

  • 产品经理社区:人人都是产品经理、产品中国、产品壹佰、腾讯ISUX

  • 科技资讯媒体:雷锋网、36kr、未央网、互联网一些事

  • 人工智能和机器学习社区:机器之心(对社区内容的认可已经体现到公司的投资行为中)、KDnuggets

  • 数据相关社区或者自媒体: 数据猿、数盟社区

  • 第二阶段:201708-201712 迅速增长阶段,文章推荐量、用户活跃迅速发展,一些知识大V涌现

这个阶段文章的推荐量、用户的使用习惯都已经形成,一些积极分享的大V涌现,成为某个专题的KOL

  • 机器学习:xiaohui、json、Rand

  • 金融科技:张宁、leichen

  • 产品:ashyan

  • 新零售: jet、丽燕

  • 技术:kaopu、Robin、minfeng、xiaoxubeili

  • 当前情况:活跃有所下降,17年底18开年大家在Furion上投入精力减少,结合具体的数据分析后面会提出一些运营的建议

以上是平台总体运营情况,下面通过三个案例进行下场景化分析

  • 大V影响力分析

  • 用户聚类分析

  • KOL预测分析

社区KOL分析

知识分享社区中KOL对平台的发展非常重要,如何用数据刻画,通过爬虫我从下面两个维度进行了大V信息的抓取

  • 大V文章的影响力数据,包括

  • 推荐列表文章数

  • 文章的浏览量

  • 文章的平均浏览量

  • 点赞数

  • 平均点赞数

  • 回复数

  • 平均回复数

  • 大V们的社区行为数据,包括

  • 发布文章数

  • 阅读文章数

  • 点赞数(点赞他人文章)

  • 推荐数(推荐他人文章)

  • 威望

相关数据整理后视图如下:

2.png

上面的数据哪些最能反应大V的论坛影响力呢? 这里先进行了下关联度分析:

3.png

通过关联度的显著分析,我们是否可以这些假设:

  • 社区威望,初始规则-基于点赞和被推荐进行计算(目前社区的设置规则不详?),是否合理的反应了大V的社区影响力(目前Grade并没有太多匹配的强相关数据)

  • 推荐和发布文章强相关,说明大家对内容的把握都比较高,认为可以推荐给大家给大家带来一些帮助

  • 推荐和文章回复强相关,说明被推荐的文章曝光和响应更多

  • 浏览和点赞强相关,说明浏览量大的文章质量都不错

  • 浏览和回复强相关,说明浏览量大的文章引出的互动更多

  • 点赞和回复强相关,可以作为文章质量的指标

  • 阅读和推荐强相关,读文章多的小伙伴在给大家当知识过滤器

总体看,KOL更多还是发表优秀的文章,通过推荐触达更多的用户,由所有用户的点赞、浏览、回复形成影响力。

以上这里KOL的界定还是以经验、数据表现为主,后续在全体用户的分析中,我会尝试通过标注的方式,让机器告诉我们谁是KOL、谁会是潜力KOL

社区用户聚类分析

通过用户的行为数据进行相关的聚类分析,主要数据如下:

  • 发布文章数

  • 阅读文章数

  • 回复文章数

  • 点赞文章数

  • 推荐文章数

  • 社区威望

  • 社区积分

  • 被点赞数

样本数据如下:

4.png

执行聚类算法之前的假设,用户分为:KOL高影响力人群、活跃人群、潜力KOL人群、不活跃人群, 具体聚类的过程如下:

  • Round1 设置 k=4 聚类结果,发现有个聚簇只有一个样本,查询数据为admin(爬虫),清洗数据继续聚类
5.png
  • Roudn2 设置k=3,具体结果如下
6.png
7.png

聚类结果中大部分KOL被分入cluster_2,但是仍旧有不少KOL被列入cluster_1,而且聚簇效果一般。

两个办法:

  • 数据量纲统一:大部分长尾数据存在的情况下 统一量纲不是一个好选择;

  • 离群点处理:这里要注意避免误伤真正的KOL;离群点处理使用数据过滤,维度上设置阈值,针对超出的数据直接丢弃

  1. 阅读量大的极端用户:read>1000

  2. 被赞同量大的离群点:agreed>1000 CEO是不可复制的

  3. 无法明确含义的数据:grade列去掉

  • Round3 设置阈值后的聚类效果

  • k=3对应群组: KOL(发表文章、回复文章、被点赞较多)、Follower(阅读、点赞较多)、Un-active(较不活跃)

  • k=4对应群组:cluster_0 36位潜力KOL、cluster_1 106位积极参与者、cluster_2 9位KOL、cluster_3 430人这里区分还是不够清晰

      如何进一步尝试,切换聚类的算法?重设k值?
    
  • Round4 设置k=5,大概分群,这次分群有一定聚簇效果,但是可视化效果比较差

  • cluster_2低活跃

  • cluster_4 阅读和点赞较多

  • cluster_1 活跃度更高,开始尝试主动pub

  • cluster_0 KOL

  • cluster_3 输出为主

  • 经过N轮的整理,最后选择k=3

      结果的可视化效果(长尾分布可以使用log scale视图),通过调整得到最好的聚簇效果(弱相关特征维度上进行展现)
    
      浏览和点赞行为;发布行为;被赞同,分别体现了用户参与&活跃、用户主动发布、用户价值认同
    
8.png
  • 大神:cluster_0(9) 高发布、高认同、高活跃,绝对的KOL(xiaohui、jet、张宁等大神)

  • 勤奋学习者:cluster_1(72) 高活跃、中认同、中发布,积极的学习者和跟随者应该也是在Furion收获最大的一群小伙伴

  • 刚来的或者太忙的:cluster_2(500) 可以简单分为两类, 低发布低活跃低认同的小伙伴(可能新同事);中高发布和认同、低活跃的输出型人才(估计都是项目上的大忙人,阶段性的开坛作法,强哥、丽燕等同学)

其他分析,未来引入更多的数据,可能在下面场景进行一些深入的分析

  • KOL预测(这是否一个好问题? 人的行为是否可以预测? 需要引入时序数据? KOL预测的意义和价值是什么?)

    KOL预测分析基于前面用户聚类、KOL判断的结果进行数据标注,分组后的数据通过逻辑回归方式进行KOL预测,将无监督学习的成果应用到监督分类模型中。

  • Furion活跃预测分析(需要引入时序数据?)

how- Furion后续的运营建议,主要从用户、内容、产品三个角度分析:

  • 用户运营:拉新、促活、留存,对用户的价值和激励

  • 内容运营:内容的质量、内容的推荐关联度

  • 产品运营:哪些产品功能可能引爆用户活跃和增长

用户运营

 用户运营的关键在于促活(Furion全员参与),增加对用户/员工的价值:
  • 激励:通过参与获得积分兑换TD周边,这个要继续做,而且要增加周边的丰富度

  • 价值:推荐的文章能让大家真正学到东西,目前的推荐操作可能还是太简单粗暴,是否可以引入更好的推荐机制

内容运营

  • 优秀资源的聚合,通过爬虫抓取更多优秀资源

  • KOL优质内容的贡献,周期爆款文章是否有额外的积分奖励

产品运营

  • 搜索功能的优化,现在联结时代,互联网就是我们的存储器,没有好的索引肯定不行

  • 推荐,公司2018年在模型和算法上更进一步,这里可以做个试验田

总体上下面几个建议:

  1. 技术上,增强搜索、推荐功能

  2. 运营上,建议由KOL、高活跃用户成立虚拟委员会,每周(选出轮值主席)进行优秀资源更新、推荐文章标注、优秀文章评选等

  3. 内容上,高价值文章发掘、触达、激励

  4. 资源上,积分商城持续的运营加力,给大家足够的激励

你可能感兴趣的:(一个知识社区的运行分析报告-您是大神、勤奋学习者、大忙人还是吃瓜群众?)