数据分析Day6: DataFrame数据处理与ECharts图表

在DataFrame中对数据进行了处理、数据清洗,再进行数据分类汇总。
试用了ECharts图表。

  1. 数据清洗,删除无效(无法处理)的数据
df=df.drop(1280)  #删除无效索引数据

4条数据注册日期格式是另外一种,没有年份。无法做字符串切割。

  1. 对用户的注册日期进行分段处理,汇总统计每个月的注册用户数量
df['regtime2']=df['regtime'].astype(str)
df['regtime2']=df['regtime2'].str.slice(0,7)
  1. 分类汇总数据
dfa = df.groupby('articles')['nickname'].count()

dfb = df.groupby('articles')['comments','likes'].sum()

数据分析Day6: DataFrame数据处理与ECharts图表_第1张图片
用户文章数量
数据分析Day6: DataFrame数据处理与ECharts图表_第2张图片
发表文章数量-每篇文章平均喜欢-用户平均评论数
  1. 开始动手写很重要。70%的用户完全使用的阅读功能,没有写下文章。21%的用户写了不超过7篇文章。坚持写,让写作成为你的习惯。
  1. 发表的文章在1~100篇时,"收到的喜欢"呈快速增加趋势。当写作超过100篇时,写作越来越多元化,"收到喜欢" 变得不那么重要,是往首页发的少了吗?
  2. 写得越多,发表的评论越多。很大一部分是文章留言互动。
  3. 的僵尸用户有多少?0文章0评论的算吗?
数据分析Day6: DataFrame数据处理与ECharts图表_第3张图片
注册用户增长情况

用户2015.1(好像是APP上线的时间) ,2015.9 和 2016.1 三次出现爆发增长。2016年3月以后用户增长呈下降趋势。


PS:
一、关于用户抓取的问题:

  1. 如何甄别僵尸用户
  2. 0关注的用户如何抓取
    web页面上关注(following)没有实现分页,无法查看用户所有的关注用户。
    0关注的用户就是一个信息的孤岛,要么是大神,也可能仅仅把当做一个写作工具来使用,另外一种可能就是僵尸。

二、关于逃离平台
有平台就有江湖,就有逃离。之前也有过逃离豆瓣、逃离知乎。(当然极可能是被删除的非法用户内容,一般用户离开一个平台,很少主动删除内容,只会变为不活跃用户)。是面向新人的平台,提供良好的写作体验。

数据分析Day6: DataFrame数据处理与ECharts图表_第4张图片
12个用户删除了文章数据

你会离开吗?

虽然不少人吐槽首页文章,还有人愤然离去。作为一个写作者来说,一般而言当你开始写时,处于成长期时,不会抛弃任何一个平台,总要看看那个平台流量如何,用户的互动怎么样?

看一下现在一些知识IP,他们没有在上发表文章,但仍在上注册了账号,如秋叶、萧秋水。

数据分析Day6: DataFrame数据处理与ECharts图表_第5张图片
加入时间都很早

做为一个UGC模式的平台,吸引高质量的优质用户入住,前期会带来大量的用户和流量,提度平台活跃度。比如微博刚开始时,最近很火起来的分答都使用了这种模方式。采取了另外一种方式,做法是扶持签约作者,我理解就是给坚持写作的人提供更好的平台和资源,加速成长。这得方式更适合写作新人崭露头角。

优质内容在哪里都是稀缺资源,不缺少平台,尤其是现在这个时代。对于刚刚开始写作的年轻人,就是一个非常不错的平台。

三、签约作者是怎样一群人
(分析待更新)

你可能感兴趣的:(数据分析Day6: DataFrame数据处理与ECharts图表)