数据分析的过程

数据分析流程:

  • 提出问题
  • 整理数据
  • 探索数据
  • 得出结论
  • 传递结果

1.提出问题

我作为一个互联网公司中的技术人员,目前接收到的大多需求和问题是来自研发内部。实际上在一家公司中,除了研发,还有产品、运营、客服甚至老板,他们都需要数据支撑作出决策。

举个例子,研发可能需要通过日志分析来优化系统性能,寻找系统弱点;运营人员需要了解产品的触达率,点击率,转化率,留存率,需要绘制用户画像以便精准营销;客服需要第一时间知道用户的行为数据以便为用户作出解答;老板需要利用大盘数据分析作出商业决策。

2.整理数据

我想说这应该是最令人头痛的部分了。无论你的模型算法多么牛逼,你的图做得多么完美炫酷,你的报告做出多么强的针对性。没有数据,数据不完整,数据不准确都会毁了你后面所有的努力和工作。

整理数据其实可以继续细分为:数据获取数据清洗数据存储

数据获取
数据分析其实就是要挖掘数据的价值。或许像日志一样你认为毫无价值的糟粕在我们看来也是宝贝。我们通常会利用python numpy/pandas或spark获取业务系统的日志,数据库中的业务数据,前端用户行为数据等等。

数据清洗
是不是你印象中的数据都是excel表的那种结构化形式,其实不然。举个例子,像一篇文章,一张照片,一段音频视频,一截系统日志等等,这些半结构化非结构化的数据我们就需要通过一些手段转化为结构化的数据。

数据存储
清洗完的数据我们通常保存在HDFS或者Hive这样的数仓里面。

总体来说,这部分的工作属于脏活累活,如果你需要一个人做数据分析完整的工作或者是负责这部分的,你必须要细致认真,不然后面的付出都将白费。

3.探索数据

经过前面的步骤,我们已经获取到了干净的数据。我们可以通过作图来了解数据的分布,变量之间的关系。过程中还会涉及到变量异常值、缺失值的处理。

4.得出结论

描述统计通常会绘制一些图形来展示数据的特点,这就是数据的可视化。这里推荐一个非常棒的可视化工具Tableau。进一步分析就是根据已有的数据作出预测,通常会借助机器学习等等手段,这里涉及到了统计学描述统计和推断统计的概念。我也是在学习过程中,就不深入分析了。

5.传递结果

数据分析通常都为业务服务,就是需求和问题的提出方。你通常需要写报告、报表等等向别人表达你的分析结论,解决方案。如果像个性化推荐这样的需求还需要用编程实现模型,形成数据的闭环使用,驱动产品智能。

数据分析除了要求数学,统计等理论,也考验你对数据的敏感性,思维的发散性,多往不同的角度想。同时也考验你的交流技巧,没事多与不同的人聊聊天,没什么坏处的。以上是一点点个人体会,我也是学习数据分析没多久,希望可以与大家共同进步。

你可能感兴趣的:(数据分析的过程)