大数据之道与术

记得曾听人说过,最重要的构建起自己的思维体系。现在隐隐约约能够有些理解,成长就是建立并不断完善自己思维体系的过程。

    很久没写东西,但是对于最近的这几本书我觉得带给我蛮多惊喜,给了我不同的视角去看事情,需要将自己的一点点想法化成文字记录下来。仅对于大数据这块,浅谈一下自己想法。

作为一只小码农,兵来将挡水来码掩,一心扑在实现具体需求上,只注重技术实现,而没有从整体,站在更高的视角去看待数据问题。大数据不在于数据量大小,不在于使用什么具体的技术实现,而在于分析,在于解决问题,助力业务。

大数据时代,企业应该开启数据化运营来保证业务发展和用户增长。《增长黑客》一书中始终围绕着,数据分析->提出想法->排定优先级->快速验证,这四点在进行。用户在哪里高流失,热点功能,留存率,激活率等,只有数据才能实实在在反映公司的运营情况和产品的使用情况,用数据来作为产品的领航标。对于整体的数据分析来讲,如下四步:

数据分析:如《决战大数据》中很令我豁然开朗的观点,大数据就是尽可能还原用户当时的场景。从用户当时的场景出发,去分析为什么用户会在这个点流失?为什么这个点转化率低?具体的术,不限于页面埋点,或者问卷调查等。用数据找出产品中体验不佳的问题点。

提出想法:对于解决产品中分析出的问题,或者一些好的idea,可以拉上研发、产品、市场同事一起做头脑风暴,不同职责的人看问题的角度不一样,更可能会出现一些好的idea。必要时候,甚至可以请完全不同项目的人进来头脑风暴,激发灵感。

排定优先级: 对于上述的很多想法,肯定不可能在一个迭代里全部实现。可以从主方向相关度、实现成本、时间周期、带来效果等方面打分,评定需求优先级,来确定当前这个迭代周期该实现哪些。

快速验证: 互联网行业的快速迭代,对于确定好的需求就需要快速推出进行验证,是否有效,是否确实提升了用户留存等。当然对于改变来讲,都可能会带来未知的风险,不能保证效果是正还是负,所以可以使用A/B测试,确定部分效果后再推广。对于新的改变,一定要跟踪用户数据,对前后数据进行分析,产生了多大效果,一切应该以数据说话。

最后循环不断上面流程,坚持用数据去领航产品。

    ​

    ​以上是从产品迭代去讲数据分析,但是回归到大数据技术呢?数据湖,数据平台,整合了整个公司的海量数据,这些在于公司的意义又该怎样。现在数据处理大致下面几步:

    数据采集:

     1. 从大数据浪潮之后,现在几乎每家公司都在疯狂收集数据,每个角落数据都不放过。但是用起来的却少之又少,最后发现数据指数级上升,成本高昂,却没产生该有的价值。在这里,我并不是反对数据收集,但是收集前需要对问题和数据做一些界定,这些数据对我业务真的有影响么?

     2. 不要太过相信数据准确。特别是作为数据平台,你需要对接上游无数个数据源,同时需要将数据服务下游诸多系统。数据的准确性越来越重要,你并不能保证上游系统百分百的数据准确,所以请做好“脏”数据打算,不要过于乐观。

    数据存储:

    数据进来以后就需要存储。可能很多业务部门会各自都有一套数据处理框架,优点在于更加灵活,缺点在于大量的数据冗余,成本飞升和数据不一致等。所以稍大型公司内部基本会将基础数据统一,这也是数据湖的初衷。关于数据存储一块,可以考虑三层结构:基础层,中间层,应用层。其中基础层数据,统一维护一份,保证数据一致,并尽量保持数据的原始状态,防止数据失真。中间层,可以按照业务模块,数据再生状态,时间等维度生成多张大宽表,或者使用雪花模型等,对一模块提供服务,允许各个模块之间一定的数据冗余,提供适度灵活性。

当然我们收集数据,最终是为了分析和使用。对于当下趋势,越来越实时化。我们还需要放很大部分精力在存储的同时,考虑如何快速索引,怎么保证我们能尽快的按照某些标签就能从海量数据中提取出我们需要的数据。一大团杂乱无序的数据,除了占服务器资源,没有任何意义。

    数据应用:

    如同前边产品中的数据分析一样,大公司和具体的数据建模的目的也是为了指导业务和商业。如果数据没有应用,没有去结合业务,那么数据本身也就没有什么意义。一个好的数据流程,应该如前所讲一样,是一个闭环。用数据应用指导产品,再通过产品收集自己需要的数据,丰富我们的数据。正如《刻意练习》中最重要的观点,反馈才是进步的动力,才能让自己看到哪里做得不够,哪里需要改进,而做数据也是一样。

对于数据开发人员,《决战大数据》里的“混”,“通”,“晒”还是很有思考的价值。“混”,与业务混在一起,了解业务,才能真正理解数据,提升数据敏感。“通”,数据之间需要连通才有价值,而在纷乱的数据中做到不同部门,甚至不同行业之间的数据串联在一起本身不管技术和沟通上都是一个大挑战,只有“通”,才能更好的还原用户当时的场景,甚至精确的预测下一步。“晒”需要把数据指标都晒出来,老板关心的不是指标,而是指标背后的why和how。计算出指标,还要更多的去想想能发现什么问题。


世间一切都是相同的,这也是为什么要构建自己的思维体系,以一应万。大数据分析这条道,同样也适用于个人,将个人看作一个产品,或者公司去做数据分析。那怎么用数据思维做个人管理?

数据收集:知乎上有个问题,给我留下了很深的印象。看了那么多书,真的有用吗?我不敢说自己看过很多的书,但是仔细回想,曾经看过的书中内容确实大多都已记不住了。所以我慢慢在强迫自己去做一些读书笔记这样的事情。但是我所做的还远远不够,读书时,遇到喜欢的句子,醍醐灌顶的一段话,其实都可以加上备注和所思所想,记录下来。这就是一个最基本的数据收集阶段。

数据存储:数据最终的目的是使用,并不是把数据收集回来就算完成目标。存储所对应的就是检索,能够在我们需要某个知识的时候,很快的从库里边调出这部分相关知识。所以对上一步收集回来的数据,可以通过标签、知识范畴、场景、时间等组合归类,便于我们快速的检索。(当然归纳碎片知识的时候,很多人会和我一样不知道该把这个知识归类到哪个标签上,其实是我们缺少对这个标签的具体和边界定义。正如一个思想所说,一个好的问题,就是具体完成后,答案就出来了)

数据应用: 对于生活中遇到的问题,我们求助于我们的知识库。但是这些知识都是没有经过检验的,而且整个社会一直处于动态变化中,所以我们应用这部分知识以后,还需要给给到反馈和反思。它是否适用,给我带来了什么样的影响,这个知识是不是需要怎么调整能更好适合我自己,再修改回自己的知识库。

命运二字,命中注定的某些东西无法更改,但是运这一项,财富,人际关系,知识和思考模式都是可以靠自己积累的。

建立完善自己的思维体系,会发现万物皆通。

你可能感兴趣的:(大数据之道与术)