一、朴素的数据价值观
1.什么是数据
凡是可以被电子化记录的都是数据。
这不局限于数字,还包括语音输入的声音,数码相机拍下的照片,手机录制的视频等被电子化记录的内容。该定义看似狭隘,但是能帮助我们更好的理解数据产业的变迁,培养数据的时代观。
2.数据有什么用
数据之于个人的价值,一定关乎自身业务的核心诉求。只有说清楚了数据的商业价值,客户才容易为数据买单,数据企业才容易产生收入,数据产业中才不会有那么多的困惑。那么,数据的价值是什么呢?
我们可以从收入、支出、风险三个方面看待这个问题:
●收入。最典型的是百度付费搜索广告,它通过对用户搜索数据的深入分析,进行精准匹配,为广告主带去一大波流量,它所创造的收入增长就是数据的价值。
●支出。根据物联网技术采集到的信息,电视生产商发现某一款电视机的用户中,仅1%的用户还在使用老式的VGA视频接口。于是,他们决定取消这一接口设置,该决定为企业每年节省了上亿元成本。这也是数据分析带来的价值。
●风险。很多商业银行都有网上申请系统,风险普遍高于线下面签。数据分析可以帮助它们更加准确地区分哪些线上申请者是好人,哪些是坏人。这是以降低商业风险的方式,数据为公司所带来的间接价值。
3.什么是数据思维
为了解释清楚本书中最重要的概念“数据思维”,这里不得不引入一个统计学专有名词——回归分析,即确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
古人云:以道驭术,以术驱道。在“道”的层面上,回归分析是一种思维方式,在它的指导下,我们可以把“业务问题”定义成“数据可分析问题”。而在“术”的层面,回归分析又是一种可以运用的数据分析工具,这在本解读最后一章会介绍。
什么样的问题可以被看作数据可分析问题?你需要找到两种变量:
●因变量Y:因为别人的改变而改变的变量,这是业务的核心诉求。
●自变量X:用来解释因变量Y的相关变量,通俗点说,自变量X的改变,影响了因变量Y的变化。X表现了数据分析者对业务的洞见。
案例
假设A君向你借一万元钱,你也许会从A君平时的为人开始分析,顺便考虑你俩关系够不够铁、是否签下借条、A君的家境情况等等各种因素,依此衡量A君还钱的可能性。此处A君还钱的可能性就是因变量Y;而为人、关系、借条、家境都是自变量X。
数据思维是把“业务问题”定义成“数据可分析问题”,具体的做法就是在乱成一锅粥的业务问题中,准确定位业务的核心诉求(因变量Y),并找到影响核心诉求的相关因素(自变量X),然后利用各种数据分析工具进一步研究。
二、大数据到底是什么
大数据的准确度如何:“预测不准是常态,预测准确是变态。”
为什么对于准确度那么绝望呢?科学本质使然。统计学研究中包括了大量的相关关系,其中只有极小一部分非常稀有的因果关系,但是因果关系的重要性依旧无法取代。
●相关关系:客观现象存在的一种非确定的相互依存关系。例子:公鸡叫,太阳升起来。
●因果关系:第一个事件(因)和第二个事件(果)之间的作用关系,其中后一事件被认为是前一事件的结果。例子:按下开机键,电脑亮了。
我们经常会混淆这一对概念,甚至有些时候连相关关系都不算的事件A和事件B,由于它们常相伴发生,我们便迷信地以为两者具有因果关系,闹下不少的笑话。
因此,鉴别相关关系和因果关系这一对概念,不仅是我们了解大数据的金钥匙,也是培养科学素养——对伪科学说不——所要迈出的关键一步!
问题:这篇文案写的很好,然后今天的销量上升了,这两个当中为什么不能够建立因果关系呢?因为文案写得好,所以销量上升。
答:有两种可能。
一种是因为文案写得好,所以销量上升。
第二种可能:因为今天正好赶巧,比如:周一正好是一个好的销售日,所以销量也好。
我们在分析过程中的思路:
首先建立相关关系,怀疑是因为这样优秀的文案产生了这样的结果,怎么验证呢?用同样的套路,再写类似的文案,在不同的场景下都去测试,如果被大量地验证了,那么就是文案的问题。
这就是非常难追求的因果关系,想太深就是哲学问题。
三、人人应有数据思维
数据思维是一种必备的素养。因为生活在信息时代的我们,或多或少都会和数据扯上点关系,不具备数据思维,我们就会像不懂经济学知识炒股的人一样,容易被征智商税啊!
生活中的数据思维
事实上,生活中的大部分小事,数据思维都可以给我们启发,关键看怎么用?
首先,培养数据思维帮我们养成一种思考有的放矢的习惯:分析的目的是什么?核心诉求是什么?因变量Y是什么?
其次,搞清楚目的后,我们就能将注意力聚焦在相关的自变量X上,就不会陷入“放眼望去都是重点”的迷乱状态中。
最后,我们可以尝试最简单的分析,专业的建模暂且不说,至少可以区分一下哪些是相关关系、哪些是因果关系。
案例
以《倚天屠龙记》为例,张无忌到底最爱谁,是赵敏吗,是周芷若吗,还是殷离或者小昭?本书利用数据分析的方法,得到了答案!
第一步,把小说的主要人物和他们的称谓提取出来。
接下来,要确定分析单位,这里取的是自然段。那么张无忌爱谁这样的问题,到底怎么定义为数据可分析问题呢?
本书中从人物出场频次、出场时间、亲密程度等不同角度进行分析,这里简单说一下最重要的亲密程度分析,这是通过她们与张无忌出现在同一自然段的次数(同时出场)刻画的:
所谓日久见真情,从这一个侧面看张无忌与赵敏亲密接触的机会最多,他最有可能爱上的是赵敏。
说明:本案例详情,可从微信公众号狗熊会(ID:CluBear)获得。
数据产品化过程
1.采集因变量Y和自变量X。
2.交予专业人士分析。
3.找到相关关系。
4.形成具体动作→创造价值。
小结:首先找到可以量化的数据,其次找到我们需要去改变的因变量。然后看看XY之间是之间是怎么发生关系的,接下来后半段交给技术人员去处理。最后,产品化,成为一个算法或APP,这需要智慧。
数据思维不仅仅是创始人一个人的事,是公司上下所有人都应该具备的一种基础素养,未来我们每个人在工作中可能都需要这种“数据思维”。
参考:《樊登读书会》