2022-06-24 终篇•数据思维

image.png

有时候,跟我们的学生开玩笑说:“以后听讲数据分析的人讲课,我教你一个最捣蛋的提问题的方法。就是他讲得很好,最后你问他so what——你做完分析后你能干什么,怎么实施?基本上10个里面,有9.9个会被问惨。”

我们给大家看几个例子。第一个是什么?这是我们自己团队的讲的时候,我就问这种问题。我们曾经做车联网的数据,给公交汽车做。

公交汽车它的油耗很大,那么我们很好奇油耗发生在什么地方。很快这张热力图就会告诉我们,大量的油耗发生在公交站的进出,这个你改变不了。

那第二个事是,同样是公交站的进出,有的油耗相对小,有的就高,为什么?后来又发现,这跟我们的起步是否匀速滑行的距离有关系,这些也都是一些常识被印证了,然后一般我们的分析就到此结束了。

那么,可以问一个so what,又怎么样。你怎么把这个知识变成一个东西能够帮助公交集团,能改善它的服务?我们总不能跟司机说,樊师傅,你起步要慢慢起。

他说,“我本来就是慢慢起的,我开得好着呢,你自己觉得不舒服是你的问题”,不好弄。所以,后来我自己也没办法,跟一个朋友讲——他经常管这样的团队。

他说:“这很简单,每一个月我们就考核油耗,油耗差的那几个就罚,他自然就会来找原因。这个时候你再跟他讲慢慢起步,他就会愿意听。”

我觉得,这个如果实施了,那就变成一个把数据分析的结果真的在实施过程中,变成可操作的东西了,这是个特别好的事情,

樊登:就是还要结合管理的智慧,结合管理的手段,然后把它慢慢地变成一个可操作的东西。

王汉生:没错,这个时候有一个案例对我启发特别大。这个案例也是一个老掉牙的案例,很多的大数据上都会讲farecast(价格预测)。它讲的是什么故事呢?有一个计算机的教授,他做了一个算法,能够预测机票价格的涨和跌。那对于我来说,如果你告诉我机票看涨,我应该赶紧买票;如果看跌,我就该等一等。他通过大量的随机模拟发现,这个算法能够为普通人能够节省大概20%以上的预算,而且是非常开心的事。但是,问题是这是个平均数,那意味着有人就节省了,有人就赔了;有人这次节省了,下次可能就赔了。

在用户的体验过程中,很遗憾的事情是这样的,你给大家创造价值他就很开心,但是也很快可能会把你忘掉。给大家创造不愉快的体验的时候,大家会形成强烈的情绪反映在对你不利的媒体和各个角落里。这时怎么办?

我们有两种解决的办法,一种是我们看到很多的学者,很多的企业努力做的就是我提高预测精度,这是一个深坑,我个人是非常不看好的。但是,在这个领域里面,有不同的学者不同的看法,有些乐观的学者会认为,终于有一天我数据量非常大,计算能力超级强,以至于你的喜笑颜开我全可预测,这是一种看法。那你就照这个方向努力。可能有点信仰问题,我个人根本不相信这个。我相信诸行无常。我觉得,有预测的东西就一定有反预测的东西出现,所以,我们说这个事情,在给定X给定Y的情况下,给定时间和场景的情况下,能预测多准是有上界的。这个上界是天说了算的,不会通过任何的技术上的改变而有任何的改变,但不代表我就没有意义。

因为如果你胡蒙乱猜在这儿,我改善到这儿,改善的这个margin(范围)不大,但这是很可能可以通过技术手段改变的,那怎么办?

farecast(价格预测)给我们的最大的启发,是通过一个产品上的商业模式上的改变,让这个东西体现它怎么改变的。他说,“反正我预测不了特别准,那我们给你做一个保险产品,咱们对赌,你给我9块9毛9买一个保险,我再给你出一主意。你赚了自个儿留着,赔了我给你,我赔偿差价”。他就把这个margin(范围)从一个平均水平变成了一个每个人都可以体验到的东西。

所以,我自己的一个信念是什么?在数据产品商业化的这个过程中,我认为,我们要核心思考的事不是精度无限制地提高。我经常讲一个特别负能量的俗语,我说,预测不准是常态,预测准确是变态,一定是错了。我自己的职业生涯中从不失手,看到预测过准的东西,十有八九是错了。我们要思考的是,我们在预测不准,但是有改进的前提下,怎么样通过产品和商业模式上的创新,让更多的人能够体会到它的美好,这个事是努力的方向。

樊登:类似的案例我听过是,有一个人在路边喝咖啡,然后他就看到下雨了。下雨了以后就好多人在抱怨说,完了,今天这个生意又糟糕了。他说,这有意思。他就去研究下雨以后,到底对多少人的生意有影响。然后,竟然通过数据的分析和精算出了一款下雨险,让这些商家、个人买。你买了我这下雨险,如果下了雨赔给你,但如果没下雨我就赚钱了。这就是从一个数据慢慢地变成一个产品的过程。

王汉生:而且它最巧妙的地方是,它即使是预测下雨,我相信它再准也准不过中央电视台,它的资源有限。但是,它可以准到一定的程度,实现一个平均水平上的盈利,然后通过一个保险产品把这个东西实现掉。

樊登:它接受了不准确,把它量化成了一个数字,然后用一个产品来抵消它。

王汉生:没错,您说得特别对。所以,在数据这个模型的产品化的过程中,一定要注意一个问题,我们要认可和接受它的不准确。如果我们的产品设计是假设它超级准,那这一定是不可能的。

樊登:那现在我们老讲大数据,说大数据跟过去的统计最根本的区别就在于统计是抽样。我抽了100个样、抽了50个样。大数据不抽样,所有的数据都在这儿。所以,那不是准确度就应该是非常高了?

王汉生:樊老师,我得为我们学科说几句话,这是大家的一个误会。统计学关心的核心问题是对数据的分析、建模以及采集的整个流程。它没有在任何一个角度说要定义统计学关心的问题只是抽样,这是第一个问题。不是这样的。所以,大数据在我们看来,是统计学研究的一个自然而然的一个目标,而且事实上统计学对它贡献非常大。

第二个问题,至少在我目前的职业生涯中,从没有看到过一个场景说,大数据可以代替抽样的贡献。最典型的,特朗普竞选总统的时候,所有的大数据都认为希拉里会赢。但是他赢了,为什么?因为我们来自于——比方说,Facebook的意见可能不能代表一大批当年退伍老兵的意见。所以,任何情况下,我们看到腾讯的数据,那只是腾讯用户的数据,阿里的数据永远是阿里用户的数据。它能不能代表一个更广泛的群众,是不清楚的。

第三个问题,我一直认为越是大数据抽样越重要,第一个要抹平不必要的误差。第二个节省计算量。我们现在有一个误会,认为计算机很厉害了。计算量就不是问题了,其实不是的。我们看一下我们的CPU它改进的速度,每年它是线性增长一点点的。但是,我们的存储增长得非常快,那意味着我们变量的个数也是差不多是同样甚至更快的速度在增加。

增加的过程中,我们极少数有模型和算法,它的复杂度是线性的,也就是说我增加一倍,那么计算量要增加四倍,然后我数据增加十倍,我的计算复杂度要增加一百倍甚至更高。所以,越是到这个数据量大的时候,这种smart (智慧)的computation(计算)会越来越重要,而且大量的巧妙的计算是依赖于抽样的智慧的。

樊登:数据太大了以后,的确会造成特别大的资源浪费和包括环保问题。我听他们讲是哪个公司,就每年的电费就是好几千万美金,电费就这么多。所以,像您说的,如果用抽样的方法,能够有效地去提高它的效率的话,那这门学科也是会一直这样存在下去的。

还有一种,就是您也批评过这种大数据的误区,说大数据强调的是相关关系;然后我们过去做统计,我们是想找到因果关系。有的专家就讲以后相关关系最重要了,因果关系不重要了。这个您怎么看?

王汉生:这个可能樊老师刚才说的也不是非常准确。统计学关心的是数据分析问题,其中包括因果关系,也包括大量的相关关系,它都关心。而且事实上,能够建立因果关系的机会特别少。例如,我们经常能看到是在临床实验中。所以,事实上统计学研究的大量问题是相关关系,但是这不代表因果关系就不重要了。

事实上,我认为因果关系永远都是最重要的。比方说,大数据表明公鸡一叫,太阳就升起来了。把鸡杀光,太阳就不起来了吗?那这就是相关关系而已。这时候我们看到一个现象是什么?如果我的这个数据应用的场景,主要是为了做预测,我想预测什么时候太阳该起来了,这行。我看到鸡一叫太阳就起来了,这是预测。

那如果说,我们在实际应用中,我是想有动作,比方说,我想改变明天太阳升起的时间,你会发现这时候相关关系就怂了,杀鸡不管用。

我们再回到咱们樊登读书来,比方说,我们明年的一个重要的任务,要增加多少粉丝量,我们需要的是什么?我们需要的是动作。我到底应该做什么才会产生这样的增量?所以,这时是要因果关系。

但是因果关系极其奢侈,我们在非常少的条件能看到。所以,大量的数据分析,事实上我们是通过相关关系在尽量地把我们的注意力聚焦到一个很小的范围内。然后剩下的真的是用点主观的判断,觉得也就差不多了。

所以,这里面有点绕脑袋,一方面统计学研究了大量问题是相关关系,但是我们从不认为相关关系就能把因果关系给替代掉了。

樊登:那就像我说,这篇文案写得很好,今天的销量上升。这两个当中为什么不能够建立因果关系?因为文案写得好,所以它上升,有两种可能。一种是因为文案写得好,所以今天销量好;第二种,因为今天正好赶巧了,比方说,礼拜一,是一个特别好的销售的日子,所以它销量也好。

我们在分析过程中的思路是这样的,我们首先建立的相关关系,怀疑是因为这样的优秀的文案产生的结果。这是一个怀疑。那么,接下来怎么验证?接下来,我用同样的套路再写类似的文案,在不同的场景下都去测试,如果大量地被验证了,我会觉得确实由于是文案的原因。

樊登:这就是您说的,特别难以追求到的因果关系。

王汉生:非常艰难,这个问题不能想太深,想太深是哲学问题。

樊登:找到这些因果关系以后,就形成了一个企业的方法论,工具和动作,这就是数据思维的一个基本的架构。您在这本书里边有很大一章节在写回归分析。回归分析,我们上数学课的时候学过这个词,现在忘得差不多了,你给大家用通俗的语言讲讲什么叫回归分析?

王汉生:首先还是这个问题,每个人有不同的定义,那我说我的定义是什么。在我看来只要有Y和X的都叫回归分析。那有Y和X之后,我们一般在大学学习中,第一门线性回归分析课,会讲一个线性模型,那么现在的计算机技术更好以后,我们会有大量的非线性方法。其中包括非线性模型、非参数模型、机器学习、深度学习算法。在我脑袋里统统都算回归分析,这是一个技术的层面。这些我还不是最感兴趣的,我最感兴趣的还是刚才说的在道的层面去做回归分析,我把它认为是一种思想方法。它能够帮助我们把一个业务问题迅速地定义成一个数据可分析问题,从那个位置开始往后都是纯技术的。

樊登:我听您讲完这意思,就是我们反正也是听不懂,所以不需要我们懂。

王汉生:我觉得不需要。我是觉得我们是从数据到价值这个通路,它们有一节一节的。我们就前一节,可能是首先要理解业务和数据这种关系,把业务问题变成数据可分析问题,这一步是不可或缺的。

第二部分,就是比方说机器学习,各种各样的回归模型,还有深度学习的算法。它是从这里解决到下一节,这两节我觉得都很重要,哪一节都是不可或缺的。但是在市场上,我们看到对这节关注特别多,对这节关注特别少,而这节存在的问题体量非常大,这部分相对要少。

樊登:所以您写《数据思维》这书的目的就是为了提醒大家说,其实建立前期的这个思维是很重要的,后边那部分是专业人士干的。

王汉生:所以,这本书事实上就是两种人都可以尝试去看。一个是我想理解它整个的思维方式,那么不涉及到数据分析的计算,另外一部分人像我们自己,还有我们的学生研究生的团队。那么,后面技术这一部分,是每个案例后面是配着数据和代码的,所以他们也需要学后面。所以,我自己的看法里面,这两部分都很重要。

樊登:所以,看这本书的人,就是找能看懂的部分看就行了。看不懂的部分,交给北大的研究生们看就行。最后,给大家普及一下大数据的基本常识,因为很多人都老听大数据这个词,都觉得很有意思很神秘。比如说,谷歌一大堆数据放在那儿,说只要大家搜这个词多了,那感冒就来了。这种大数据跟老百姓有什么关系?

王汉生:这是一个特别好的问题,你说,我们天天都在谈大数据,里面充满了那么多好玩的故事,跟我们老百姓真正相关的特别少。所以,如果我们把老百姓也看作一个自然成长的个体,我们希望将来为自己、为社会创造价值的话,我觉得需要的是最朴素的一些数据价值观和它的这种方法论,那么这个价值观正好是《数据思维》里面想去强调的价值观。

我们对数据的理解,首先我们要理解分析的目的是什么,我们要先问这个问题。这个问题都不清楚可能就变成一个学校里的作业了,然后有了目的之后我们再问:我的业务分析的核心诉求中,Y是什么,X是什么,能不能梳理出来?那个变量带来的改变目标又是什么?那么,Y,我们把它叫作因变量,它是业务最核心的诉求。X是它相关的解释性的变量,我能不能梳理出来?如果能够梳理出来,然后我在这上面可以尝试一些最简单的分析。它能够带给我们一些什么样的价值?我们可以尝试慢慢地去做。

时间长了,你会发现生活中处处都是回归分析。我经常有时候跟我们同学开玩笑。我给大家看一个我的自己的银行电子账单。那是我在美国访问的时候——那时候访问了大概五六个月,有一个电子账单,上面的广告请我去万达看电影,去吃汉堡包。我经常开玩笑说:“我特别喜欢看电影,相当喜欢万达影院,但是太远了。我当时是在美国。”

我说,这里面就一个很标准的这个模型中,可能是个失败的回归分析。这个广告是电子版的,个性化广告推送过程中,它缺失了一个重要的X变量。就是我最近一次刷卡到service provider(服务商)位置之间的距离。如果有这种数据思维,回归分析的思想的话,你一开始加进去,可能发生这种场景的机会就会被避免。

樊登:也是为了提高整个社会的精度,让我们减少一些浪费和无谓的损失。那我是大致听懂了,就是数据思维有这么三个方面。我们需要首先找到可以量化的数据,然后找到我们需要去改变的因变量,然后看看它们俩之间X 和 Y是怎么发生关系的,接下来,我们后半段交给技术人员去帮我们做处理。

王汉生:后半段它可以建立一个模型,但最后我们要把它产品化 ,让它成为一个流程或者是一个算法也好,还是一个可体验的A P P也好,这个时候还是需要比较大的智慧的。

樊登:那这个现在讲明白了。那么,对于比如说我们会员里边好多正在创业的企业家,中小企业者刚刚创业,他们应该做些什么事,往这个方向前进?

王汉生:我觉得我们按照数据思维的基本的框架。如果我们正在创业,我们首先问第一个问题:我这个创业的方向,数据是不是能帮上你很大的忙,对你重不重要?

事实上,我们不能排除很多场景数据也许在可见的方面,帮不了太大的忙,那我们必须得承认,这种现象是存在的。也许我觉得就probably(可能)不用太操心了。那如果认为在我未来数据将成为自己的创业项目最核心的资产的话,还是涉及到我要对我自己的业务梳理得很清楚,把我的业务中的Y和X一定要梳理得非常清楚。在这个过程中我们要尽量地保证Y和X的非常高质量的供给,不至于被一家垄断。最好是自己能生产,长时间一积累才好。

这个听起来很抽象,我们看一个具体的例子还是车联网。车联网的数据关于这个司机而言,它能够非常了解这辆车的驾驶情况,但是它如果想成为一个优质的保险产品,它需要建立一个模型。什么模型?从车联网的数据能够预测你未来是否出险,出险是它的Y。这两个数据放在一起的时候,才可能变成一个完整的技术问题是后面的专家去做,如果这两个缺任何一个都是不可能的。

但是很遗憾的是,车联网数据是由车联网驾驶行为数据,一般而言,它没有出险的数据。出险数据是在保险公司那里。而我们的保险公司一般是非常强势的。

如果说,我们在这个方向上创业,作为老大的脑袋里要时时刻刻记住要拿到这个保险公司的Y,这个是战略问题,这不是个简单问题。所以,你在这个层面上有思考就好。

非常有意思的发现是,同样的这个问题从小汽车变成大卡车的时候故事全变了,为什么?大卡车都是物流企业,物流企业它自己知道哪辆车出没出险,所以同样的数据,不仅保险公司有,物流企业也有,而物流企业正好是你的合作伙伴,它有很好的配合的意愿把这数据给你,所以同样是一个数据创业的项目。

你会发现在某一个细分行业里,可能你有一部分的数据资源的获得是非常有挑战的,不是不可能,一定是极具挑战的,而另外一个方向上,可能是很容易获得的。那么,如果我们创业在这个过程中,要尽早地思考这个问题,不要走到那儿跟前才发现我们要拿的这个Y或者X,是动了人家的核心利益,那是不可能给你的,那个时候就太晚了。

樊登:像我们樊登读书会其实跑着特别多的数据,但是好像没有好好利用过。我们没有认真地去分析每一个用户的使用习惯,像我们这里边可采集的数据点有哪些?

王汉生:樊老师,我自己有一个看法,首先我们对数据的商业价值可能在大量的媒体上被放大了,我们还是要承认一个现实,我认为在大多数场景下,我们是看不到数据能产生特别了不起的效果,首先这是个非常谦卑的起点。

在这个基础上再说我们数据到底能产生什么价值。一般我的习惯是说,倒着我们的业务线去问,那我们今年的预算主要花在哪些方向上,肯定都是希望有产出的。比方说,我们是有多少的预算是花在了广告,或者某些销售投入上。那这个时候我的数据的采集点,就要围着广告和营销的手段这些点去采集。比方说,我在哪些地方组织了什么活动,它的参与的人是多少,地理位置是多少,它的人群是什么样的。在这样的这个过程中,把数据的采集点采集下来,所以,它的所有的采集点是围绕着我的业务线来执行的。

樊登:我觉得您这个态度特别好,就是作为一个统计学、研究数据的教授并没有把数据神话,并没有说大数据特别了不起,大家要紧张起来、要小心。你就坦然地承认有的数据它也挣不了钱。所以,给我们普及了数据思维的最基本的框架,我再给大家梳理一遍,看我说得对不对?

首先,是要知道所有能够被电子记录的东西才被称作是数据,然后通过它能够形成具体的动作产品化才能够创造价值。所谓的数据思维,就是了解从数据到价值之间的这个过程。然后把我们整个业务当中的因变量,就是你希望改变的那个Y找到,对它所影响的X都有哪些。把这些数据采集出来之后,我们交给专业人士去做回归分析,找到它们的相关关系。回归分析之后,就能够得出哪些东西的影响更大,哪些东西影响更小,之后形成一个具体的动作,就叫产品化的过程,从而创造价值。所以,真的得培养很多这方面的人才。

王汉生:因为写这本书的时候,也有一个背景。我经常被问到一个问题,说汉生老师,我们公司经常会碰到两个选择,有的朋友是说我们应该在公司里面做一个大数据部,一个专业的职能部门。有的朋友是说,“也许我们应该让数据分析师进入各个职能部门,到底是哪一种方式好”?我想了很久,有一天我明白了,我说不出哪种方式好,但我知道我们一个优秀的团队,尤其是数据成为重要资产的企业,数据思维应该是从上到下全部都得有。

因为如果说我们的销售,讲不清楚我们的数据产品之于别人的商业价值,无论是收入也好、支出也好、风险也好,那我怎么去售卖?在售卖过程中,我们的销售常常做的一个事情,就是过度承诺。过度承诺之后,因为自己不懂,回来之后,后面的人实现不了,两边就开始扯皮打架。

我们的产品经理有了数据思维会知道我怎么样让我的数据价值能够在一个图表和dashboard(商业智能仪表盘)上表达出来。我们的企业的老大要知道,就像您刚才问我那个问题,我们要让樊登读书做到更好,我的数据上战略性的动作是什么?别告诉我什么数据都要采集,那是有成本的,你应该告诉我说哪些环节上的数据可能之于我现在的核心业务,是最有价值的,我就采那些就行了。哪些是不足的,我要通过什么样的BD(商务拓展)的手段,形成战略性的合作能够获得的。所以,从上到下都需要这样的东西。当然,技术人员就更需要知道后面所有的技术方法,包括我们的程序代码可能都是需要的。

樊登:所以,这让我们知道数据思维不仅仅是创始人一个人的事,是公司从上到下所有人都应该具备的一种基础的素养。也许将来有一天,它会成为高中的一门课,让所有的这些中学生都能够有数据思维,能够知道用统计学的方法来更确切地了解这个世界。

王汉生:是的,也许不一定是一种课,课也是一种形式。另外一种形式就是润物细无声,可能是在各个的课程里面,大家都涉及到这些东西。

樊登:非常有可能,您的工作特别有意义,也感谢您给我们传递这么好的知识。感谢大家收看今天的作者光临,我们下周再见,谢谢。
image.png

你可能感兴趣的:(2022-06-24 终篇•数据思维)