读书笔记—《大数据时代》

大数据时代

引言部分

作者首先举了一个例子:Google根据人们对于“咳嗽和喉咙痛哪一类药物有效”的搜索,先于卫生防疫部门发现流感即将爆发的区域——在过去这些只能在流感爆发事后才能统计。

第二个例子是说有个哥们儿坐飞机,发现自己提前一个月预订的机票反而比邻座提前两天买的机票要贵出几百美元。后来他忿忿不平,干脆自己开了一个公司,通过对十几亿条机票销售的数据进行分析从而预测航空公司票价走势,进而对旅客进行机票预订的时机推荐,据说平均每张机票能为旅客节省50$(航空公司得恨死这个哥们儿)。这家公司叫做farecast,后来被微软以1.1亿美元的价格收购,并入了必应(bing)搜索引擎。(这趟航班坐的真值啊。。

通过上述两个例子,该书作者引出了对于大数据的定义,并通过几个方面进行阐述:

1. “大数据”一词最早诞生于天文学和基因学领域(一个宏观、一个微观),最早出现在正式文献中应该是2008年(“自然”科学杂志);

2. “大数据”如何量化?Google每天要处理24PB的数据;Facebook每天更新照片超过1000万张;Twitter每天发布超过4亿条微博;(这些都是截止到这本书出版,也就是2012年的时候,5年过去了,这些数字必然有了惊人的增长

3. “大数据”时代增长的趋势如何描述?作者用了两个年份的两个数字:在2000年的时候,地球上的数据有75%是“模拟数据”(存储在书籍、报刊、黑胶片等介质上);在2007年的时候,这个比例仅剩7%,其余的数据全部为“数字数据”(说白了就是计算机存储的数据);(ps:说到这里我想起了一个对大数据时代从另一个角度的描述:“在过去的一个小时之内,地球产上产生的数据,相当于从人类诞生以来到2003年所有数据的总和”);

基于上述分析,作者给出了引言部分的关键词,也就是大数据的核心——预测(人工智能、机器学习、个性化推荐)。

当然,这种预测,也有着特定的局限性——在相当一部分场景里面,通过大数据分析可以得出“怎么做”,但往往无法确定“为什么”,因为怎么做本身比为什么要重要得多。比如对于传染性疾病爆发区域的预测,只要告诉防疫部门疾病将在哪个区域爆发即可,后者无需知道为什么,采取行动即可。

大数据时代的思维变革

首先需要变革的,是样本。在“小数据”时代,因为技术能力无法支持,所以很多场景(比如人口普查),采用的都是样本数据。但样本数据存在一个致命的弊端:“无法得到微观细节的信息”。从统计学来讲,采样的随机性比样本数量更加重要,换句话说,当样本数量到达一个基本的要求时,随机性会显得尤为关键;这就造成了采样统计的不确定性及不灵活性——书中举了一个例子,比如要调查美国大选的某位候选人的民意支持率,原本是调查西部选民,但如果调查范围从西部选民缩小到“西部的富裕女性选民”,那么原来的样本数据基本无法使用,因为采样随机性无法保证。用书中的一句话总结——“随机采样就像模拟照片打印,远看很不错,一旦聚焦到某个点,就会变得模糊不清”。

在大数据时代的统计分析,“样本=总体”。但这里的“大”其实是相对的,作者举了一个通过全量数据统计日本相扑运动员比赛舞弊的案例(这个案例曾在《魔鬼经济学》中出现过)——所有的比赛数据的量可能还不如一张数码照片,但是通过对这些全量数据的分析确实能够发现采样分析发现不了的问题或规律。类似的还有银行监控某一类信用卡的全量跨境汇款记录,上文提到的farecast分析某一条航线一整年的价格数据等。

第二个改变,是要“拥抱混乱”,也就是能够容忍数据的格式不规范、内容不准确等等,但所有的这些都有一个前提——数据的体量要足够大。因为,如果只能接受精确的数据,意味着95%的数据可能无法被收集处理(就好比I.B.M、Watson Labs、Internationale Business Machine、甚至中国码农口中的‘18摸’这些词语都能够代表IBM这家公司)。作者还列举了其他的一些例子,比如谷歌的翻译系统,摒弃了传统翻译软件采用的亿级词汇库,取而代之的是从网上收集来的万亿级别的数据(包括各种语言的对照翻译文档、网页等等),虽然这当中包含着许多的语法、拼写错误等等等,但是,庞大的体量完全掩盖了精准性不足这一缺点——这也是为什么谷歌翻译是目前公认的最好的机器翻译系统(没有之一)。

同时,为了处理非结构化的数据,技术方面也出现了巨大的变革(很难说谁先谁后),也就是数据的存储从原来的“关系型数据库”(SQL)逐渐过渡到“非关系型数据库”(No-SQL),也就是以Hadoop为代表的非结构化数据存储技术。

第三个变革,是变得“更好”。所谓的更好,是指通过大数据的分析,在混沌中发现事物的相关性,从而进行大数据最重要的一项功能预测。在这里作者列举了几个例子:亚马逊的图书推荐系统通过优化推荐算法解散了书评团队(因为机器推荐更加有效而且成本更低),同时据统计推荐算法给亚马逊带来了至少三分之一的营业额提升。在这里多说一句,我本人一直是亚马逊的粉丝,有两部kindle,绝大部分的纸质图书都是网购自亚马逊,个人认为亚马逊的图书甚至商品推荐系统是电商中做的最好的。举个自身的例子:2015年的时候我分别在去哪儿预定了飞厦门的机票、在携程预定了厦门的酒店,但是当天下午浏览亚马逊网站的时候该网站给我推荐了一本厦门的旅行攻略(我相信里面的算法不仅仅是根据用户浏览器cookie的粗暴推荐那么简单,如果是的话,应该给我推送的是酒店信息或者机票信息)。除了亚马逊,作者还提到了沃尔玛和Target在零售方面的大数据应用,沃尔玛的案例是通过分析飓风季人们采购物品时各种物品销量的变化分析出蛋挞这一零食在这个时候更受消费者青睐从而将蛋挞和“飓风用品”(飓风用品是个什么鬼。。雨衣么。。)放在一起增加销量(有点类似网上流传已久的‘啤酒+尿布’的案例);Target做的更加具体,根据女性对于婴儿用品的采购数据,推测用户预产期,从而在不同阶段给用户推送不同商品的折扣券,据说效果非常好。(这类案例是当前大数据变现的一个最为经典的场景)

相关 VS 因果。作者针对大数据的特点,结合大量的实例说明了大数据时代对于事物分析的一大特点——更加关注数据的相关性,而不是因果性,或者,更确切地说,是简单的因果。比如二手车的残值案例,通过对大量二手车分析,发现橙颜色的二手车残值更高(没觉得。。),但不能简单的将二手车的残值高和橙色归类于因果关系,因为有可能橙色车主的性格更加爱惜车辆、有可能因为橙色更加醒目减少了剐蹭或者其他事故的几率等等。。但大数据分析的特点是,根据数据的相关性得到结论,而结论的准确性往往比因果逻辑更为关键。而且就大部分商业场景而言,得到原因比得到结果的成本更高。作者举例:美国一家信用卡公司得到一个用户收入增长的结论只需要1美元,但如果想弄清楚背后的原因,至少需要花费10美元。简单的说,相对于传统的分析,大数据分析更关注“是什么”,更加不关注“为什么”。

大数据时代的商业变革

商业变革·数据化,大数据带来的商业变革,首先就是数据化,或者通俗的说,就是“量化”。作者首先列举了一个因伤退役的美国海军的例子,该海军因为交通事故导致行走不便而无法在舰艇上服役,后来被调到文职部门,通过对于大量的海军航海日志的分析得出了优化海军航线的宝贵结论,同时设计了可以讲航海数据量化输入的表格——通过这些表格收集到的数据又进一步丰富了航线信息从而形成良性循环。通过这个例子作者引出本章节的论点在信息技术(Information Technology,也就是IT)时代,过去人们更关注“T”,现在,开始更多的关注“I”,也就是如何将信息转化为数据。

接下来的一个例子是日本的一个汽车行业专家通过在座椅上放置传感器,来收集驾驶者的各项信息,然后将这些信息数据化——这些数据经过分析后,能够得出当前驾驶者是否为车主本人、是否疲劳驾驶等等一些列结论,这对于汽车的防盗、减少交通事故概率等有重要的作用。在过去,这类因为没有数据化而被丢掉了。

当文字变成数据,谷歌正在进行一项伟大的工作,就是将世界上所有的文字“数据化”(这里的数据化不仅仅是变成电子数据那么简单,而是在变成电子数据之后还能够被用户检索和使用到,这里的‘用户’包括人和计算机)。这项工作将建立起一个无比庞大的“亚历山大电子图书馆”,其贡献可想而知。同谷歌类似,亚马逊针对可供人阅读的内容做出了文字数据化方面的很多努力,包括kindle及大量的电子图书。

当位置变成数据,UPS通过收集快递车的行车路线数据,通过分析运算进行优化得出更好的行车线路(包括减少左转、走更加畅通的路线等等),通过这个项目据说尽在2011年一年,就少跑了4000万公里的路程,进而节省了300万加仑的燃油和3万吨的二氧化碳排放。

其实对于用户地理位置的收集几乎大家所知道的每一个厂商都在做,而且主要是基于手机的操作系统,IOS或者android都一样。举个例子,我身边一个同事刚换了华为手机,在使用一段时间之后,每天下午5点左右,该手机操作系统就会自动推送一条消息,内容是他大概还需要多长时间到家。。背后的逻辑我想应该是手机通过手机用户的地理位置数据,从而推断出当前用户在家还是公司,然后结合每天路上消耗的时间及线路信息,推断出用户常用的交通方式然后在根据当前的交通状况推断出用户大致能到回到家中的时间。。细思恐极。。

当沟通变成数据,世界上最大的社交王国Fackbook的建立就是沟通变成数据的伟大产物。还有Twitter,已经有惠普实验室的科学家根据微博数据来预测好莱坞电影的成功与否(个人觉得这里的‘成功’应该指的是票房),这个模型已经经过了市场的验证,而且再一次证明了大数据时代“只求结果不问原因”的特性——数据的相关性已经超过了因果性。

最后,“世间万物皆可量化”,这是一个伟大的构想,也是大数据发展的终极目标之一。当然目前我们离这一步还差的很远。试想一下,如果手机能够根据你的步频步速自动解锁、医疗机构能够基于用户的地理位置和环境信息及时提醒用户预防哮喘发作。。恩,真的是一件很酷的事情。

商业变革·数据价值。能够认识到数据价值的第一个关键,是数据的再利用。现在已经越来越多的公司意识到了这一点。亚马逊曾为AOL电商公司提供后台技术服务,但精明的贝索斯显然不是为了这份技术外包的合同,amazon真正的目的是收集后台的数据以反馈他们自身的推荐系统。与此类似,谷歌一开始想在自身的搜索系统中加入语音识别服务,但这个庞大的搜索帝国自身并没有这类服务,于是谷歌选择了和当时的语音服务领导者Nuance公司合作,当后者还在为签下了谷歌这样的大客户沾沾自喜的时候,谷歌利用收集到的语音识别录音数据,自创了一套语音服务系统。这就是数据再利用的典型案例。与此类似的,还有移动运营商手中掌握着大量用户的位置信息(通过基站的接入),现在有些运营商已经不满足于仅仅通过这些数据优化自身基站建设,在国外已经有运营商提供有偿的匿名用户地理位置数据服务。(我个人对此持保留态度,就算匿名,这个行为还是有泄露用户隐私的嫌疑)。

数据的重组及可扩展,数据的重组本质上也是发现数据或者说事物相关性的一种途径,比如试图发现吸烟、使用手机和癌症发病率的关系(前者被证实相关,而后者无关);数据的可扩展,指的是随着时代的发展,数据在原有的基础上被赋予了新的用途,比如超市中的监控录像,原本是用来监控是否有用户偷盗商品,但现在越来越多的商家通过分析画面中的顾客在货架停留的时间等行为来指导销售策略。

数据的折旧及数据废气,首先,数据也是会“折旧”的,过期的数据在某些场景下会起反效果,比如如果亚马逊根据读者十年前的购书记录(在这10年间可能读者的阅读兴趣发生了很大的变化)来给读者推荐新书的话,非但不会增加销量,反而会让读者觉得受到了垃圾营销信息的骚扰从而质疑亚马逊的推荐系统,这无疑是有损公司形象的。至于数据废气(这个词真的是我第一次听到,有点脑洞小开的感觉),在“废气”的循环利用方面,谷歌做到了极致。这里所谓的废气指的是用户在搜索框中输入的拼写错误、语义含糊不清的数据(也就是俗称“搜索之外”的数据),谷歌巧妙的把这部分数据收集了起来(通过“你要找的是不是XXX”这类修正提示),不断完善自身的搜索系统,形成良性循环——一方面根据用户点击的数据反馈优化自身的搜索修正系统,另一方面通过收集这部分数据完善自身的自动语法拼写检查系统(这个系统比微软应用于Word办公软件中的同类型系统牛逼太多)。

数据的开放与数据估值,目前数据管理的整体趋势是趋于开放化,尤其是一些政府部门掌握的数据。关于数据估值,越来越多的公司开始将数据纳入公司的无形资产范畴。书中的一个典型例子就是Facebook——根据会计公司的计算,Facebook的估值是63-66亿美金;但Facebook在纳斯达克上市的时候,其估值达到了惊人的1040亿,其中无形资产,也就是用户数据贡献了绝大部分的估值。(现在来看,用户=价值的这个说法已经被越来越多的人,尤其是投资人认可;尤其是从2015年下半年开始,互联网的流量红利慢慢消失殆尽,平均获取用户的成本成几何级别成长,从原来的几分钱到现在的平均一个活跃用户的获取价值从100元到1000元不等,这也意味着“烧钱”的玩法在互联网圈里逐渐消失,一方面能玩得起的公司越来越少,另一方面靠烧钱获取的用户留存转化率太低)。

大数据价值链的三种类型,在大数据领域,典型的公司可以分成三类:

第一类,大数据掌控公司,或者叫基于大数据本身的公司。这类公司本身有数据,但是在数据价值的二次挖掘方面做得很少,比如Twitter。作者在这里提到了ITA这家机票预订公司(ITA是当时的全球第四大机票分销商,前三名分别是Amadeus、Travelport和Sabre,这个状况目前已经发生了改变,ITA后来被google收购,目前全球第四大机票分销商是中国的Travelsky),ITA本身并不对机票销售的数据做任何的挖掘分析,而是将这部分数据“销售”给本文一开始提到的Farecast这家公司进行机票价格的走势预测。根据作者的分析,原因一方面是ITA已经满足于“既得利益”,所以没有动力对这部分数据进行二次挖掘;另一方面,迫于自身角色的敏感性,ITA不想暴露(起码不想直接暴露)任何跟航空公司销售利润有关的信息——所以才有了Farecast的可乘之机。

个人感觉,航信其实就属于上文提到的“大数据掌控”公司,我们只是替航司“托管”数据,但并没有有效的使用这些数据获取二次价值,当然,其中也有一些航信自身角色的敏感因素。

第二类,大数据技术公司,这类公司的特点是,具备数据的二次分析的技术能力,但本身并不掌控任何数据。比如埃森哲,文中提到的例子是埃森哲,埃森哲曾经为美国某一城市的公交车安装传感器,通过传感器收集到的数据预测公交车可能抛锚的里程,进而将该市公交车的报废更换周期从40万公里延长到50万公里,为相关部门节约了一大笔车辆的支出。在这个案例里面,埃森哲只是提供了技术服务——本身并不拥有数据,也没有从数据的使用中获利。

第三类,大数据思维公司,Farecast是这类公司的典型,本身并不拥有数据,但是能够通过获取到的数据进行挖掘分析从而获得数据的二次价值。类似的还有飞机准点预测网站FlyOnTime和FlightCaster。利用大数据思维,有的时候可以使一些“夕阳”的产业焕发新的活力(比如新闻行业,这里我想到了今日头条,短短两三年之内今日头条能够和美团、滴滴合称为‘TMD’为例互联网阵营第二梯队,相信背后一定有大数据技术作为后台强有力的工具,尽管我觉得目前今日头条的推荐算法还很渣。。

在这里不得不提的就是,有一些公司,其实是上面提到的三种类型的综合体(没错,又是谷歌和亚马逊。。)。但谷歌和亚马逊其实也有一些不同之处,谷歌注重的是数据价值的全面利用,比如谷歌的街景汽车上街拍摄的时候,大家都以为谷歌是为了做街景地图,其实这些数据还有一个重要的用途就是用于谷歌的无人驾驶汽车的研发。亚马逊也类似,但亚马逊往往更注重数据的一次价值,对于数据的二次价值,往往只用于额外的价值获取。比如亚马逊也会收集用户购买商品时浏览网站的习惯,但仅将这部分数据用于优化推荐算法和商品销售策略,并不会根据用户购买医疗用品的频率来预测流感的爆发(我理解作者的意思,是谷歌相对更有社会责任感,更加开放,而亚马逊商业的味道更浓一点。但我其实觉得这个跟创始人的风格有很大关系,贝索斯曾经说亚马逊赚来的所有的钱除了慈善事业之外都会用于探索宇宙和外太空,这点和特斯拉的创始人马斯克有点像;而Facebook创始人扎克伯格曾提到过他的终极目标是‘消除人类的疾病’,看来没有点说出来吓人的宏伟目标,还真不好意思当硅谷的大佬。。)。

数据中间商,这种类型的公司是大数据时代的全新产物,这类公司的特点是本身并不产生数据(或者说不仅仅依赖于自身产生的数据),而是收集各方面的数据,将这些数据综合起来,通过分析给出决策。例如交通数据处理公司Inrix,他们本身发布了一款手机app,该app能够让用户免费使用,给用户提供交通线路规划(个人理解类似国内的高德),但Inrix会在后台收集用户的行车线路、时间等数据,然后结合其他方面比如天气、时节等数据进行综合分析, 然后将分析得出来的结果有偿提供给其他公司。这种策略往往是这类中间商的惯用商业模式。但目前的趋势是,越来越多的人意识到了大数据的价值,越来越多的公司具备了大数据思维,所以在这方面可以想象的空间也越来越小。

同时,大数据的发展还带来了一个现象:传统行业的专家有些在趋于消亡,而新兴的“大数据专家”则越来越受欢迎。作者通过球探发现棒球明星的案例来说明人在做决策时是如何的感性,但计算机完全不会范这种错误——它们仅依靠数据,经过验证,这比人的判断要准确,所以大量的球队开始使用计算机通过数据发现有潜力的球员,球探这种需要经验的传统领域的专家自然越来越不受人待见。当然,传统行业的专家也不会完全消亡,只是他们的地位和大数据专家会慢慢的有一个“此消彼长”的过程——前提的大数据专家足够“专”,也就是真的能够解决实际的问题。

大数据决定企业竞争力个人认为目前来看“决定”似乎改为“提升”更合适。在大数据时代,一个公司的技术配置和规模变得不那么重要(这点我不认同,规模依然很重要,用户的规模、交易量的规模甚至基础设施的规模依然重要,要不然你以为阿里每年的双十一当天那几百个亿的交易额后台仅仅是靠优化算法来支撑的?!)。大数据时代,两类公司会慢慢占据优势,第一类是像谷歌和亚马逊这种行业巨头;第二类是“小而美”的小型数据公司(因为如果做得足够好,很快就会被巨头并购)。但总的来说,中等规模的公司在大数据方面不具备优势。另外,随着大数据技术的普及,具备大数据技术的公司的竞争力长远来看是慢慢下降的——因为大家都在使用相关的技术,先发优势慢慢就不存在了。

大数据时代的管理变革

整本书到这里,终于提到了大数据的潜在弊端了。

首当其冲的,是人们的隐私我个人一直认为,在大数据时代,根本毫无隐私可言。用户信息泄露的案例屡见不鲜:2014年携程泄露大量用户隐私信息(包括姓名、身份证号、信用卡号、入住信息等)、同年著名技术社区CSDN大批用户名密码泄露导致大量用户收到“撞库”骚扰、还有几乎每年都会暴出来的民航旅客信息泄露引发的诈骗案件等等。。但作者在书中,提到了一个全新的观点——在大数据时代,匿名开始变得无效。无效的原因有两个,第一个是数据的量,一个是数据的维度(或者说种类),如果数据的量足够大,种类足够多,那么即使对用户的数据做了匿名处理,也无法保护用户的隐私(这也就意味着所谓的数据“脱敏”其实毫无意义)。作者举了一个例子:在2006年美国AOL公司为了“供感兴趣的科研人员研究”,公布了大约50万个用户的2000万条搜索记录(坦白来讲,这些数据的体量不算大),但就算AOL对这些用户的身份信息做了匿名处理,研究人员还是能通过诸如“60岁单身男性”、“哪种茶叶有利于健康”、“利尔本的园丁”等搜索记录成功将该用户定位到佐治亚州利尔本的一个62岁寡妇。后者知道后勃然大怒,最终引发众怒而导致AOL不得不开除了当时的CTO和相关的两名技术人员。用作者的话说,这种现象叫做数据的“交叉验证”——数据的量足够大、维度足够多的时候,及时不需要用户的身份信息,也能够精准定位到某个用户——这无异于泄露了用户隐私。

比隐私泄露更可怕的,是基于大数据预测来判断人的行为。比如根据某些地区的数据来判断该地区未来的治安状况从而采取防范措施、根据一个人的行为数据判断这个人有可能犯罪从而提前采取行动。这衍生出一个哲学问题——谁来证明这些预测的正确性?(反过来也一样,如何确定这些预测的不正确性?本能通过大数据预测而避免的枪击案如果因为没采取措施而发生,其实一样是悲剧)。但总的来说,作者对于通过大数据预测判断人类行为是持否定态度的,尤其是过度数据化的行为,这里特别提到了谷歌(谷歌终于当了一把反面典型,这就是物极必反的结果。。)。谷歌内部过度的追求数据化,比如会根据应聘者考大学的分数和大学毕业的绩点来判断应聘者的能力和潜力,这显然不靠谱——照这个标准,比尔盖茨和马克扎克伯格连面试的资格都没有。

大数据的管理变革1:让数据使用者为隐私负责。在大数据时代,使用数据前取得用户同意变得毫无可操作性,就好像谷歌不可能询问上亿的用户是否能够使用他们在搜索框输入的拼写错误信息。反过来,如果让数据的使用者为此负责的话,从一定角度来讲是合理的,因为前者在数据的使用中获益了。这在一定程度上能够起到保护隐私的作用——因为使用者会想法设法提供更加模糊的数据来防范隐私泄露。

大数据的管理变革2:个人动因 vs 预测分析。这部分的核心思想,是尽可能让决策变得透明。如果基于大数据来判断个人行为的话,必须能够将数据的样本、算法、及整个预测过程变得“可论证、可修改”。但在大数据时代,“原因”变革愈发难以追踪,比如我们很难判断为何谷歌从万亿级网页数据自学习而成的翻译系统将“light”翻译成“光”而不是“重量轻”。如果是传统的翻译系统,这很好判断——找个程序员看看源码就行了。也就是说,原因的追踪在大数据时代有变成一个“黑盒子”的趋势,这也引发了第三个管理变革——

大数据管理变革3:算法工程师的崛起。我们需要大量的大数据算法工程师,来证明大数据预测的正确性,越多越好!

大数据管理变革4:反对数据垄断。同商业垄断一样,数据垄断也会带来可怕的后果。所以,许多国家已经将反数据垄断写入了法律并以此来约束数据寡头们。

结语

“大数据提供的不是最佳答案,只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本”。

你可能感兴趣的:(读书笔记—《大数据时代》)