读《大数据时代》所感

在信息处理受限的时代,当我们需要数据分析而缺少有力的收集数据的工具时,诞生了许多方法来提高数据的可靠性。比如要随机采样,要确定合适的抽样范围,要甄选错误数据。其分析的结果的准确率不高,毕竟是用样本代替总体。而且收集和处理数据的过程中,稍有失误,比如样本不具有一般性,比如错误数据没有被排除,就会给结果酿成巨大的偏差。而现在我们把总体当作样本,避免了抽样调查固有的劣势。数据自古就有,什么才叫大数据呢?大的含义不仅仅指的是数据的规模大,当然大多数情况是这样,比如谷歌的大数据建立在千万亿条检索词,亚马逊的大数据建立在全球消费者的购物行为。初次之外,大的含义还有全。比如FACEBOOK能够记录用户产生的所有信息,不仅包括个人资料,还有他提到过什么爱好,最近想买什么东西,所有看似不相关的信息组合到一起,构成了计算机对该用户的认识,从而向他推荐商品或者好友。同时大数据还可以指不用随机样本,而采用分析所有数据的方法。

对小数据而言,最重要最基本的工作是减少错误保证质量,因为收集的信息量较少。但是大数据不会苛求某一个或者某一部分数据的正确性。一方面是因为数据规模庞大,本身就很难让每一个数据正确。其实还有更重要的原因。

大家试想一个例子,假如有一片葡萄园,你需要测量它的温度。但是整个葡萄园里只有一个温度计,那你就必须确保这个测量仪是准确的而且是可以一直工作的。反过来假如每10棵葡萄树中间就有一个测量仪呢?可能这其中有些数据是错的,还可能数据会更加杂乱,但众多的温度数合起来可以提供一个更加准确的结果。许多大型的互联网巨头也面临着测量葡萄园温度的难题,以往他们只用一只温度计,于是他们需要引进最先进的温度计,然后想尽办法来改良性能,维护正常使用,但结果不仅耗费资源更重要的是效果不好。回来,他们采取每10棵葡萄树放一只温度计的办法,即使这种温度计的质量不算上乘,也能够较以往更优秀的结果。

1954年,IBM开始研发计算机翻译,但是五六十年代的时候计算机体积巨大而且内存极小,于是研发人员不断开发新的算法来提高翻译的准确率。但是语言这个东西博大精深,比如老北京见面说“吃了没”,什么意思?可能是你好,可能是一起去吃吧,也可能是 吃了没。所以翻译公司投入精力研究出更出色的算法和模型,让翻译更加准确。结果就像我们上小学时那样,电脑翻译的结果一直不让人满意。直到2006年,谷歌涉足翻译,他没有研究新的算法,而是搜索到互联网所有可以找到的翻译文件。谷歌从各种各样的公司网站上寻找对译文本,还去寻找联合国、欧美这些国际组织发布的官方文件和报告的译本,可以说谷歌的爬虫到了每一个网站。最终的结果是,我们每个人都会使用谷歌翻译,不只是翻译英语。谷歌翻译之所以更好不是因为他拥有更好的算法,而是他拥有了数十亿不同语言的文档,而没有像IBM一样仔细而认真的翻译300万句话。此所谓“大数据的简单算法比小数据的复杂算法更有效”。

追求相关性,放弃因果性,指的是不需要知道为什么,只需要知道是什么。Data在拉丁文中的意思是事实,现象。大数据就像一个暗箱,暗箱的入口是海量的数据,出口则是一些分析得出的现象结论。没人知道暗箱中的工作机制,就像我们不知道现象背后的原因,从头到尾都是数据在说话。举个例子,美国有一个折扣零售品牌叫塔吉特(Target),可以说是大数据相关性分析的佼佼者。有一天,一名男子冲进一家塔吉特商店气氛地对商店经理说:我女儿才是高中生,你们居然给她寄婴儿服的优惠券,这不是鼓励高中生怀孕吗?几天后经理电话道歉时,这名父亲说他女儿向他隐瞒了怀孕的事。这个事挺震撼我的,一个从未直接对话的公司居然比生活在同一屋檐下的父亲更了解女儿的情况。这就是大数据的力量。塔吉特收集所有购买婴儿用品的女性的消费记录,注意到这些女性会在怀孕的第三个月购买特殊乳液等商品。于是公司在根据这种关联物来判断消费者是否怀孕。这个案例中没有任何原因,没有任何为什么,一切都是现象。并且现象引导我们做出正确的选择。事实上,人类无论中外和古今,有一个共同点就是凡事趋于因果性。因为,人类对这个未知的生存环境充满的恐惧,需要有合适的原因来劝服自己的好奇,克服恐惧。远古时代,人类对打雷地震的疑惑和恐惧,就和今天我们走到外太空的感觉差不多吧。以前人们把原因归于上帝和神,后来把原因归于牛顿三定律、归于能量守恒。但是真的就解释了问题吗?塔勒布有一本书大家一定要看一下《黑天鹅》。几千年来欧洲人都把天鹅是白色作为真理,因为无数的文字记载和每天的眼见为实,直到有一天来到澳洲发现了黑天鹅。事实上,很多真理只不过是对以往经验和习惯的判定。为什么太阳东升西落?因为地球自转。为什么地球自转?因为万有引力。那为什么万有引力呢?所以太阳东升西落的原因是目前为止一直东升西落。

大数据的特征是以上三个:总体、效率、相关。大数据本身是什么呢。大数据可以是任何形式的0和1.大数据可以是亚马逊的消费记录、tweeter的文字,facebook用户的一切线上行为,当文字变成数据kindle可以分析出来读者对哪本书的哪个桥段感兴趣,当方位成为数据,基于LBS的创业团队有了属于自己的机会,甚至现实生活中你的坐姿都可以通过椅子的传感器被收集到一个数据库中组成大数据。可以说大数据本身包含了世界一切事物或者子集。除了数据本身,大数据的价值还包括技术和思维。这三者构成了大数据的价值链。刚才我们提到很多利用大数据的例子,大数据带来的影响可以深入到生活中的很多方面,首当其冲肯定是商业。根据大数据的价值链,出现了三种公司,基于数据本身的公司,他们拥有或者至少可以收集到大量的数据,却不一定有从数据中提取价值或者用数据催生创新思想的技能。最好的例子就是Twitter,它拥有 海量数据这一点是毫无疑问的,但是它的数据都通过两个独立的公司授权给别人使用。第二种是基于技术的公司,他们掌握了处理大数据的相关技术,为别人提供技术支持和咨询。比如IBM。第三种是基于大数据思维的公司。他们能够先人一步发现或者开发出机遇,但他们不拥有数据也不具备相关技术。事实上很可能他们是外行人,他们的思维才不受传统行业的限制和既有制度的缺陷。他们只考虑可能不考虑可行。作为开拓者,这类公司常常把夕阳产业变成朝阳产业。比如贝佐斯没有开一家连锁书店而是跨入电子商务创立的亚马逊。观察国际上的BAT,你会发现他们同时涉足了和三个方面,比如谷歌,比如亚马逊,他们有海量的数据,有处理分析数据的核心技术,他们还是行业的领头羊。他们数据、技术、思维兼有,规模效益让他们不可能被打败。再举个例子,作为创新性企业的代表,苹果公司退出iphone之后和移动运营商合作。运营商手中有大量潜在价值的数据,但是没有深入分析,于是苹果公司要求运营商将大部分数据提供给苹果公司。于是苹果集合了大量数据完善其用户体验。苹果公司的规模效益体现在数据上,而不是固有资产上。

综合以上案例,我们可以总结出,大数据的核心是预测。用形成的数据来预测将会发生的事情,是大数据最大的价值。号称利用大数据拍摄《纸牌屋》按照观众的行为来微调剧情,是大数据的完美体现。而用大数据来分析《爸爸去哪儿》为什么火,这种马后炮没有任何用处。莎士比亚曾说过:凡事过去,皆为序曲。在大数据时代,这句话找到了新归宿。

19世纪,电话刚刚问世,成为社会精英分子的谈资。又一次伦敦市长说,电话是个好东西,不过英国有一部就够了。纽约市长反驳到:怎么可能。电话这种跨时代东西我敢肯定美国以后每个州都会有一部。现在,电话早已经飞入寻常百姓家,连手机每个人都有备用机了。大数据是什么,大数据有什么用。它符合冰山理论,我们所能观察到的只是冰山露出海面的一角,而水面以下的巨大部分还远没有被发现被探索。大数据也许可以真的成就一个时代!如果想了解大数据时代,一定不能错过这本大数据书籍的开山之作《大数据时代》。

你可能感兴趣的:(读《大数据时代》所感)