大数据的核心思想

IBM中国最近向行业客户展示了他们如何利用大数据技术来分析网球赛:在每场比赛开始前,分析软件都会处理球员双方的历史交锋数据,发现比赛中球员致胜的关键指标,并实时更新。该分析的依据是长达8年的大满贯网球赛事数据,包含近万场比赛,数据点超过4,100万个。比如去年美网男单决赛近5个小时的史诗大战后,英国选手穆雷战胜塞尔维亚选手德约科维奇。而IBM的软件早在开赛前就发现了对阵双方的“胜负手指标”,并且在过程中发现穆雷在关键指标上胜过了德约科维奇。这也是为何近来有人称大数据是“游戏胜负的决定者”。当然,这里的“游戏”概念显然不再限于体育比赛球场。
        现在参加各种IT或互联网业界的行业论坛、峰会、沙龙或聚会,无论是技术还是产品还是运营还是商务,热点话题离不开“大数据”、“云存储”、“云计算”、“社交媒体”和“移动终端”。但是,到底什么才是大数据?是数据挖掘还是Hadoop Mapreduce?是千万级别甚至亿万级别的用户信息还是动辄多少个TB甚至PB的数据量?
       
一.大数据的四大误区

1.误区一  大数据就是数据大

    “光大是不够的!(隐晦语言:太薄是要出事的)”如今在很多场合,一提起大数据,基本都会说“日处理数据量XXGB,上传图片XXGB,并发数XXX”“Hadoop集群拥有XX个节点,总存储XXPB”……诸如此类的技术语言。但是不是数据大了,就可以达到大数据的境界,可以一起达到人生的大和谐了?

        数据再大,不去使用,呆在机房里偏安一隅,那绝不是大数据,而是败家子。在这个问题上,传统的门户网站基本上就属于坐拥金山却无钱上青楼。无论搜狐新浪网易,每天的用户数以亿计,但是除了简单的广告呈现,并没有通过对数据的分析产生更多的价值。之所以没有提企鹅,是因为他们手里有最庞大的QQ用户,没推广但不代表没有做,例如当年推出QQ圈子的那种惊艳感,现在想起来还触目惊心。
   
        而对于中小网站来说,不用盲目追求先进技术牛逼架构。首先需考虑的是商业运作和推广,只有用户量飙升见红的情况下,再去考虑技术升级。既有企业级的商业产品也有开源社区的开源产品可以使用。淘宝和支付宝平台的技术和系统没有采用IBM的小型机,也没有使用大量的适应分布式技术架构的商业产品,很多都是在开源软件基础上开发自适应的系统软件和应用软件。

        在云计算和大数据大行其道的今天,Hadoop及其相关技术起到了非常重要的作用,是这个时代不容忽视的一个技术平台。事实上,由于其开源、低成本和和前所未有的扩展性,Hadoop正成为新一代的数据处理平台。无论云计算和大数据口号喊的多么热火朝天,但Hadoop都是一门非常务实的技术,无论你身在互联网企业还是传统软件公司,都应该学习和了解这门技术。

2.误区二  懂大数据就必须要懂技术

“我不懂技术,我能学会大数据吗?”大数据更多的是一种能力,而非技能,这种能力能从无尽的数据里看出商机看出价值。诸葛亮懂兵法,他知道该在哪里伏兵该在哪里生火,他不必知道关羽是如何耍大刀,也不必知道张飞杀人时,蛇矛是扎还是砍。

3.误区三  所有公司都必须懂大数据

        如果卖煎饼果子的大妈能开发一个APP,拿到客户对煎饼里薄脆是否爽口,辣椒酱是否够味的直接意见,那么很有利于产品的改进。但是你会为一个3元钱的煎饼去下载一个8M的APP吗?

在移动互联网大会上,印象日记公司的CEO  Phil  Libin明确说自己产品的商业模式就是向用户收费,让他们甘心为产品体验付费,而不玩当下流行的大数据那一套。知道自己能玩什么很常见,而知道自己不能玩不必玩什么更可贵。

4.误区四  数据越多越好

        搜一搜“存款  贬值”的关键词,从“五十年前的百万变13块”,到“一万元存一年赔19元”都可以看出,钱必须要用才有价值,数据也是一样。只有不停的使用数据,挖掘数据背后的关系和价值,才能如滚雪球一般,使数据之间的相互关系更丰富更完善。

二.大数据的核心思想

1.有什么不重要,怎么用才重要

        Netflix公司利用大数据来拍《纸牌屋》的励志故事大家都听过无数遍。Netflix是美国最大的DVD与网络视频租赁网站,他们在国内有2700万用户,全球有3300万。他们从流媒体视频用户处收集到的数据是异常惊人的,每一次搜索,每一次暂停,每一次积极或者消极的评价,还有自己的位置数据设备数据社交媒体数据,在分析完这些数据之后,发现自己的这些观众都喜欢演员凯文-史派西,还喜欢导演大卫-芬奇,并且喜欢1990年的英国同名电视剧。三项综合在一起,Netflix就下定决心拍摄《纸牌屋》,并将数据分析运用得淋漓尽致。在Netflix的观影页面上,提供暂停后截图的功能,他们就依靠这种数据来判断观众更喜欢哪种布景和画面。

        当然,这三个因素其实都有不稳定性,例如凯文-史派西也曾拍过只被评了4.2分的《弗雷德圣诞老人》,大卫-芬奇首次执导的《异形3》也成系列中口碑最差的一部。但是从概率上来说,这三个成功因素都包括的剧集更靠谱。

2.对数据的容错性更强,来源更加多样化

        真正的大数据,应该是从不同维度,不同途径过来的各种格式数据碎片,并不限于文字/视频/声音/位置/图片等。只有将不同维度的数据放在一起判断,得出来的趋势才有可能更真实。雷同的数据积累的再多,超过某一个限度之后,我们再从新样本上获得的有用信息就越来越少,就如同经济学上的边际效应递减一样。而用简单点儿的话解释就是如果你已经交往过五个IT码农,那么第六个其实也不会新鲜到哪里去,倒不如重新调整方向,换个高富帅找点儿不同的刺激。

        再举个例子,这两天淘宝首页给我推送的个性化广告除了情趣用品就是“花花公子”服饰大优惠,我不就是为了找素材和配图搜了一下“情趣用品”么?你们没完没了的给我推送这个,节操何在?如果你们能拿到我小学老师的评语,初中老师的评语和操行评定,高中老师的评语和操行评定,通过对多个来源不同的数据源分析,那么你们给我推送的一定会是《钢铁是怎么炼成的》《雷锋日记》等好书。

3.拥有大数据的身,也要有大数据的心

        以往的数据分析,更多的是精确的样本/深度的数据挖掘,“精确”就是其代名词。不符合规格的样本过滤掉,然后再深度挖掘数据字段间的关系,得出几个精确无比数字去做PPT。

        但是大数据更多的是通过对各种数据分析得出某种趋势,这种趋势不必过于精确,但是能让相关决策人有底气去做某项决定。大数据不重要,重要的是使用大数据的人。因为哪怕面向完全相同的数据源,不同的人得出的结论或者决定也可能是截然不同的。

        三国赤壁大战,当庞统献计“若以大船小船各皆配搭,或三十为一排,或五十为一排,首尾用铁环连锁,上铺阔板,休言人可渡,马亦可走矣”时,同时听到这话的两个人,曹操下席而谢,“非先生良谋,安能破东吴耶!”,而徐庶却私下里扯住庞统“你好大胆,只恐烧不尽绝。”

        由此可见,“以人为本”是多么精辟的一句废话啊!无论你NB还是SB,数据总在那里,不离不弃。

4.强调趋势和未来

        大数据,更多的应该是分析过去,提醒现在,展望未来。无法用到实践中去的大数据都是耍流氓,无论这个结果是造福了全人类,还是帮助网站提高1%转化率,这都是有用的。

        谈趋势谈大数据,怎么能不提谷歌的流感趋势呢?谷歌分析自己上亿次的搜索查询,近乎实时的提供全球许多国家和地区的流感疫情评估,从截图可以看出,谷歌的趋势曲线跟美国官方公布的数据重合度非常高,但是后者在时间和效率上完全无法比拟谷歌趋势。
如果你在准备出差的时候,发现你要去的地方正爆发鼠疫,我想大部分人肯定就哭着喊着辞职不去了。

三.大数据应用瞎想

        无论是社交相亲网站还是传统婚恋男女配对,大数据分析应用如果搭配上类似Google  Glass的可穿戴设备就更棒了。在上百人的男女相亲大会上,你带着功能齐全的眼镜四处看妞,系统自动分析各种数据,帮你找到最搭配的另一半,按照匹配度自动走在一起。当然,如果那时红外线透视功能很发达,对付费VIP用户,能加入匹配度最高看裸体的功能就更棒了。坏坏的YY一下子呗!

你可能感兴趣的:(随笔)