数据化未来

数据化未来_第1张图片

数据化未来

什么是大数据

大数据是一种提高数字价值的手段、工具和方法。数字化本身只是将模拟数字变成0和1的机器数字,数字化的价值在于存储,Google和Amazon推行的电子书得益于此。数据化是建立在数字化的基础上,先采集到海量数据,再通过量化分析这些数据发现某些事件发生的或然率,最后由人作出正确的决策。正确决策才会体现出数据化的真正价值。

数据化未来_第2张图片

数据化是指一种把抽象转变为可制表分析的量化形式过程,数字化带来了数据化。

抽样=全部

早期由于技术受限,数据记录和统计都是靠原始手段,一次简单的人口普查也需要持续很多年。而今新生儿的信息从出生开始就会被数字化,全球数据也越来越大,2017年预计将超过12ZB(Zettabyte,2^70 B)。

数据化未来_第3张图片

不是所有情况下都能采集全数据,也不是所有统计都允许持续多年,在成本、时间、环境的制约下,使用最多的方法只能是抽样。最有名的抽样调查要数百事可乐公司发起的“百事挑战 Pepsi Challenge”这个活动,40年前的“Pepsi Challenge”是一项口味双盲测试,工作人员和测试对象在不知道两个被测杯中是什么饮料的情况下,由测试对象品尝后选择哪一杯味道更好。虽然测试结果是百事可乐比可口可乐的味道好,但每年的销量仍然是可口可乐领先,出现这个结果的原因之一还是数据样本太少。

双盲测试应用更多的是在医药领域,想知道新药的真实药效,只能通过临床试验。国内外的医疗数据应用都在做很多尝试,比如著名的23andME。但由于数据还不够一定量级医疗大数据现在仍然是个伪命题。

数据化的关键词是“海量”,如果没有海量的数据,就不能解决上面抽样遇到的问题,更精确的统计、面向未来的人工智能也无从谈起。运用大数据最贴近普通用户要属电商,你有没有注意到电商APP首页的“有好货”、“找尖货”这样的入口,支付后还会留一句话“大部分买家还买了......”。这些功能并不是臆想出来的,而是来自用户的使用记录,电商的数据沉淀。

数据存储量一直在以复利的方式递增,当积累到一定量级,抽样数据就是全部数据,就能够通过这些数据判断药效怎样,用户喜欢什么,现在积累的数据是未来的价值。

不确定且混杂

数据化未来_第4张图片

2002年有一部小说改编的电影《少数派报告》,讲述的是未来可以预测,包括犯罪。司法部依赖三个“先知”一起判定某人是否有杀人企图,当出现分歧,则按少数服从多数原则定案,但最后若少数一方正确的话,则会秘密保存一份少数派报告。男主因为一次意外被认定为罪犯,为了证明自己的清白,他只能找出那份少数派报告。

海量数据不同于样本数据,样本数据往往能得出确切结论。海量数据则是先记录所有数据然后再分析处理,这样的数据是各种各样甚至有错误的,但这样并不会妨碍分析处理的结果,因为海量数据并不会得出确切结论,只会告诉你某个事件发生的或然率,比如Google预测2009年美国地区的H1N1流感趋势,它通过搜索关键词来分析判断,是对搜索历史数据的挖掘再利用。

不确定带来了混杂的特性。按照网上的说法,结构化且适用于传统数据库的数据只占5%,剩余的都是混乱数据,比如网页和视频等。混杂又带来了有趣的特性,混杂的不确定就像海盗航行在海上找寻猎物一样既有趣期待又紧张刺激。

未知是我们可能经历的最美的体验,它是一切真正艺术和科学的来源。大数据的厉害之处正是不确定性,它不会确定的说NO也不会说YES,你只要愿意去挖掘就能发现心中的San Salvador Island。

“The most beautiful thing we can experience is the mysterious, It is the source of all true art and science. ” -Albert.Einstein

找寻洞见

数据时代,关联关系替代因果关系成为人更关注的内容。关联价值是指通过观察数据A来预测数据B的变化。相关关系强,就是当数据A变化另一个数据B也会相应的变化。

数据化未来_第5张图片

Google的“谷歌流感趋势”(Google Flu Trends),它将“键入流感关键词”与“患上流感”视为关联关系。2009年成功的在H1N1流感爆发前预测出其在美国境内的传播趋势。

Las Vegas 的赌场非常重视用户体验,当你一直输的时候,赌场会派一名客服经理过来友善的阻止你再次赌博的行动,并且和你聊天缓解你的情绪,甚至会带你去吃一顿大餐,让你忘掉刚输掉的钱。这些赌场厉害之处不是对人心的洞察,而是对数据的再次利用。

电商是最早尝到数据甜头的群体,它们借助用户浏览和购买商品的海量数据,分析甚至预测用户行为。电商记录用户的行为属于数据的首次使用,是为了知道用户需要什么,而推荐商品则是对数据的再次利用,是为了进一步了解用户为什么需要。电商通过用户购物又能建立买卖双方的互评体系,互评数据的建立又能扩展得到用户信用等级,有了信用等级电商就能向买卖双方推出贷款、分期这样的金融服务,当到了这个层次,已经不仅是对原数据的再利用,还是对原数据的重组和扩展。数据再次利用的价值远大于首次使用的价值,它能带来更多的潜在收益。

数据不是万能的

虽然未来没有数据万万不能,但完全相信数据却也不明智。还是以Google流感预测为例,虽然将“键入流感关键词”与“患上流感”视为关联关系成就了2009年预测的成功,但在2012年的预测中,则没有那么幸运,预测结果带来的只有恐慌。原因是Google不仅没有深究人们搜索流感信息的真正动机,而且把原本的可能性变成了必然性。

滑坡谬误(Slippery slope)是不合理地使用连串的因果关系,将“可能性”转化为“必然性”,以达到某种结论。例如当某人不讨论当下的事物(A),而是把讨论重心转移到了意淫出来的极端事物(Z)。因为你没能给出任何证据来证明(A)的发生一定会造成极端事物(Z)的发生,所以这是一种诉诸恐惧的谬误,也影响了人们讨论A时候的客观性。

下面是来自好事同学的数据谎言。
尼古拉斯凯奇在电影中的出镜次数和淹死在游泳池里的人数趋势图。


数据化未来_第6张图片
尼古拉斯凯奇在电影中的出镜次数和淹死在游泳池里的人数趋势图

肯塔基州的结婚率和从渔船里掉出来淹死的人数趋势图。


数据化未来_第7张图片
肯塔基州的结婚率和从渔船里掉出来淹死的人数趋势图

尾声

大数据的副产品是隐私公开化。数据采集是一件客观的工作,会包含敏感数据,比如你的身份证银行卡,家在哪里,有哪些兴趣爱好等等。因此数据化是一把双刃剑,一边是便利和增值一边是道德和法律,权衡两者才是数据的未来。

你可能感兴趣的:(数据化未来)