大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够 观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源 泉,而更多的改变正蓄势待发……
大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。
第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和 某个特别现象相关的所有数据,而不再依赖于随机采样。 某个特别现象相关的所有数据,而不再依赖于随机采样。“样本=总体”
例如:从未来的审计视角来看,上市公司应该赋予审计师更大的访问权限,不再局限于交易样本,而是扩展至全部的总分类账和数据库[1]。
第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。 第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。
第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系,而应该寻找事物之间的相关关系。
读书到这里,忽然想到应该看政府部门对大数据时代的意见:
《国务院关于印发促进大数据发展行动纲要的通知》说到主要任务[2] :
(一)加快政府数据开放共享,推动资源整合,提升治理能力。
……
6.形成大数据产品体系。围绕数据采集、整理、分析、发掘、展现、应用等环节,支持大型通用海量数据存储与管理软件、大数据分析发掘软件、数据可视化软件等软件产品和海量数据存储设备、大数据一体机等硬件产品发展,带动芯片、操作系统等信息技术核心基础产品发展,打造较为健全的大数据产品体系。大力发展与重点行业领域业务流程及数据应用需求深度融合的大数据解决方案。
7.完善大数据产业链。
(三)强化安全保障,提高管理水平,促进健康发展。
数字化带来了数据化,但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据,和数据化有本质上的不同。
小数据的随机采样,最少的数据获得最多的信息 。采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量 的增加关系不大。的增加关系不大。
大数据是指不用随机分析法这样的捷径,而大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。
不是大量数据优于少量数据那么简单了,而是大量数据创造了更好的结果。
大数据基础上的简单算法比小数据基础上的复杂算法更加有效。
大数据不仅让我们不再期待精确性,也让我们无法实现精确性。 大数据不仅让我们不再期待精确性,也让我们无法实现精确性。
例如:麻省理工与通货紧缩预测软件。
麻省理工学院(MIT)的两位经济学家,阿尔贝托·卡瓦略(Alberto Cavell)和罗伯托·里哥本(Oberto Rigobon)就对此提出了一个大数据方案,那就是接受更混乱的数据。通过一个软件在互联网上收集信息,他们每天可以收集到50万种商品的价格。收集到的数据很混乱,也不是 所有数据都能轻易进行比较。但是把大数据和好的分析法相结合,这个项目在2008年9月雷曼兄弟破产之后马上就发现了通货紧缩趋势,然而那些依赖官方数据的人直到11月份才知道这个情况。
值得注意的是,错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据 的工具的一个缺陷。如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。
传统的商业职能,“一个唯一的真理”这种想法已经彻底被改变了。现在不但出现了一种新的认识, 即“一个唯一的真理”的存在是不可能的,而且追求这个唯一的真理是对注意力的分散。要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。
例如:在某个记录手机号码的域中输入一串汉字。传统的关系数据库是为数据稀缺的时代设计的,所以能够也需要仔细策划。在那个时代,人们遇到的问题无比清晰,所以数据库被设计用来有 效地回答这些问题。
据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一 个从未涉足的世界的窗户。
亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。知道是什么就够了,没必要知道为什么。
相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系,比如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患 了流感。
相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。
例如:流程优化后的数据,营业销售套餐销售额、利润的变化…
中医、西医的对比,就是相关性、允许不精确的体现。
在哲学界,因果关系是否存在,因果关系与自由意思相对立。
快速思维模式,用因果关系看待周围世界;
父母经常告诉孩子,天冷时不戴帽子和手套就会感冒。然而,事实上,感冒和穿戴之间却没有直接的联系。有时,我们在某个餐馆用餐后生病了的话,我们就会自然而然地觉得这是餐馆食物的问题,以后可能就E4��再去这家餐馆了。事实上,我们肚子痛也许是因为其他的传染途径,比如和患者握过手之类的。然而,我们的快速思维模式使我们直接将其归于任何我们能在第一时间想起来的因果关系,因此,这经常导致我们做出错误的决定。
与常识相反,经常凭借直觉而来的因果关系并没有帮助我们加深对这个世界的理解。很多时候,这种认知捷径只是给了我们一种自己已经理解的错觉,但实际上,我们因此完全陷入了理解误区之中。就像采样是我们无法处理全部数据时的捷径一样,这种找因果关系的方法也是我们大脑用来避免辛苦思考的捷径。
慢性思维模式
即使是我们用 来发现因果关系的第二种思维方式——慢性思维,也将因为大数据之间的相关关系迎来大的改变。
相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础。通过找出可能相关的 事物,我们可以在此基础上进行进一步的因果关系分析,如果存在因果关系的话,我们再进一 步找出原因。这种便捷的机制通过严格的实验降低了因果分析的成本。我们也可以从相互联系 中找到一些重要的变量,这些变量可以用到验证因果关系的实验中去。
量化一切,数据化的核心。计量和记录一起促成了数据的诞生,它们是数据化最早的根基。
复式记账法通常被看成是会计业和金融业不断发展的成果。事实上,在数据利用的推进过程中,它也是一个里程碑似的存在。它的出现实现了相关账户信息的“分门别类”记录。 它建立在一系列记录数据的规则之上,也是最早的信息记录标准化的例子,使得会计们能够读 懂彼此的账本。复式记账法可以使查询每个账户的盈亏情况变得简单容易。它会提供交易的记 账线索,这样就更容易找到需要的数据。它的设计理念中包含了“纠错”的思想,这也是今天的 技术人才们应该学习的。
数据化内容:
数据化内容 | 大数据先锋 |
---|---|
文字变成数据 | 谷歌的数字图书馆 |
方位变成数据 | 多效地理定位与UPS的最佳行车路径 |
沟通变成数据 | 微博关联与疫苗接种 |
有了大数据的帮助,我们不会再将世界看作 有了大数据的帮助,我们不会再将世界看作 是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成 是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成 的。
将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现 将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现 实的视角。它是一种可以渗透到所有生活领域的世界观。
数据创新 | 案例 |
---|---|
1:数据的再利用 | 移动运营商与数据再利用 |
2:重组数据 | 丹麦癌症协会:手机是否增加致癌率 |
3:可扩展数据 | 谷歌街景与GPS采集 |
4:数据的折旧值 | |
5:数据废气 | 微软与谷歌的拼写检查 |
6:开放数据 | FlyOnTime的航班时间预测 |
其中,数据废气和开发数据需要重新认识:
数据废气是许多电脑化服务背后的机制,如语音识别、垃圾邮件过滤、翻译等。当用户指 出语音识别程序误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好。
很多企业都开始设计他们的系统,以这种方式收集和使用信息。
例如:大数据在业务流程系统上的应用:
流程流转数据、待办处理数据、访问操作日志;
如果没有访问操作日志,可以从Apache HTTP日志中获取,每次的URL。
BPM做为粘合剂,将为大数据收集数据、整理数据提供便捷的方法,也为大数据分析提供了一个纬度。[3]
政府才是大规模信息的原始采集者,并且还在与私营企业竞争他们所控制的大量数据。让“开放政府数据”的倡议响彻全球。
注意观察:冠名政府的大数据资产管理公司,将如雨后春笋般的冒出来。
数据价值的关键是看似无限的再利用,即它的潜在价值。收集信息固然至关重要,但还远 远不够,因为大部分的数据价值在于它的使用,而不是占有本身。
根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、 技能与思维。
第一种是基于数据本身的公司。 第一种是基于数据本身的公司。这些公司拥有大量数据或者至少可以收集到大量数据,却 不一定有从数据中提取价值或者用数据催生创新思想的技能。最好的例子就是Twitter,它拥有 海量数据这一点是毫无疑问的,但是它的数据都通过两个独立的公司授权给别人使用。
第二种是基于技能的公司。 第二种是基于技能的公司。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了 专业技能但并不一定拥有数据或提出数据创新性用途的才能。比方说,沃尔玛和Pop-Tarts这两 个零售商就是借助天睿公司(Teradata)的分析来获得营销点子,天睿就是一家大数据分析公 司。
第三种是基于思维的公司。 第三种是基于思维的公司。皮特·华登(Pete Warden),Jetpac的联合创始人,就是通过想 法获得价值的一个例子。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的 地。对于某些公司来说,数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和 员工的创新思维,他们有怎样挖掘数据的新价值的独特想法。
结合实际工作,典型专业化大数据运营公司案例如图所示。
大数据大大地威胁到了我们的隐私和自由,这都是大数据带来的新威胁。但是与此同时, 它也加剧了一个旧威胁:过于依赖数据,而数据远远没有我们所想的那么可靠。
美国军方在越战时对数据的使用、滥用和误用给我们提了一个醒,在由“小数据”时代向大 数据时代转变的过程中,我们对信息的一些局限性必须给予高度的重视。数据的质量可能会很 差;可能是不客观的;可能存在分析错误或者具有误导性;更糟糕的是,数据可能根本达不到 量化它的目的。
一场管理规范的变革
我们在生产和信息交流方式上的变革必然会引发自我管理所用规范的变革。同时,这些变革也会带动社会需要维护的核心价值观的转变。
可是,变革并不止于规范。大数据时代,对原有规范的修修补补已经满足不了需要,也不足以抑制大数据带来的风险 ——我们需要全新的制度规范。
将责任从民众转移到数据使用者很有意义,也存在充分的理由,因为数据使用者比任何人 都明白他们想要如何利用数据。除了管理上的转变,即从个人许可到数据使用者承担相应责任的转变,我们也需要发明并推行新技术方式来促进隐私保护。一个创新途径就是“差别隐私”:故意将数据模糊处理,促使 对大数据库的查询不能显示精确的结果,而只有相近的结果。
在自由与隐私的范畴里,还需要大数据审计和大数据监督。
这一切都意味着,一个员工是否对公司有贡献的判断标准改变了。这也就意味着,你要学的东西、你要了解的人,你要为你的 职业生涯所做的准备都改变了。
大数据时代,名副其实的“信息社会”。
[1] 《详解审计工作中如何利用大数据》 百度.文库 雪姬 2014.05
[2] 《国务院关于印发促进大数据发展行动纲要的通知》 中国政府网 国发〔2015〕50号
[3]《探讨BPM与大数据的关系一数据驱动BPM 》 肖永威 2016.05