如果算法是机器人聪明的脑袋,那么数据就是维持机器人生命必须的血液。到底是算法重要,还是数据重要?各家观点不一。《大数据系列》为笔者近期阅读相关书籍或报告 观点和案例内容的摘录集合,后期持续更新~
《大数据时代-生活、工作与思维的变革》-英 维克托.迈尔-舍恩博格(通俗易懂,对大数据有初步认识)
1)2009年甲型H1N1流感爆发,与习惯性滞后的官方数据相比,谷歌成为一个更有效、更及时的指示标。谷歌以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。
2)如今,数据已经成为一种商业资本。一旦思维转变,数据就能巧妙用来激发新产品和新型服务。这仅仅是一个开始,社会需要放弃它对因果关系的渴求,而仅需知道相关关系。
3)与其它新技术一样,大数据也必然经历技术成熟度曲线。(技术成熟度曲线,又叫技术循环曲线或炒作周期,指新技术,新概念在媒体上曝光度随时间变化的曲线)
4)大数据对于我们分析信息时有三个转变。01转变,处理某个现象相关的所有数据,而不是随机采样。02数据量大,不热衷追求精确度。03 从“因果关系”转向“相关关系”。
5)全数据模式,样本=总体。采样的缺陷,忽视细节考察。
6)就个人而言,可以通过重叠社区挖掘的方法找到同时属于多个社区的节点。这些人往往对网络连通性至关重要。就联系而言,可以挖掘起桥接作用的连边,这些连边往往对网络的连通性至关重要。
7)我们为了获得更广泛的的数据而牺牲了精确性,也因此看到了很多无法被关注到的细节。我们为了高频率而放弃精确性,结果观察到一些本可能被错过的变化。与避免错误相比,对错误的包容会带给我们更多好处。
8)大数据时代,清楚的分类被更混乱更灵活的机制取代。人们用自己的方式创造和使用标签。它是没有标准的,没有预先设定的排列和分类,也没有我们必须遵守的类别。
9)“折中”开始成为事物的自然状态。第一个折中是,数据量的限制正在逐渐消失。默认自己不能使用更多的数据,转向无限接近“样本=总量”的方式来处理数据。第二个折中是数据的质量上,快速获得一个大概轮廓和发展脉络,要比精确性重要的多。
10)当数据点以数量级方式增长的时候,我们会观察到许多似是而非的相关关系。
11)我们需要改变我们的操作方式。我们不能把精确性当成重心,我们需要接受混乱和错误的存在。我们该侧重于分析相关关系,不再寻求每个预测背后的原因。
12)数据化,不是数字化。数字化指的是模拟数据转换成用0和1表示的二进制码。一旦世界被数据化,拥有了数据分析的工具(统计学和算法)以及必须的设备(信息存储器和处理器),就可以更大规模的处理数据。量化一切,会产生价值。
13)数据的价值并不限于特定的用途,它可以为同一目的多次使用,也可以用于其它目的。后面这一点尤其重要。
14)数据的潜在价值有三种最为常见的释放方式:基本再利用(搜索关键词)、数据集整合(丹麦癌症研究)和数据扩展性。还有数据的折旧值(当当推荐书)。
15)如何给数据估值?一个办法是从数据持有人在价值提取上所采取的不同策略入手最常见的一种做法是将数据授权给第三方。在大数据时代,数据持有人倾向于从被提取的数据价值中抽取一定比例作为报酬支付,而不是一个固定数额。
16)所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
17)大数据让处于行业两端的公司受益良多,而中等规模的公司要么向两端转换,要么破产清算。传统行业都会变为大数据行业,无论是金融服务业,医药行业还是制造业。
18)大数据为监测我们的生活提供了便利,同时也让保护隐私的法律手段失去了应有的效力。
19)社会发展过程中出现过很多种情况,当一个特定领域变得特别复杂和专门化之后,就会催生出对运用新技术的专门人才的迫切需求。在一个多世纪以来,法律,医学,会计以及工程学领域都经历过这种转型。不久前,计算机安全和隐私顾问的兴起,证实了公司都在遵循由一些组织确立的行业最佳做法。
20)在这个利用数据做出决定的世界里,人类存在的目的是什么?如果所有人都诉诸数据,都利用工具,那时人类的无法预测性 即直觉,冒险精神,意外和错误等,反而可能发挥出具体重大作用。