《大数据时代 BIG DATA》 维克托.迈尔-舍恩伯格 / 肯尼思.库克耶 著
(2014年读到的一本书,温故而求知新)
大数据,量变到质变。
4V:Volume(大量)、Variety(多样)、Velocity(高速)--数据产生的速度、Value(价值) -- 单个数据的代价值
样本 = 总体;精度不在重要,随机性更重要;线性数据被离散的非线性数据所取代。
用数字表示数据,将数据处理后得到有用的信息,分析并展示问题。
从事后分析到事前预测,预测成为大数据的重要作用。
大数据时代处理数据理念上的转变:要全体不要抽样;要效率不要绝对精确;要相关不要因果。
可能性与相关性。
数据价值来源:数据本身、技能和思维。 -- 商业目的、商业价值,让数据发声。
发据数据价值、征服数据海洋的“动力”就是云计算。
bit(位), byte(字节, 8 bit), word(字, 2 byte), KB(1024 byte), MB(1024KB), GB(1024 MB), TB(1024MB), PB, EB(1024 PB), ZB (1024 EB)
量大、并且不规则的“非结构数据”。“大数据”发展的障碍,在于数据的“流动性”和“可获取性”。通过数据分析获得知识、商机和社会服务的能力。
大数据时代,要允许一点点的错误和不完美,因为效率可能更加重要。
努力在可以应用、可以拓展的地方,应用它、拓展它;在不能应用、不能拓展的地方,就停下来。
建立在大数据基础之上的新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有世大价值的产品和服务,或深刻的洞见。
数据已经成为一种商业资本,一项重要的经济投入。
预测,大数据的核心。
数据化:意味着要从一切太阳底下的事物中汲取信息,甚至包括很多我们以前认为和“信息”概本搭不上边的事情。同时把现象转变为可制表分析的量化形式。
统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。 -- 不可收集和分析全部数据,本身存在许多固有缺陷。
采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。
预测性分析并不能解释故障可能会发生的原因,只会告诉你存在什么问题。
数据,从最不可能的地方提取出来。
预测给我们知识,而知识赋予我们智慧和洞见。
有了大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的。
数据价值转移到数据拥有者身上,传统的商业模式也被颠覆了。
大数据会带来更多的威胁,毕竟,大数据的核心思想就是用规模剧增来改变现状。 -- 数据的创新性用途
大数据提供的不是最终答案,只是参考答案。