大数据时代这本书像一部论文一样给我阐述了什么是大数据,大数据的危害和管理。整体读起来有点苦涩难懂,死嚼慢咽才把它读完。还好最终在书中了解到了当今我们所处的时代是大数据时代,我们在各个应用上使用的记录都将被保存,分析并可以用到预测。大数据像过去的四大发明一样将会推动着社会的进步,但同时如果被错误利用,人类社会肯定会遭受恐怖的打击。因为数据的相关性,数据管理者可以将各种数据放在一起分析,然后找出相关性,最终达到预测一个人是什么,将会做什么,去哪里。过去公司的告知和许可在大数据面前慢慢会变得无效,转而是从数据使用者出发,数据使用者可以使用数据,但如果伤害到群众利益,将会受到更加严厉的惩罚,另外还要定期清除数据。
大数据也可以使用在设备上面,通过安装传感器监控设备,通过提前检测出有问题的设备并进行维修更换,让厂家获得更多的经济保障。因为一旦设备的某一个零件有问题,就只有在更换了零件之后生产才能继续进行。收集和分析数据的花费比出现停产的损失小得多。
一旦得以有效利用,大数据就可以变革公司的赢利模式和传统交流方式。
另外还学到了两个名词,数据独裁和数据废气。
数据独裁是指一切围绕数据,听从数据,忽略其他有用的信息。数据废气是指网民在使用网络时留下的所有无关重要的事情。
一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了,这就是“数据废气”。它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善现有的服务或开发新服务。
数据废气给公司带来强大的竞争力和给对手带来强大的进入壁垒。
数据废气的有效利用将使所有上网的用户无处遁形。
一、核心
作者抛出了大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果;
效率:因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以通常我们不会再花大力气去提升数据的精确性。
相关:通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。数据的相关关系分析法更准确、更快,而且不易受偏见的影响。
建立在相关关系分析法基础上的预测是大数据的核心。
二、危害
应用得当,大数据会是我们合理决策过程中的有力武器;倘若运用不当,它就可能会变成权贵用来镇压民众的工具,轻则伤害顾客和员工的利益,重则损害公民的人身安全。我们所冒的风险比想象中还要大。
在美国在线的案例中,我们被我们所搜索的内容出卖了。而奈飞公司的情况则是因为不同来源数据的结合暴露了我们的身份。这两种情况的出现,都是因为公司没有意识到匿名化对大数据的无效性。而出现这种无效性则是由两个因素引起的,一是我们收集到的数据越来越多,二是我们会结合越来越多不同来源的数据。
大数据时代,不管是告知与许可、模糊化还是匿名化,这三大隐私保护策略都失效了。
三、管理
公司可以利用数据的时间更长,但相应地必须为其行为承担责任以及负有特定时间之后删除个人数据的义务。
四、其他
没有市场经济制度和法治体系作为基础支撑,大数据很可能成为发达国家在下一轮全球化竞争中的利器,而发展中国家依然处于被动依附的状态之中。整个世界可能被割裂为大数据时代、小数据时代和无数据时代。
目前主要存储大数据的数据库是Hadoop,开源式分布系统的基础架构,它非常善于处理超大量的数据。通过把大数据变成小模块然后分配给其他机器进行分析,它实现了对超大量数据的处理。Hadoop的输出结果没有关系型数据库输出结果那么精确,它不能用于卫星发射、开具银行账户明细这种精确度要求很高的任务。但是对于不要求极端精确的任务,它就比其他系统运行得快很多,比如说把顾客分群,然后分别进行不同的营销活动。
很多人对“物联网”有着宗教般的狂热,试图在一切生活中的事物中都植入芯片、传感器和通信模块。这个词听起来好像和互联网亲如姐妹,其实不过是一种典型的数据化手段罢了。
不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。这就是经济学家所谓的“非竞争性”的好处:个人的使用不会妨碍其他人的使用,而且信息不会像其他物质产品一样随着使用而有所耗损。
大数据对中等规模的公司帮助并不大。波士顿咨询集团的资深技术和商业顾问菲利浦·埃文斯(Philip Evans)说,超大型的公司占据了规模优势,而小公司则具有灵活性。在传统行业中,中等规模的公司比大公司更有灵活性,比小公司更有规模。但是在大数据时代,一个公司没必要非要达到某种规模才能支付它的生产设备所需投入。大数据公司发现它们可以是一个灵活的小公司并且会很成功(或者会被大数据巨头并购)。
伴随着从核技术到生物工程学其他领域的发展,人类总是先创造出可能危害自身的工具,然后才着手建立保护自己、防范危险的安全机制。