《大数据的冲击》读后感+总结

大数据难以管理的原因,可以用 3V 来描述,即 Volume(容量) 、Variety(多样性) 、Velocity(产生频率、更新频率)。从广义上来说,大数据可以定义为包括因具备 3V 特征而难以进行管理的数据,对这些数据进行存储、处理、分析的技术,以及能够通过分析这些数据获得实用意义和观点的人才和组织的综合性概念。

大数据出现的前提,从技术方面来看,硬盘价格下降,NoSQL 数据库等技术的出现,使得和过去相比,大量数据能够以廉价高效的方式进行存储。。此外,像 Hadoop 这样能够在通用性服务器上工作的分布式处理技术的出现,也使得对庞大的非结构化数据进行统计处理的工作比以往更快速且更廉价。


数据科学家所需的技能

数据科学家所需的技能如下。
(1)  计算机科学

一般来说,数据科学家大多要求具备编程、计算机科学相关的专业背景。简单来说,就是对处理大数据所必需的 Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。
(2)  数学、统计、数据挖掘等除了数学、统计方面的素养之外,还需要具备使用 SPSS、SAS 等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境 R 最近备受瞩目。R 的强项不仅在于其包含了丰富的统计分析库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简单的命令来运行。此外,它还具备称为 CRAN(The Comprehensive R Archive Network)的包扩展机制,通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。

(3)  数据可视化(Visualization)信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发 Web 原型,使用外部 API 将图表、地图、Dashboard 等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。将数据与设计相结合,让晦涩难懂的信息以易懂的形式进行图形化展现的信息图(Infographics)最近正受到越来越多的关注,这也是数据可视化的手法之一

研究生院的成立

位于伊利诺伊州芝加哥郊外埃文斯顿市的美国名牌私立大学——西北大学(Northwestern University) ,就是其中之一。西北大学决定从2012 年 9 月起在其工程学院下成立一个主攻大数据分析课程的分析学研究生院,并开始了招生工作。西北大学对于成立该研究生院是这样解释的: “虽然只要具备一些 Hadoop 和 Cassandra 的基本知识就很容易找到工作,但拥有深入知识的人才却是十分缺乏的。


扩充阅读

《数据之美》 (Beautiful Data,Toby Segaran、Jeff Hammerbacher 编著, O’Reilly 出版 a)


你可能感兴趣的:(大数据big,data,生活,乐趣)