内容提要:(Kea Bird)高山鹦鹉
1. 什么是数据科学家?
数据科学家是指采用科学方法,运用数据挖掘工具寻找新的数据洞察力的工程师。
一般集技术专家和数据分析师的角色于一身。
2. 这本书讲了什么?
介绍称为数据科学家应当了解的各类知识。
3. 什么是数据科学?
数据科学基于大数据诞生的交叉科学。
4. 大数据一般特征:
(1)体量(Volume):单机无法处理,依赖于基于网络的并行计算进行数据处理
(2)多样(Variety): 非结构化的数据是主要组成部分。
(3)高速(Velocity): 数据诞生的速率以及要处理的速率都要去很高
(4)精确(Veracity): 大数据同样要照顾到数据的质量(精确度),尽量识别出掺杂在数据中的杂讯(噪音)。
5. 数据分析师和数据科学家
数据分析师依靠一系列被预定义好的模型来导出有用的信息并制成报表交给业务人员过目。
数据科学家则是自己构建模型,或是在他的分析过程中使用完全由数据驱动的分析方法,推出一些能为他人所有的成果。
6.数据科学家的成果
给出连用户都不知道的有价值的信息
第一章 数据科学与大数据
1. 大数据是当今商业的基础资产。
说白了,就是信息优势。通过对海量的数据,实时地处理,以获得一个最接近完美的指导性解决方案。
单体的人具有的能力是十分有限的,受限于自身的视野和能力无法做出十分准确做出最有利于自己的决策。而大数据就是一个神棍,会以近乎神明的视野告诉你怎么做会更有利,而不是去愚蠢的试错。
2.数据科学
处理大数据是个巨大的挑战,而数据科学力图解决这个难题。
总结:
大数据很重要,可能会颠覆整个社会的运行模式。所以数据科学也变得很重要,未来需要更多的人参与。
第二章 数据科学的重要性
1. 数据科学的历史起源
数据科学的萌芽起源于1962年的《数据分析的未来》一书。
最开始的定义为:一门研究数据处理的科学,在创立之初,数据与他所表示的事物之间的关系属于其他学科领域的范畴。
20世纪80年代,由于一项名为数据挖掘的方法而快速发展。
数据挖掘则被定义为“从大数据集中抽取信息”
2 数据科学基石:实现了新规则的程序工具诞生
(1)MapReduce:关于计算能力的并行,分布式算法
(2)HDFS:关于存储能力的分布式文件系统
(3)高级文本分析:也就是自然语言处理(NLP),提取非机构化文本信息
(4)大规模数据程序语言:有效处理大数据集的编程语言,如Pig,R,ECL
(5)替代性的数据库结构:利用并行计算技术来处理大数据的文档,查询以及编辑的数据库。(HBASE,MongoDB)
说白了,数据科学的基石就是计算机集群。新的技术能有效利用计算机集群。
3. 高级文本分析技术
高级文本分析使用户可以处理大量的文本数据,在允许诸如拼写错误,句内的多次分割以及其他问题的前提下,能够精确快速地找到文本模式。
高级文本分析能够在社交媒体的帖子上确定情绪表达,识别出是否某人的评论是直述或是嘲讽,而这些在没有利用这些高级文本分析方法前对于机器来说是极难处理的,这种进步使通过在Hadoop环境内部署人工智能算法应用成为可能。
4.成为数据科学家的几点要求:
(1)现代环境下,编程语言出现十分迅速,可能你看完这本书的时候,已经又有新语言增加到这个行列中去了。
(2)数据科学需要我们更系统地思考,将对问题的创见行方法与实际情况结合在一起。
(3)一个数据科学家应该能够轻易地学习新知。
随着大数据技术的快速发展的脚本,数据科学家必须具备敏锐的头脑来快速掌握新的方法以及熟悉新的工具。
需要擅长建立联系,并认识到他所缺乏的技能并开始设法学习它们。
第3章 数据科学家的类型
数据科学家基本分为四类:数据开发者,数据研究者,数据创意师以及数据商务人士。
(1) 数据开发者通常是IT人,日常工作涉及从各类数据源来收集数据以及在一个大型数据库内组织数据,从这些数据库中查询有意义的结果,以及从这些结果中推导出有价值的信息。
(2) 数据研究者通常是学术人,有着扎实的统计学背景,擅长学习各类新知。
(3) 数据创意师:有学术经历,也擅长大数据技术,机器学习以及编程。
(4) 数据商务人士:数据科学团队的领导者。 有数据科学背景,具备变现能力。