什么是大数据?

上个季度的员工内部技术交流,做了一个ppt,浅显的为我的同事普及了一下大数据相关的内容。

尤其是它与传统数据库之间的差异。

大数据的定义:

1.没有明确界限,符合大数据标准的数据集容量可增长
2.数据量大,且数据集规模超过传统数据库软件获取、分析、存储、管理能力

我们知道传统的数据库一般是关系型的,它只能存储结构化的数据,本质上来讲可以将它看做多张二维行列表组成的数据集合。

而最开始的大数据技术采用的是非关系型数据库,可以存储各种类型的数据:

1.结构化数据:二维表,主要通过关系型数据库进行存储和管理。
2.半结构化数据:具有可识别的模式并可以解析的文本数据文件。如:xml文件
3.准结构化数据:具有不规则数据格式的文本数据。如:网站点击数据
4.非结构化数据:没有固定结构的数据。如:文本文档,图片,音频和视频

这是两者之间最明显的差异

而存储数据的多样化,也说明了数据来源的多样化,以及获取方式多样化。数据管理则是经历了人工管理、文件管理、数据库管理等三个阶段。传统的数据管理侧重的数据对象是流程、表单、数据项、算法等直接面向具体业务需求的数据;更新后的数据管理所涉及的数据对象,还增加了通过标准化的手段,描述流程、表单、数据项、算法等应用对象的数据(即它们对应的元数据),以及记录各类数据变化结果的档案、记录运行状态的日志等等非直接面向业务的数据,以实现对各类应用业务需求的加载、变化、记录、复用等过程的管理。

什么是大数据?_第1张图片

从上图可以大胆的得出一个结论,传统数据库技术与大数据技术的对立本质上是关系型数据库与费关系型数据库之间的对立。

于是有了NewSQL技术,传统RDBMS与NoSQL结合的产物。

可以比较一下。参考文章https://www.jianshu.com/p/82f31bda04b0

什么是大数据?_第2张图片

所以从传统的RDBMS,到NoSQL,再到如今的NewSQL,在我看来,都是数据库技术的革新。

什么是大数据?_第3张图片

工作层面始终是在数据层面。

介绍两个大数据系统:

 

什么是大数据?_第4张图片

关于大数据的职位体系:

什么是大数据?_第5张图片

而大数据算法又和算法类职位有一定交集

什么是大数据?_第6张图片

参考资料:微信公众号 TechHR

个人理解,欢迎探讨。

 

你可能感兴趣的:(个人观点)