大数据概论期末复习

定义

摩尔定律:
摩尔定律是由英特尔(Intel)创始人之一戈登·摩尔(Gordon Moore)提出来的。其内容为:当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔18-24个月翻一倍以上。这一定律揭示了信息技术进步的速度。

数据:
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。

数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。数据和信息是不可分离的,数据是信息的表达,信息是数据的内涵。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。

数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。

在计算机系统中,数据以二进制信息单元0,1的形式表示。
数据的本质:
数据的本质是生产资料和资产。

数据不再是社会生产的“副产物”,而是可被二次乃至多次加工的原料,从中可以探索更大价值,它变成了生产资料。

大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油”。

云计算:
云计算是一个方便灵活的计算模式,它是按需、可通过网络进行访问和使用的计算资源的共享池(例如:网络、服务器、存储、应用程序服务),它以用最少的管理付出,与服务供应商有最少的交互的前提下,可以达到将各种计算资源迅速地配置和推出。

大数据:
大数据(big data)是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。从某种程度上说,大数据是数据分析的前沿技术。
大数据概论期末复习_第1张图片
5V特征:

  • 数据规模大(Volume)

从TB跃升到PB甚至EB。

  • 数据类型多(Variety)

越来越多非结构化数据;音频、视频,地理位置信息等多类型数 据对数据处理能力提出更高要求。

  • 数据价值高,价值密度低(Value)

海量数据带来了巨大的商业价值。数 据之间关联性支持深层的数据挖掘。

  • 数据处理速度快(Velocity)

对数据实时处理有着极高的要求, 通过传统数据库查询方式得到的 “当前结果”很可能已经没有价值。

  • 数据是真实的(veracity)

课上习题:
大数据时代,用户产生内容指的是(UGC–user generate content)

(回归分析)是确定两种及以上变量间相互依赖的定量关系的一种统计分析方法

百年一见的事比习以为常的事信息熵大

用信息增益度来度量熵的(降低)程度

决策树中每个(叶节点)代表一种可能的分类结果

ID3算法使用(信息增益度)选择测试属性

你可能感兴趣的:(大数据概论)