8-7

1.什么是大数据,4V?

大数据作为互联网技术发展到现阶段最为前沿的分析技术,其有着较传统技术所没有的显著特点,大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最为优秀的。
大数据的4个“V”,或者说特点有四个层面:
第一,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。
第二,处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。
第三,数据体量巨大。从TB级别,跃升到PB级别;
第四,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。
业界将其归纳为4个“V”——Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度低)

2.数据 结构+非结构

参考网站:http://www.aboutyun.com/thread-9468-1-1.html

数据分类
结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)
在做一个信息系统设计时肯定会涉及到数据的存储,一般我们都会将系统信息保存在某个指定的关系数据库中。我们会将数据按业务分类,并设计相应的表,然后将对应的信息保存到相应的表中。比如我们做一个业务系统,要保存员工基本信息:工号、姓名、性别、出生日期等等;我们就会建立一个对应的staff表。
但不是系统中所有信息都可以这样简单的用一个表中的字段就能对应的。
非结构化数据(,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等)
像图片、声音、视频等等。这类信息我们通常无法直接知道他的内容,数据库也只能将它保存在一个BLOB字段中,对以后检索非常麻烦。一般的做法是,建立一个包含三个字段的表(编号 number、内容描述 varchar(1024)、内容 blob)。引用通过编号,检索通过内容描述。现在还有很多非结构化数据的处理工具,市面上常见的内容管理器就是其中的一种。
半结构化数据(介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据)
这样的数据和上面两种类别都不一样,它是结构化的数据,但是结构变化很大。因为我们要了解数据的细节所以不能将数据简单的组织成一个文件按照非结构化数据处理,由于结构变化很大也不能够简单的建立一个表和他对应。本文主要讨论针对半结构化数据存储常用的两种方式。
先举一个半结构化的数据的例子,比如存储员工的简历。不像员工基本信息那样一致每个员工的简历大不相同。有的员工的简历很简单,比如只包括教育情况;有的员工的简历却很复杂,比如包括工作情况、婚姻情况、出入境情况、户口迁移情况、党籍情况、技术技能等等。还有可能有一些我们没有预料的信息。通常我们要完整的保存这些信息并不是很容易的,因为我们不会希望系统中的表的结构在系统的运行期间进行变更。

3.数据单位 pb,Z Y

大数据的采集。科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。

4.数据分析流程: 采集-ETL-分析-显示

参考网站1:http://blog.jobbole.com/86708/
参考网站2:http://www.mahaixiang.cn/sjfx/817.html
  1. 决定目标;2. 确定业务手段;3. 数据收集;4. 数据清洗;5. 数据建模;6. 培养一个数据科学团队;7. 优化和重复;

5.计算模式:迭代 流 批处理 交互式

6.简介分布式系统?
7.CDH
8.CAP原理
9.hadoop技术栈 hdfs,mapreduce,hive,hbase,sqoop

你可能感兴趣的:(大数据,数据库)