初识大数据-1

一、 什么是大数据?
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据 = “海量数据”+“复杂类型的数据”。
大数据作为互联网技术发展到现阶段最为前沿的分析技术,其有着较传统技术所没有的显著特点,大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最为优秀的。
大数据的特征(4V+1O) 业界将其归纳为4个“V”——
Volume(数据体量大):包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
Variety(数据类型繁多):种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
Velocity(处理速度快):数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。
Value(价值密度低):数量大,但是要提取其中有价值的数据。
数据是在线的(Online):数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。现在我们所谈到的大数据不仅仅是大,更重要的是数据变的在线了,这是互联网高速发展背景下的特点。比如,对于打车工具,客户的数据和出租司机数据都是实时在线的,这样的数据才有意义。如果是放在磁盘中而且是离线的,这些数据远远不如在线的商业价值大。

二、 数据 结构+非结构
参考网站:http://www.aboutyun.com/thread-9468-1-1.html

数据分类 结构化数据(即行数据,存储在[数据库]里,可以用二维表结构来逻辑表达实现的数据) 在做一个信息系统设计时肯定会涉及到数据的存储,一般我们都会将系统信息保存在某个指定的关系数据库中。我们会将数据按业务分类,并设计相应的表,然后将对应的信息保存到相应的表中。比如我们做一个业务系统,要保存员工基本信息:工号、姓名、性别、出生日期等等;我们就会建立一个对应的staff表。 但不是系统中所有信息都可以这样简单的用一个表中的字段就能对应的。 非结构化数据(,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等) 像图片、声音、视频等等。这类信息我们通常无法直接知道他的内容,数据库也只能将它保存在一个BLOB字段中,对以后检索非常麻烦。一般的做法是,建立一个包含三个字段的表(编号 number、内容描述 varchar(1024)、内容 blob)。引用通过编号,检索通过内容描述。现在还有很多非结构化数据的处理工具,市面上常见的内容管理器就是其中的一种。 半结构化数据(介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据) 这样的数据和上面两种类别都不一样,它是结构化的数据,但是结构变化很大。因为我们要了解数据的细节所以不能将数据简单的组织成一个文件按照非结构化数据处理,由于结构变化很大也不能够简单的建立一个表和他对应。本文主要讨论针对半结构化数据存储常用的两种方式。 先举一个半结构化的数据的例子,比如存储员工的简历。不像员工基本信息那样一致每个员工的简历大不相同。有的员工的简历很简单,比如只包括教育情况;有的员工的简历却很复杂,比如包括工作情况、婚姻情况、出入境情况、户口迁移情况、党籍情况、技术技能等等。还有可能有一些我们没有预料的信息。通常我们要完整的保存这些信息并不是很容易的,因为我们不会希望系统中的表的结构在系统的运行期间进行变更。

**三、 数据单位 **
大数据的采集。科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。
字节 byte:8个二进制位为一个字节(B),最常用的单位
1KB (Kilobyte 千字节)=1024B
1MB (Megabyte 兆字节 简称“兆”)=1024KB
1GB (Gigabyte 吉字节 又称“千兆”)=1024MB
1TB (Trillionbyte 万亿字节 太字节)=1024GB,其中1024=2^10 ( 2 的10次方)
1PB(Petabyte 千万亿字节 拍字节)=1024TB
1EB(Exabyte 百亿亿字节 艾字节)=1024PB
1ZB (Zettabyte 十万亿亿字节 泽字节)= 1024 EB
1YB (Jottabyte 一亿亿亿字节 尧字节)= 1024 ZB
1BB (Brontobyte 一千亿亿亿字节)= 1024 YB

四、 数据分析流程: 采集-ETL-分析-显示
参考网站1:http://blog.jobbole.com/86708/参考网站2:http://www.mahaixiang.cn/sjfx/817.html

决定目标;2. 确定业务手段;3. 数据收集;4. 数据清洗;5. 数据建模;6. 培养一个数据科学团队;7. 优化和重复;
采集与预处理(清洗)——>存储管理——>计算模式——>分析挖掘——>可视化处理

采集与预处理:从数据源采集的数据,需要通过数据融合、数据集成、数据整合,生成新的数据集,供后续查询、分析、处理提供统一的数据视图

五、 计算模式:迭代 流 批处理 交互式
交互式

  • 系统与操作人员以人机对话的方式一问一答—
  • 操作人员提出请求,数据以对话的方式输入,系统便提供相应的数据或提示信息,引导操作人员逐步完成所需的操作,直至获得最后处理结果.
  • 存储在系统中的数据文件能够被及时处理修改,同时 处理结果可以立刻被使用.
  • 典型系统有Dremel、spark

批处理

  • 最适合于完成大数据批处理的计算模式是MapReduce ,
  • MapReduce 是一个单输入、两阶段( Map 和Reduce) 的数据处理过程。首
  • 对具有简单数据关系、易于划分的大规模数据采用"分而治之"的并行处理思想
  • MapReduce 提供了一个统一的并行计算框架,把并行计算所涉及到的诸多系统层细节都交给计算框架去完成,
  • 简化了程序员进行并行化程序设计的负担。

流式计算

  • 对一定时间窗口内应用系统产生的新数据完成实时的计算,避免造成数据堆积和丢失。
  • 在电信、电力、道路监控、互联网日志处理等得到广泛应用。
  • 数据运动,计算不动,不同的运算节点常常绑定在不同的服务器上

迭代

  • 解决批量计算的难以迭代的缺陷
  • 典型应用:spark

图计算

  • 图由于自身的结构特征,可以很好地表示事物之间的关系
  • 随着图中节点和边数的增多(达到几千万甚至上亿数), 图数据处理的复杂性增加
  • 图的存储和处理都十分困难
  • 中较为典型的系统包括Google 公司的Pregel 、Facebook Giraph 、Spark 下的GraphX

六、 简介分布式系统

七、 CDH
目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Platform,简称“HDP”),对于国内而言,绝大多数选择CDH版本。

八、 CAP原理
C:Consistency(一致性), 所有的节点上的数据时刻保持同步
A:Availability(可用性), 每个请求都能接受到一个响应,无论响应成功或失败
P:Partition tolerance(分区容错性) :系统应该能持续提供服务,即使系统内部有消息丢失(分区)

九、 hadoop技术栈 hdfs,mapreduce,hive,hbase,sqoop

你可能感兴趣的:(初识大数据-1)