大数据学习札记

大数据技术及应用教程

1.1 数据与信息的关系

  1. 数据是一种未经加工的原始的资料。数据是客观对象的表示,二信息则是数据内涵的意义,是数据的内容和解释。

  2. 信息与数据的关系是:信息与数据是不可分离的,数据是信息的表达,信息是数据的内涵。

1.2 数据的分类

信息可以划分为两大类

  • 一类信息是能够用数据或统一的结构表示的,结构化数据;
  • 一类是无法用数字或统一的结构表示的,如文本、图像、声音、王爷等。
  • 结构化数据是非结构化数据的一种特例,子集。

结构化数据

  • 结构化信息是指信息经过分析后錒分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,使用和维护通过数据库进行管理,并由一定的操作规范。
  • 我们通常接触的,包括生产、业务、交易、客户信息等方面的记录都是属于结构化信息的。
  • 结构化数据简单来说就是存储在结构化数据库里的数据,可以用二维表结构来逻辑表达实现的数据。如ERP

非结构化数据

  • 不方便用数据库二位逻辑表来表现的数据。
  • 所谓非结构化数据库,是指数据库的变长记录由若干不可重复和可重复的字段组成。结构不清晰。
  • 用它不仅可以处理结构化数据,而且更适合处理费结构化数据。
  • 简单的说,非结构化数据库就是字段可变的数据库。

半结构化数据

  • 所谓半结构化数据,如HTML文档就是半结构。
  • 它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。

各类数据的区别

  • 结构化数据:行数据,存储在数据库里,可以用二维表来逻辑表达实现的数据
  • 非结构化数据: 包括所有格式的办公文档,文本、图片、XML音频等,列结构
  • 半结构化数据:自描述的,数据结构和内容混在一起

互联网信息分类

  1. 结构化信息, 电子商务信息,信息的性质和量值出现的位置固定;
  2. 半结构化信息, 专业网站的细分频道,其标题和正文的语法相当规范,关键词的范围相当局限
  3. 非结构化的信息: 如blog和bbs,所有内容都是不可预知的。

中国企业数据现状

  • 目前,中国企业500强的每日数据生成量近一半多于1GB

信息

信息的定义

  • “信息”information
  • 它是对客观世界中各种十五的运动状态和变化的反映,是客观事物之间相互联系和相互作用的表征,表现的是客观事物运动状态和变化的实质内容。
    信息技术::是指信息的搜集、识别、提取、变换、存储、传递、利用等技术

信息资源

  • 只要十五之间的相互联系和相互作用的存在,就有信息发生。
  • 资源三角形:
    -物质资源,能量资源,信息资源
  • 狭义的信息资源,指的是信息本身或信息内容经处理加工对决策有用
  • 广义的信息资源是指信息活动中各种要素的总称

总的来说,信息资源由信息生产者,信息,信息技术三大要素组成

信息的应用意义

  • 如果说结构化信息更多的忠实的记录了企业的生产交易活动,是显性的表示,那么非结构化信息则隐性的包含了掌握着企业命脉的关键,隐含着许多提高企业效益的机会。

大数据发展历史

大数据出现的背景

  • 最早提出概念,全球出名麦肯锡咨询公司
  • 大数据不能用G\T来衡量,起始计量单位至少是P、E或Z

互联网背景下出现的大数据

  1. 越来越多的私有化的WEB化数据。
  2. 巨量增长的没有WEB化的数据。
    1. 人工整理的数据
    2. APP数据
    3. 社交数据
    4. 个人云应用数据

大数据的定义和特点

大数据,bigdata

  • 大数据或称巨量资料,指的是涉及数据巨大,无法透过主流软件,在一个合理的时限内进行处理成为帮助决策的咨询
    研究机构Gartner给出的定义。“大数据”是需要新处理模式才能具有有更强的决策力、的那个查理和多样化的信息资产。

  • 大数据从本质上来讲包含数量、类型、速度3个维度的问题。

      	* 数据体谅大
      	* 数据产生快
      	*  数据类别(variety)大
      	* 数据处理速度(velocity)快
      	* 处理方式:批处理,流处理
      	* 数据真实性(veracity)高
    

大数据的实质

  • 狭义字面意思,它应该与小数据相对应,指特别巨大的数据两,无法通过常规手段处理的数据集合
  • 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。如果把大数据比作一种产业,那么盈利的关键在于提高数据的加工能力,通过加工实现数据的“增值”。

大数据特点

- Variety 多样
- Value 价值,价值真实性高和密度低
- Velocity 告诉

** 大数据的价值 **

  1.  精准营销
  2. 做小而美模式的中小型企业可以利用大数据做服务转型
  3. 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值

大数据能做和不能做的事

  1. 大数据可以做到的事情:

     1. 诊断分析
     2. 预测分析
     3. 在未知元素间寻找关联
     4. 规范的分析
     5. 监控发生的事件
    
  2. 大数据不能做到的事情:

     1. 预测一个确定的未来;
     2. 归咎于新的数据源:切换新的应用场景后得到的一系列关系无法复用
     3. 找到一个商业问题的创新的解决方案:找到一个没有实例的事件的解决办法
     4. 找到定义不是很明确的问题的解决办法
     5. 数据管理/简化新数据源的数据
    

大数据的分类

按照数据分析的实时性,分为实时数据分析和离线数据分析

  1. 实时数据分析

     - 需要采用海量数据实时分析工具,采用一些内存计算平台,或者采用HDD架构,无疑需要比较高的软硬件成本
     - 互联网企业的海量数据采集工具,均可以采集实时数据
    
  2. 离线数据分析
    - 如离线统计分析,机器学习,搜索引擎的反响索引计算,一般采用离线分析方式,通过数据采集工具将日志数据导入专用的分析平台
    - 在面对海量数据,传统的数据处理工具失效,数据格式转换开销太大,性能无法满足

按照大数据的数据量,分为内存级别,海量级别,商业智能(BI)级别三种

  1. 内存级别:

    • 内存级别指的是数据量不超过集群的内存最大值,FACEBOOK缓存在内存中的数据高达320TB
  2. 海量级别

    • 海量级别指的是对于数据库和商业智能产品已经完全失效或者成本过高的数据量。目前多采用Hadoop的HDFS分布式文件系统来存储数据,并使用Mapreduce进行分析
  3. 商业智能级别

数据处理

  • 大数据处理数据时代理念的三大转变:

      要全体,不要抽样
      要效率不要绝对精确
      要相关不要因果
    
  • 具体的大数据处理方法其实有很多,但是根据长时间的实践,总结了一个基本的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助

  • 整个处理流程可以概括为四个步骤

    • 采集
    • 导入和预处理
    • 统计和分析
    • 数据挖掘

采集

利用多个数据库接受发自客户端的数据,并进行简单的查询和处理

比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

导入和预处理

  • 统计和分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普遍的分析和分类汇总等
  • 在这方面,一些实时性需求会用到 Oracle Exdata

统计和分析

  • 如果要对海量数据进行有效分析,还应该将这些数据导入到一个集中的大型分布式数据库,进行一些清洗和预处理工作

数据挖掘

  • 数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。
  • 比较典型算法有用于聚类的K-Means,用于统计学习的SVM和用于分类的Naive Bayes,主要使用的工具有Hadoop的Mahout等。

大数据分析的方法理论

包含五个基本方面

数据挖掘算法(data mining Algorithms)

可视化是给人看的,数据挖掘算法是给机器看的

三大技术推动大数据分析平台的发展

  1. 云存储
  2. 数据抓取技术
    爬虫,可穿戴设备,分布式传感器,RFID,指纹识别
  3. 数据可视化技术
    对返回数据进行二次分析,让人能够更方便去理解数据的规律

云平台和云存储

大数据的强大后台是云计算

  • 基础设施服务,Iaas infrastructure-as-a-service
    想使用,但是不想安装或维护
  • 平台服务,Platform-as-a-service
    Paas能够和一些开发软件工具结合,例如Java,Net,Python等,方便用户编码或上传代码
    主要被一些公司用来外包他们的基础设施
  • 软件即服务,Saas,Software-as-a-service
    利用互联网提供软件服务,不需要下载到客户端
    很多数据处理和文本处理软件开始转向云计算的SAAS,如office 365 google app等

大数据的社会价值

  1. 推动实现巨大的经济效益

应用

  1. 政府管理方面:网络造假打击,交通缓解,智慧城市,证监会调查内幕交易,畜牧大数据
  2. 在公共服务方面:NHS糖尿病管理,智能学习,信贷,RTB广告,意外天气保险

大数据处理的基础框架

处理大数据的特色就是在于对那些还良性的数据进行分布式的数据挖掘。

计算机云计算技术时代的到来讲大数据处理变成了现实

大数据内部所含有的资产性质,被计算机云计算技术进行了实实在在的验证。

可用大珊瑚橘来形容某家公司所创造的那些大量非机构化数据和半结构化数据,但不能将这些数据下载到关系型的数据库中进行处理。

云计算网络

  • 云计算(cloud computing)是分布式计算技术的一种,其最基本的概念,是通过网络将庞大的计算处理程序自动分析称无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。
  • 以前的大规模分布式计算技术即为“云计算”的概念的起源。

云计算的核心思想和概念

按需服务

云计算简介

1.简介

云计算是网络计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等传统计算机技术和网络技术发展融合的产物。

2.定义

狭义的云计算

  • 提供资源的网络被称为“云”

  • “云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取、按需使用。随时扩展,按使用付费。

  • 这种特性经常被称为像水电一样使用IT基础设施

广义的云计算

  • 这种服务可以是IT和软件,互联网相关的,也可以是任意的其他的服务,这种资源池称为“云”
  • “云”是一些可以自我维护和管理的虚拟计算资源,通常为一些大型服务器集群,包括计算服务器、存储服务器、宽带资源等等。
  • 云计算是并行计算、分布式计算、和网络计算的发展,或者说是这些计算机科学概念的商业实现。

原理

  • 云计算的基本原理是,通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将更与互联网相似。
  • 这使得奇特能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。

特点

  1. 数据安全可靠
  2. 客户端需求低
  3. 轻松共享数据
  4. 可能无限多
  5. 营销
    通过网络忙吧多个成本较低的计算实体集合

云计算系统的体系结构

1. 云计算逻辑结构

云计算平台是一个强大的“云”网络,链接了大量并发的网络计算和服务,可利用虚拟化技术扩展每一个服务器的能力。

  1. 云用户端
    提供云用户请求服务的交互界面,也是用户使用云的入口,一般为web浏览器。
  2. 服务目录
    云用户在取得相应权限后可以选择或定制的服务列表,也可以对已有的服务进行退订的操作,在云用户端界面生成相应的图标或列表的形式展示相关的服务。
  3. 管理系统和部署工具
    提供管理和服务,能管理云用户,能对用户授权、认证、登录进行管理,并可以管理可用计算资源和服务,接受用户发送的请求,根据用户请求并转发到相应的程序,调度资源智能的部署资源和应用,动态的部署、配置和回收资源
  4. 监控
    监控和计量云系统资源使用情况,确保资源能顺利分配给合适的用户
  5. 服务器集群
    虚拟的或物理的服务器,由管理系统管理,负责高并发量的用户请求处理,大运算量计算处理,用户web应用服务,云数据存储时采用相应数据切割算法采用并行方式上传和下载大容量数据

云计算的主要服务形式

  1. Iaas
  2. Paas
  3. Saas

云计算应用

  1. Googledocs
    类似微软office 365的在线办公软件

  2. GoogleAPPs
    Gmail、GoogleTalk、Google Sites

3.Google Sites

  1. Google APPEngine

你可能感兴趣的:(大数据学习)