第一讲:大数据概述

--内容来自厦门大学林子雨教授的《大数据技术原理》课程,作为学习笔记。

1.1大数据时代;

1.2大数据概念;

1.3大数据的影响;

1.4大数据的应用;

1.5大数据关键技术;

1.6大数据计算模式;

1.7大数据产业;

1.8大数据与云计算、物联网的关系

1.1.1第三次信息化浪潮

第一次:1980年前后    个人计算机    解决信息处理;

第二次:1995年前后    互联网    解决信息传输;

第三次:2010年前后    物联网、云计算和大数据    解决信息爆炸;

1.2.1大数据有:VOLLUME(大量化),VELOCITY(快速化),VARIETY(多样化),VALUE(价值化)4V;

    数据量大,数据类型繁多,处理速度快,价值密度低,商业价值高;

1.3.1在思维方式方面,大数据完全颠覆传统的思维方式:全杨而非抽样、效率而非精确、相关而非因果;(书籍:BIG DATA,大数据时代)

1.4.1大数据无处不在,《纸牌屋》,谷歌流感趋势都是具体应用;

1.5.1大数据技术的不同层面及应用

大数据技术的不同层面及其功能
技术层面 功能
数据采集 利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数 据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载 到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析
数据存储和管理 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云 数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理
数据处理和分析 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算 法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据
数据隐私和安全 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐 私数据保护体系和数据安全体系,有效保护个人隐私和数据安全

大数据的两大核心技术:分布式存储和分布式处理

1.6.1大数据的计算模式

大数据计算模式及其代表产品
大数据计算模式 解决问题 代表产品
批处理计算 针对大规模数据的批量处理 MapReduce、Spark
流计算 针对流数据的实时计算 Storm、S4、Flume、Streams、Puma、DStream...
图计算 针对大规模图结构数据的处理 Pregel、GraphX、Giraph、PowerGraph、Hama...
查询分析计算 大规模数据的存储管理和查询分析 Hive、Dremel、Impala...

1.7.。。。

1.8.1云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别;

    云计算实现了通过网络提供可伸缩、廉价的分布式计算能力,用户只需要在具备网络接入的地方,就能够随时随地获得多需的各种IT资源;

IaaS:基础设施即服务,将基础设施(计算资源,存储)作为服务出租;

PaaS:平台即服务,将操作系统及围绕特定应用的必需服务作为服务出租;

SaaS:软件即服务,出租一个应用程序(部分功能);

    云计算的关键技术:虚拟化、分布式存储、分布式计算、多租户;

1.8.2物联网是物物相连的互联网,它利用局部网络或互联网通信技术把传感器、控制器、机器、人员和物通过新方式连在一起,实现人与物、物与物相连,实现信息化和远程管理控制;

    物联网的关键技术:识别和感知技术、网络与通信技术、数据挖掘与融合技术。。。

你可能感兴趣的:(大数据,Hadoop)