大数据入门第一天2018,01,02

大数据技术入门:hadoop,Spark两大框架,大数据技术大串讲
适用于技术干部 ,cio ,cto,it经理,初学者,大数据入门
内容简介:从2015年开始,国内大数据市场继续保持高速的发展态势,作者在与地方政府,证卷金融公司的项目中发现,他们对大数据技术很感兴趣,并希望从大数据技术等方面得到指导和应用帮助,本书共12章,以hadoop和Spark框架为线索,比较全面地介绍了hadoop技术,Spark技术,大数据存储,大数据访问,大数据采集,大数据管理,大数据分析等内容。最后还给出两个案例:环保大数据和公安大数据。
前言:我们生活在大数据时代,正以前所未有的速度和规模产生数据,数据资产正成为土地资本,人力并驾齐驱的关键生产要素,并在社会,经济,科学研究等方面颠覆人们探索是季节的方法,驱动产业间的融合与分立。
大数据是用来描述数据规模巨大,数据类型复杂的数据集,它本身蕴含着丰富的一些信用记录,比如:在金融行业企业和个人的一些信用记录,消费记录,客户点击数据集,客户刷卡,存取款,电子银行转账,微信评论,等行为数据组合为金融大数据,他们利用大数据技术为财富客户推荐产品,利用客户行为数据设计满足客户需求的金融产品,利用金融行业全局数据了解业务运营薄弱点并加快内部数据处理速度,利用决策树技术进入抵押贷款管理,利用数据分析报告实施产业信贷风险控制,利用客户社交行为记录实施信用卡反欺诈,依据客户消费习惯,地理位置,销售时间进行推荐,不仅仅金融行业,政府部门会根据大数据分析结果来做预算,企业也会根据大数据来进行市场策略调整。Gartner指出,64%的受访企业表示他们正在或是即将进行大数据工作,然而其中一些企业却不知道他们能够使用大数据做些什么。这正好印证了大数据领域的最主要的两个挑战,如何从大数据中获取价值以及如何定义大数据价值战略。这是本书首先需要解释的内容。
谷歌,Amazon,Facebook等全球知名互联网企业作为大数据领域的先驱者,凭借自身力量进行大数据探索,甚至在必要时创造出相关工具,这些工具目前已经被视为大数据技术的基础,其中目前已经被视为大数据技术的基础,其中最知名的当数Mapreduce与Hadoop。Hadoop是目前处理大规模结构化与非结构数据的首选平台,它提供了分布式处理框架与开发环境。Mapreduce是一种计算框架,他实现了将大型数据处理任务分解成很多个单个的,可以在服务器集群中并行执行的任务分解成单个的,可以在服务器集群中并行执行的任务,这些任务的计算结果可以合并在一起来计算结果可以合并在一起来计算最终的结果,在Hadoop问世以来的十年间,新的组件层出不穷,极大地扩张了整个Hadoop生态圈。大数据技术有别于传统数据处理工具和技术,而且大数据技术很难掌握,一般需要1-2年的反复测试,在实际使用中解决了大量问题之后才能正确理解它,我们编写这本书的目的是,以硅谷大数据实战为基础,让读者略过那些不重要的大数据的细枝末节,通过实际的案例,帮助读者快速掌握大数据技术领域最能商用的大数据工具和软件平台,从而帮助读者轻松实施大数据方案,在本书中,我们将阐述如下最为硅谷所熟知的大数据相关技术。
框架:Hadoop,Spark
集群管理:Mapreduce,Yarn,Mesos
开发语言:Java,Python,Scala,Pig,Hive,Spark SQL
数据库:NoSQL,HBase,Cassandra,Impala
文件系统:HDFS,Ceph
搜索系统:Elastic Search
采集系统:Flume,Sqoop,Kafka
流式处理:Spark Streaming Storm
发行版:Horton Works ,Cloudera。MapR
管理系统:Ambari,大数据管理平台。
机器学习:Spark MLlib Mahout
上面的列表也说明了,Hadoop生态圈由几十个软件组成。这些软件提供了什么功能?到底在什么情况下使用神魔软件?软件之间怎么组合使用的?这些问题正是本书想要回答的。本书与市场上其他大数据书籍的区别是,我们不是专注于某一个软件,而是阐述整个生态圈的主流软件,通过实例让你理解这些软件是什么,在什么场合使用。相互的区别是什么。如果我们把这几十个软件比喻成几十种厨房工具,那就是让你避免拿着菜刀去削苹果,或者拿着水果刀去剁肉。
除了阐述大数据的定义,前景和各类Hadoop发行版本外,本书主要是按照大数据处理的几个大步骤来组织内容的。
(1)大数据存储:探究HDFS和HBase作为大数据存储方式的优劣。
(2)大数据访问:探究SQL等组件的功能,并阐述了全文搜索的ElasticSearch,也探究了Spark的高速访问能力。
(3)大数据采集:大数据的采集是指接收各类数据源的数据。大数据采集的主要特点和挑战是导入的数据量大,并发数高和数据源的异构。采集端可能会有很多数据库,有时需要再导入基础上做一些简单的清洗和预处理工作。在这个部分,我们探究了Flume,Kafka,Sqoop等技术。也探究了如何使用Storm和SparkStreaming来对数据进行流式计算,来满足部分业务的实时和准实时计算需求。
(4)大数据管理:探究数据模型,安全控制,数据生命周期等数据管理内容
(5)大数据的统计和分析:探究了如何利用分布式计算集群来对存储于其内的海量数据进行统计分析。重点探究了机器学习和Spark MLlib,也阐述了多种分析算法
‘’‘’‘’’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘’‘第一章:大数据时代:从二十世纪开始,政府和各行各业的信息化得到了迅速发展,积累了海量数据,在这些数据当中,87%以上都是非结构化数据。虽然国内的各类数据中心已经有足够的硬件设施来存储这些数据,但是,如何让这些海量数据产生最大的商业价值,是目前面临的挑战之一。还有,由于数据的增长库或数据仓库很难存储。管理,查询,和分析这些数据,如何在UR案件层面上实现PB级乃至ZB级的海量数据存储和分析是目前面临的挑战之二。大数据技术即将因此而生,并成功地解决了这两个挑战,以大数据的采集,整理存储管理挖掘共享分析反馈,应用为核心最终实现智慧城市,根据IDC预测,2016年的全球大数据市场规模将达到230亿美元。
什么是大数据?大数据不是一项单一的技术,而是一个概念,是一套技术,是一个生态圈,大数据技术和专业术语多达几十个,记录了大数据从炒作到成熟并进入主流应用的过程,数据科学家,预测分析,开放政府数据,都属于大数据范畴。大数据技术也逐渐变得越来越复杂,政府和企业希望从自己的数据中获取更多重要的信息,软件厂商希望将“大数据解决方案”融入公司的产品之中。在大数据软件公司的助推下,政府和企业已经有能力利用廉价的服务器,开源技术和云计算来进行开销不大的大数据部署。对于什么是大数据,不同的研究机构从不同的角度给出不同的定义,Gartner认为:大数据是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产。麦肯锡认为:大数据值得是大小超出常规的数据库工具获取,存储,管理,和分析能力的数据集,但它同时强调,并不是说一定要超过特定的TB指的数据集才能算是大数据,根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,IDG认为:大数据会设计2种或2种以上数据形式。他要收集超过100TB的数据,并且是高速实时数据流,或者是从小数据开始,但数据每年会增长60%以上。
从客户角度来看,大数据技术的战略意义不在于拥有多模庞大的数据信息,而在于对这些韩有意义的大数据进行专业化处理,从中获取商业价值,比如:以色列已经把所有政府部门的视频整合到一个大数据管理平台上,并在这个平台上开发了一套智慧安防系统,在这个系统上,只要把某人的人脸或人的主要特征数据输入系统上,就能从海量的监控记录中查出同那个人相关的视频片段,并自动变成一个有时间顺序的片子。
随着以云计算,大数据,物联网等为代表的新一代信息技术的发展和应用,世界经济进入了大转型时代,主要发达国家以及及国内发达省市都紧盯紧跟这一轮产业变革,试图抢占未来经济发展先机,大数据是一种产业,这种产业实现盈利的关键在于提高对数据的“加工能力”通过“加工”实现数据的增值,完成数据变革没这种加工能力体现在技术上就是大数据分析,简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术,大数据最核心的就是在于对于海量数据进行采集,存储,管理和分析。
;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;大数据的四大特征:大数据具有4大特征Volume(数据体量大)Variety(数据类型繁多)Velocity(数据产生的速度快)Value(数据价值密度低)
Volume指的是数据体量巨大,比如,一家3甲医院的影响数据可能就是几百个TB,全国的医疗影像数据超过PB级别,接近EB级别,全球数据已经入ZB时代,IDC预计2020年全球数据量为40ZB
Variety指的是数据类型繁多,这可分为结构化数据,办结国华数据和非结构化数据。结构化数据,即行数据,存储在数据库里。可以用二维表结构来逻辑表达数据,比如企业财务系统,医疗HIS数据库,环境监测数据,政府行政审批等,非结构化数据,音频,图片,图像,文档,文本等形式

你可能感兴趣的:(大数据入门,大数据,spark,hadoop,技术,框架)