spark----notes---first

大数据生态与spark简介

✫ 大数据概念:大数据不仅仅是数据的“大量化”,而是包含“快速化”、“多样化”和“价值化”等多重属性。
✫大数据的特点:数据量大、数据类型繁多、处理速度快、价值密度低。
✫ 大数据的影响:在思维方式方面:大数据完全覆盖了传统的思维方式(全样而非抽样、效率而非精确、相关而非因果)。
✫大数据关键技术:
(1)数据采集:利用ETL工具将分布的、异构数据源中的数据和关系数据、平面数据文件等,抽取到临时中间层后清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析。
(2)数据存储与管理:利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理。
(3)数据处理与分析:利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据。
(4)数据隐私和安全:在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全。
★大数据的关键技术
两大核心技术:分布式存储和分布式处理。
★ 大数据计算模式:
spark----notes---first_第1张图片

★大数据的代表性技术:Hadoop、Spark、Flink、Beam。
Hadoop:
(1)HDFS是hadoop的分布式文件系统。他就像我们操作系统中的文件系统一样,提供了平台中所有数据的存储以及文件服务。是hadoop系统的核心,
(2) YARN是hadoop系统的资源调度与管理框架。他的主要任务是提供系统资源的调度以及分配和管理服务。负责管理整个平台的运作。(大管家)
(3)MapReduce计算框架是hadoop系统的核心部分。他主要完成数据的分析与计算任务。MapReduce是一个分布式的计算模型。他的设计思想是为了解决大数据离散分布计算与统计的问题。MapReduce用于非实时数据分析和统计。以及大批量数据的统计。MapReduce数据响应时间较长,延迟较大。如果我们希望加快数据统计的速度,并且降低处理数据的延迟。我们可以使用大数据平台中的spark进行数据分析与处理。
(4)hadoop大数据平台是作为一个完整的系统平台使用的。既然是一个完整的平台,那么他就应该有很多不同的组成部件。我们将这个平台以及组成平台的各种不同部件、应用与模块统称为hadoop大数据平台的生态圈或生态系统。
Spark
(1)Spark的特点:
☆ 运行速度快:使用DAG执行引擎以支持循环数据流与内存计算。
☆容易使用:支持使用scala、java、python和R语言进行编程,可以通过spark shell进行交互式编程。
☆通用性:spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件。
☆运行模式多样:可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源。
spark----notes---first_第2张图片
☆spark生态系统:
spark----notes---first_第3张图片
✡ Hadoop与spark的对比:
(1)Hadoop的缺点:
✡表达能力有限
✡磁盘IO开销大
✡延迟高
✡ 任务之间的衔接涉及IO开销
✡ 在前一个任务执行完成之前,其他任务就无法开始,难以胜任复杂、多阶段的计算任务。
(2)spark优点:
spark的计算模式属于Mapduce,但不局限Map和Reduce操作,还提供了许数据操作类型,编程模型比Hadoop MapReduce更灵活。
spark提供了内存计算,可将中间结果放到内存中,对于迭代计算效率更高
spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制。
(3)对比执行流程图:
spark----notes---first_第4张图片
(4)执行逻辑回归时间对比:
✬ Hadoop进行迭代计算非常耗资源
✬ spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据。
spark----notes---first_第5张图片

你可能感兴趣的:(笔记,spark)