Saprk 第3页

ubuntu docker saprk单机集群搭建

1，制作ssh基础镜像：已制作好，地址：https://dev.aliyun.com/detail.html?spm=5176.1972343.2.4.J1rQiF&repoId=785862，制作单机镜像：在ubuntu_sshd基础之上引用地址：http://blog.csdn.net/u010171031/article/details/51849562在安装Spark之前，我们需要在自己的

高威·2019-11-07 07:33

Spark Streaming中序列化问题：org.apache.spark.SparkException: Task not serializable

利用saprkstreaming实时分析数据时报的一些问题：打印日志如下：org.apache.spark.SparkException:Tasknotserializableatorg.apache.spark.util.ClosureCleaner

FLEMMINGS·2019-07-07 12:07

PySaprk 将 DataFrame 数据保存为 Hive 分区表

PySaprk将DataFrame数据保存为Hive分区表创建SparkSessionfrompyspark.sqlimportSparkSessionspark=SparkSession.builder.enableHiveSupport

XnCSD·2019-06-28 18:48

spark笔记环境配置

spark笔记spark简介saprk有六个核心组件：SparkCore、SparkSQL、SparkStreaming、StructedStreaming、MLlib，GraphxSparkCore相当于

九转星辰·2019-06-23 17:00

pysaprk报错：Py4JJavaError

pysaprk：toPandas报错Py4JJavaErrorTraceback(mostrecentcalllast)Py4JJavaError:Anerroroccurredwhilecallingo946

Bob Tung·2019-05-30 10:33

新手如何学习大数据？完整的大数据学习体系你看了吗？

整理的大数据学习思路第一阶段：linux系统本阶段为大数据学习入门基础课程，帮大家进入大数据领取打好Linux基础，以便更好的学习Hadoop、habse、NoSQL、saprk、storm等众多技术要点

数据工程师金牛·2019-05-09 19:24

spark sql 读取hbase中数据保存到hive

新建SaprkReadHbase类：packagesparksqlimportjava.util.Propertiesimportorg.apache.hadoop.hbase.HBaseConfigurationimportorg.apache.hadoop.hbase.client.Resultimportorg.apache.hadoop.hbase.io.ImmutableBytesWri

lin502·2019-04-25 11:36

6.Spark-submit 提交参数总结

spark提交任务常见的两种模式:1,local[k]:本地使用k个worker线程运行saprk程序.这种模式适合小批量数据在本地调试代码用.

__元昊__·2019-04-23 17:35

如何学习大数据？这才是完整的大数据学习体系！！

整理的大数据学习思路第一阶段：linux系统本阶段为大数据学习入门基础课程，帮大家进入大数据领取打好Linux基础，以便更好的学习Hadoop、habse、NoSQL、saprk、storm等众多技术要点

数据工程师陈晨·2019-04-22 16:49

史上最简单的spark教程第四章-Java操作SaprkApi常用案例大集合

spark+Java代码案例集合:这一章节大部分都是代码实例,spark中大部分常见的转换操作和行动操作包含特定数据类型的RDD还支持的一些附加操作,比如数字型的RDD支持的统计型函数操作.键值对RDD的聚合和键值操作等史上最简单的spark教程所有代码示例地址:https://github.com/Mydreamandreality/sparkResearch(提前声明:文章由作者:张耀峰结合自

李时珍皮啊·2019-03-15 18:11

同一条sql语句，Spark Sql 和 hive shell 查询数据结果不一致。

背景:hive表数据文件存储格式是parquet,存储在aliyun的oss存储中问题描述:saprksql程序读取结果:hiveshell数据读取结果:hiveshell查询的结果是完整的.数据的写入通过

HappyLin0x29a·2019-03-14 17:47

Spark的RDD工作机制原理以及实例详解

1、在介绍RDD工作原理之前再回顾一下WordCount的例子：第一步：创建saprk的

香山上的麻雀1008·2019-03-09 19:48

Flink累加器的使用(accumulator)

Flink的Accumulator即累加器，与SaprkAccumulator的应用场景差不多，都能很好地观察task在运行期间的数据变化可以在Flinkjob任务中的算子函数中操作累加器，但是只能在任务执行结束之后才能获得累加器的最终结果

JasonLee'blog·2019-01-28 00:00

Hadoop与Spark关系

Hadoop与Spark的关系目录一：介绍1:Spark2:Hadoop二：不同层面的关系1:功能2:依赖关系3:数据量影响4:容错说明：近期在做一个图关系项目时，使用到了saprk分析引擎和Hadoop

yoylee_web·2018-11-11 17:14

Hadoop与Spark关系

Hadoop与Spark的关系目录一：介绍1:Spark2:Hadoop二：不同层面的关系1:功能2:依赖关系3:数据量影响4:容错说明：近期在做一个图关系项目时，使用到了saprk分析引擎和Hadoop

yoylee_web·2018-11-11 17:14

spark中 Dynamic Allocation 以及 num-executors 的问题

过一段时间，使用spark1.6的saprk-sql时发现有这么一个warnWARNspa

EnterPine·2018-09-12 16:41

pySaprk，pycharm编写spark的python脚本，远程上传执行和本地模式执行

上次，我们用scala来编写来spark，这次我们用python来写spark脚本，我们在上篇博客中说过，spark的版本是2.2.0，scala的版本是2.1.x，这样我们在集群中，由于spark的版本，没有办法使用pySparkwordcount.py来执行脚本，只能使用sparksubmitwordcount.py来执行脚本，在Linux环境是这样执行的，但是我们写脚本，可以直接在Linux

Jameslvt·2018-08-30 10:08

关于spark-submit的一些笔记

在配置完saprk之后，在cmd下运行spark-submit--help查看出现以下内容：其中常用的有：--class:主函数所在的类。

妈妈说名字要起的长看起来才够叼·2018-05-20 15:36

pysaprk的使用

首先你要保证你已经安装成功了python和spark附连接:pyspark的安装与配置hadoop的安装要想使用pyspark需要先开启hadoop:start-dfs.sh接着在命令框输入:jupyter-notebook--ip192.168.50.88JupyterNotebook（此前被称为IPythonnotebook）是一个交互式笔记本，支持运行40多种编程语言。在上面可以更方便的进行

Se_cure·2018-04-22 18:28

Hadoop（四）—— Saprk笔记

什么是spark？基于内存一站式快速的计算框架spark下面有哪些产品？sparkcore-->sparkrdd,spark核心编程，MapReducesparksql-->hivesparkstreaming-->storm,流式实时计算sparkmllib-->机器学习，人工智能核心是算法-->核心是数学-->概率论，线性代数，高数(微积分)关系不大sparkgraphX-->图计算算法为什么

Yatpif·2018-04-16 08:34

spark菜鸟笔记-关于spark安装过程中遇到的问题总结

问题一：jdk版本过高的问题：问题描述：那么有这样的一种问题，我们运行pysaprk，虽然不会出现spark这样的图形，但也能进入到>>>这样的环境中，但是实际spark的语句是不能执行成功的。

晶心·2018-01-22 20:39

Hadoop和Saprk的异同

解决问题的层面不一样首先Hadoop和Spark两者都是大数据框架，而Hadoop实质上更多是一个分布式数据基础设施：它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，除了HDFS分布式文件系统以外，还提供MapReduce的数据处理功能；而Spark，则是一个专门用来对那些分布式存储的大数据进行处理的工具，它并不会进行分布式数据的存储。数据处理速度和适用场景就数据处理速度而言

gamedevv·2017-12-21 17:07

在Rstudio中使用Spark处理超大规模的数据集

Rstudio的菜单中有连接Spark的入口，刚好自己手里有一份大小超过5GB,记录数达到2.8亿的超大数据集，对于单机版本的R来说无能为力，于是想尝试一下用Rstudio里面的Spark入口来安装和使用Saprk

ccccfys·2017-11-18 16:53

Flink WaterMark机制白话分析

最近遇见一个流处理的数据严重迟到乱序的场景，基于SaprkStreaming开发的统计用户页面停留时间。使用的思想是：迟到数据的时间补偿机制。

javartisan·2017-09-14 00:00

SaprkSql 集成 hive 两种方式（spark2.0+hive1.22 ）

首先明确sparkSQl关联hive的时候有多种交互方式：sparkSQL和thrift【先说thrift】在$SPARK_HOEM/conf中的hive-site.xml中要去设置以下参数：hive.metastore.uristhrift://mach40:9083Thrifturifortheremotemetastore.Usedbymetastoreclienttoconnecttore

二次元的罪恶王冠·2017-05-12 16:53

Saprk数据倾斜七解决方案（三）

4、双重聚合方案适用场景：对RDD执行reduceByKey等聚合类shuffle算子或者在SparkSQL中使用groupby语句进行分组聚合时，比较适用这种方案。方案实现思路：这个方案的核心实现思路就是进行两阶段聚合。第一次是局部聚合，先给每个key都打上一个随机数，比如10以内的随机数，此时原先一样的key就变成不一样的了，比如(hello,1)(hello,1)(hello,1)(hell

MLlib_fiy·2017-03-15 17:11

Spark学习笔记--Spark基础知识

SparkStreaming是Spark提供的对实时数据进行流式计算的组件Spark是一个用于集群计算的通用计算框架，因此被应用于各种各样的应用程序2、从上层来看，每个saprk应用都有一个驱动器程序（

夜晓楼·2016-09-08 22:56

Spark大数据处理系列之Machine Learning

写在之前：本文是《Spark大数据处理》系列的第四篇，其他三篇：Spark介绍、SaprkSQL和SparkStreaming。最近几年，机器学习、预测分析和数据科学主题得到了广泛的关注。

Srini Penchikala·2016-06-07 00:00

Spark Streaming--实战篇

摘要： SprakStreaming属于SaprkAP的扩展，支持实时数据流（livedatastreams）的可扩展，高吞吐（hight-throughput）容错（fault-tolerant）

MOBIN-F·2016-04-02 21:00

Saprk Streaming性能调优

SparkStreaming性能调优：1、设置合理的批处理时间(batchDuration)在构建StreamingContext的时候，需要我们传进一个参数，用于设置SparkStreaming批处理的时间间隔。Spark会每隔batchDuration时间去提交一次Job，如果你的Job处理的时间超过了batchDuration的设置，那么会导致后面的作业无法按时提交，随着时间的推移，越来越多

LW_GHY·2016-03-02 16:00

Spark学习之路---Spark核心概念

Spark核心概念简介一个Spark应用都由驱动器程序发起集群上的各种并发操作，一个驱动器程序一般包含多个执行器节点，驱动器程序通过一个SaprkContext对象访问saprk。

AIDevROS·2015-12-05 14:29

spark sql 对接 HDFS

上一篇博客我向大家介绍了如何快速地搭建spark run on standalone，下面我将介绍saprk sql 如何对接 hdfs 我们知道，在spark shell 中操作hdfs

·2015-05-14 01:00

通过SparkR在R上运行Spark

R依然是数据学家手中最强大的语言之一，其实早在2014年一月底，加州大学伯克利分校的AMPLab就宣布发布了其SparkR项目的开发者预览版，该版本使用了基于原生R语言的ApacheSaprk，但是其使用难度还是在不断增加

u010022051·2015-04-02 16:00

【Spark课程】18小时掌握Saprk，把云计算大数据速度提升100倍

如何把云计算大数据处理速度提高100倍以上？Spark给出了答案。Spark是可以革命Hadoop的目前唯一替代者，能够做Hadoop做的一切事情，同时速度比Hadoop快了100倍以上，下图来自Spark的官方网站：可以看出在Spark特别擅长的领域其速度比Hadoop快120倍以上！Spark是基于内存，是云计算领域的继Hadoop之后的下一代的最热门的通用的并行计算框架开源项目，尤其出色的

Spark亚太研究院·2014-06-17 09:00

Meteor 0.8：发布全新的渲染系统Blaze

Blaze替代了在2012年发布的0.4版本中所引入的实时页面更新引擎Saprk。

James Chesters·2014-04-14 00:00

通过SparkR在R上运行Spark

R依然是数据学家手中最强大的语言之一，即使早在2014年一月底，加州大学伯克利分校的AMPLab就宣布发布了其SparkR项目的开发者预览版，该版本使用了基于原生R语言的ApacheSaprk，但是其使用难度还是在不断增加

Charles Menguy·2014-02-26 00:00

推荐频道

Saprk

ubuntu docker saprk单机集群搭建

Spark Streaming中序列化问题：org.apache.spark.SparkException: Task not serializable

PySaprk 将 DataFrame 数据保存为 Hive 分区表

spark笔记 环境配置

pysaprk报错：Py4JJavaError

新手如何学习大数据？完整的大数据学习体系你看了吗？

spark sql 读取hbase中数据保存到hive

6.Spark-submit 提交参数总结

如何学习大数据？这才是完整的大数据学习体系！！

史上最简单的spark教程第四章-Java操作SaprkApi常用案例大集合

同一条sql语句 ，Spark Sql 和 hive shell 查询数据结果不一致。

Spark的RDD工作机制原理以及实例详解

Flink累加器的使用(accumulator)

Hadoop与Spark关系

Hadoop与Spark关系

spark中 Dynamic Allocation 以及 num-executors 的问题

pySaprk，pycharm编写spark的python脚本，远程上传执行和本地模式执行

关于spark-submit的一些笔记

pysaprk的使用

Hadoop（四）—— Saprk笔记

spark菜鸟笔记-关于spark安装过程中遇到的问题总结

Hadoop和Saprk的异同

在Rstudio中使用Spark处理超大规模的数据集

Flink WaterMark机制白话分析

SaprkSql 集成 hive 两种方式 （spark2.0+hive1.22 ）

Saprk数据倾斜七解决方案（三）

Spark学习笔记--Spark基础知识

Spark大数据处理系列之Machine Learning

Spark Streaming--实战篇

Saprk Streaming性能调优

Spark学习之路---Spark核心概念

spark sql 对接 HDFS

通过SparkR在R上运行Spark

【Spark课程】18小时掌握Saprk，把云计算大数据速度提升100倍

Meteor 0.8：发布全新的渲染系统Blaze

通过SparkR在R上运行Spark

spark笔记环境配置

同一条sql语句，Spark Sql 和 hive shell 查询数据结果不一致。

SaprkSql 集成 hive 两种方式（spark2.0+hive1.22 ）