Spark2 第13页

Spark Streaming vs. Structured Streaming

提供了基于RDDs的DstreamAPI，每个时间间隔内的数据为一个RDD，源源不断对RDD进行处理来实现流计算StructuredStreamingSpark2.X出来的流框架，采用了无界表的概念，流数据相当于往一个表上不断追加行

upupfeng·2020-08-20 23:09

PY => Ubuntu-Hadoop-YARN-HDFS-Hive-Spark安装配置

环境条件Java8Python3.7Scala2.12.10Spark2.4.4hadoop2.7.7hive2.3.6mysql5.7mysql-connector-java-5.1.48.jarR3.1

Cython_lin·2020-08-20 22:35

win10 spark+scala+eclipse+sbt 安装配置

转载请务必注明原创地址为：http://dongkelun.com/2018/03/...1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装spark2.1下载下载地址：http:/

董可伦·2020-08-20 20:02

win10 spark+scala+eclipse+sbt 安装配置

转载请务必注明原创地址为：http://dongkelun.com/2018/03/...1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装spark2.1下载下载地址：http:/

董可伦·2020-08-20 20:01

Spark2.3.1+Kafka0.9使用Direct模式消费信息异常

Spark2.3.1+Kafka使用Direct模式消费信息Maven依赖org.apache.sparkspark-streaming-kafka-0-8_2.112.3.1org.apache.sparkspark-streaming

笨兔儿·2020-08-20 20:02

Spark2.3.1+Kafka0.9使用Direct模式消费信息异常

Spark2.3.1+Kafka使用Direct模式消费信息Maven依赖org.apache.sparkspark-streaming-kafka-0-8_2.112.3.1org.apache.sparkspark-streaming

笨兔儿·2020-08-20 20:02

spark大数据分析:spark core(9)累加器

双精度浮点数累加器集合累加器自定义累加器累加器原理累加器是spark提供的一种共享变量机制,在spark中每一个task会分配到不同的节点中,执行过程中如果将多台节点中数据累加到同一变量中,可以通过累加器实现该功能这里只介绍spark2

_张不帅·2020-08-20 20:54

centos6.8安装python3.5

原因是spark2.1.0不支持python3.6，所以重新安装python3.5步骤准备安装环境和依赖：yuminstallzlib-develbzip2-developenssl

SusanLovesTech·2020-08-20 20:06

spark2.2 批量往es7.1.1中插入数据的时候问题

报的错为：FailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.SparkMain],main()threwexception,org.elasticsearch.spark.deploy.yarn.security.EsServiceCredentialProvider.credentialsRequired(Lorg/apa

大数据小蜗牛·2020-08-20 17:00

第四篇|Spark Streaming编程指南(1)

在2016年7月，Spark2.0版本中引入了StructuredStreaming，并在Spark2.2版本中达到了生产级别，StructuredStreaming

西贝木土·2020-08-20 17:29

第四篇|Spark Streaming编程指南(1)

在2016年7月，Spark2.0版本中引入了StructuredStreaming，并在Spark2.2版本中达到了生产级别，StructuredStreaming

西贝木土·2020-08-20 17:29

PY => Ubuntu-Hadoop-YARN-HDFS-Hive-Spark安装配置

环境条件Java8Python3.7Scala2.12.10Spark2.4.4hadoop2.7.7hive2.3.6mysql5.7mysql-connector-java-5.1.48.jarR3.1

Cython_lin·2020-08-20 16:00

PY => Ubuntu-Hadoop-YARN-HDFS-Hive-Spark安装配置

环境条件Java8Python3.7Scala2.12.10Spark2.4.4hadoop2.7.7hive2.3.6mysql5.7mysql-connector-java-5.1.48.jarR3.1

Cython_lin·2020-08-20 16:00

基于不同的数据源提供统一的RESTful风格的API

提供数据查询接口有以下几种方式:localAPI（java）RESTThriftC/C++ApacheHbaseClientuseJDOwithHBaseScalaJythonPhoenix官方提供了一下的集成：1.Spark2

mhjlq·2020-08-20 08:01

Spark2 Linear Regression线性回归案例(参数调优)

回归正则化方法（Lasso，Ridge和ElasticNet）在高维和数据集变量之间多重共线性情况下运行良好。数学上，ElasticNet被定义为L1和L2正则化项的凸组合：通过适当设置α，ElasticNet包含L1和L2正则化作为特殊情况。例如，如果用参数α设置为1来训练线性回归模型，则其等价于Lasso模型。另一方面，如果α被设置为0，则训练的模型简化为ridge回归模型。RegParam:

tiansheng1225·2020-08-20 08:48

spark1.5.x升级spark2.1.1代码改动

背景公司一直用spark1.5.2,最近将其升级至spark2.1.1。本文的总结升级过程需要改动的地方。涉及了spark普通项目和sparkstreaming项目，项目均为java语言开发。

westfire·2020-08-20 04:06

Apache Spark 内存管理详解

本文中阐述的原理基于Spark2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概

麦子星星·2020-08-19 22:16

Hadoop+Spark分布式集群搭建过程

Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程1.选取三台服务器（CentOS系统64位）114.55.246.88主节点114.55.246.77从节点114.55.246.93从节点之后的操作如果是用普通用户操作的话也必须知道

_lefer·2020-08-19 20:15

Spark 2.3.0测试笔记二：还能不能玩了？

1前言基于Spark2.3.0测试笔记一：Shuffle到胃疼的初步测试结论，由于未经声明的参数行为变化，2.3.0的性能对比惨到不行。

Kent_Yao·2020-08-19 19:06

spark源码编译成功案例，版本，修改点

spark的下载打开网址spark.apache.org，点击download，选择想要下载的版本，我这里选择了最新的2.2.0版本在chooseapackagetype中选择sourcecode，获取spark2.2.0

Tiger-Li·2020-08-19 10:02

Waterdrop推动Spark Structured Streaming走向生产环境

前言StructuredStreaming是Spark2.0以后新开放的一个模块，相比SparkStreaming，它有一些比较突出的优点：它能做到更低的延迟;可以做实时的聚合，例如实时计算每天每个商品的销售总额

Ricky_Huo·2020-08-19 10:12

Spark 2.3.1测试笔记二：SortExec性能测试1

前言本例基于1Spark2.3.0测试笔记一：Shuffle到胃疼2Spark2.3.0测试笔记二：还能不能玩了？3Spark2.3.1测试笔记一：问题依旧在？

Kent_Yao·2020-08-19 07:41

spark sql 中 java.lang.ClassCastException: org.apache.spark.sql.catalyst.expressions.Gener

zhanghytc·2020-08-19 06:08

pyspark的常见报错、问题以及解决方法【持续更新】。

一、报错：Py4JError:Anerroroccurredwhilecallingo46.fit环境：Centos7、Python3.7、spark2.4.6、java1.8.0_211、scala2.11.12

学编程的大大怪·2020-08-18 16:45

spark2.0操作hive

用spark直接操作hive方式，完成之前的流量分析统计。spark＋hive的作用：1，hive是企业里面离线分析的数据源，hive作为数据源进行rdd加工操作，比如做一些算法类。2，为了紧紧执行hivesql。即已有的hive作业迁移到spark上来。hive运行在mapreduce框架里，要想运行在spark框架里，现在2.0版本就可以直接用hivesql，企业里面很多人做存储过程开发，所以

zzzzzzzzzzzzzzzzzxs·2020-08-18 12:57

死磕spark中的job、stage、task

测试环境本地开发环境idea2019.1.2maven3.6spark2.4.3scala2.1.8jdk1

CCWeiXiao·2020-08-18 12:30

Spark Streaming分析Kafka数据

一、环境开发环境：系统：Win10开发工具：scala-eclipse-IDE项目管理工具：Maven3.6.0JDK1.8Scala2.11.11Spark2.4.3spark-streaming-kafka

碣石观海·2020-08-18 12:22

配置支持Spark操作Hive表数据，使用Intellij

spark2版本使用SparkSession作为统一入口，所以第一步就是给SparkSession增加Hive支持：enableHiveSupport（）valspark=SparkSession.builder

HeMJGaoMM·2020-08-18 12:18

Flink安装部署

spark1作为master，spark2为work1，spark3为worker2。另

weixin_33985679·2020-08-18 12:14

--------------------通过spark2.x版本将数据导入hive中出现的问题-----------------------

一：将数据手动导入hive中（1）先将数据和脚本用上传工具传入/home/hadoop中（2）在虚拟机中./hive-f/home/hadoop/createHiveTab.sql运行该命令，数据将手动导入hive中(在这里注意hive-f和hive-e的区别)： ./hive-f/home/hadoop/createHiveTab.sqlhive-f后面指定的是一个文件，然后文件里面直接写sql

weixin_30430169·2020-08-18 12:40

Receiver, ReceiverSupervisor, BlockGenerator详解

福利部分：《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本系列内容适用范围：*2018.11.02update,Spark2.4全系列√(已发布：2.4.0)*2018.02.28update

大数据技术与架构·2020-08-18 12:06

pyspark总结2——DataFrame

目录1，创建DataFrame2，查询方法2.1利用DataFrameAPI查询2.2利用SQL查询1，创建DataFrameSpark2.0用SparkSession代替了SQLContext。

端坐的小王子·2020-08-18 12:18

HDP3.1中spark2.3无法读取Hive3.0数据

通过Ambari2.7安装好HDP3.1后，发现在spark-sql中无法读到hive命令行创建的数据库和表。后来查了网上资料，发现hive3.0之后默认开启ACID功能，而且新建的表默认是ACID表。而spark目前还不支持hive的ACID功能，因此无法读取ACID表的数据。然后修改了hive-site.xml配置文件里的相关配置项：hive.strict.managed.tables=fal

MiniCoder丨·2020-08-18 12:45

SparkStreaming（11）：高级数据源flume-pull方式（生产）

1.环境（1）生产环境flume1.6.0spark2.1.0（2）下载对应依赖备注：一定要将依赖都放入flume的Flume’sclasspath内，否则flume运行有问题。

RayBreslin·2020-08-18 12:33

本地local和kafka监听本地文件，进行sparkstreaming实时输出

所用软件版本：spark2.3.0kafka1.10IDEA2019.1(spark-streaming-kafka-0-8-2.11-2.3.0)先是用sparksql来监听特定目录下的某一个source

reedom1991·2020-08-18 11:03

Hortonworks Yarn Logs

hortonworkshadoopconfpath:/etc/hadoop/conf/hortonworks没有$HADOOP_HOME这个环境变量,但有$SPARK_HOME(/usr/hdp/current/spark2

爱知菜·2020-08-18 11:00

Intellij IDEA构建Spark2.0以上工程示例

IntellijIDEA新建Spark2.0以上Maven工程示例长时间不用IDEA新建工程，新建的步骤都忘记了，再次记录一下，Spark新版中SparkSession需要依赖的包与SparkContext

qq_22796957·2020-08-18 11:14

spark2.3.1 on hive2.2.1集成

spark可以通过读取hive的元数据来兼容hive，读取hive的表数据，然后在spark引擎中进行sql统计分析，从而，通过sparksql与hive结合实现数据分析将成为一种最佳实践。配置步骤如下：1、启动hive的元数据服务hive可以通过服务的形式对外提供元数据读写操作，通过简单的配置即可下面是hive的基础配置javax.jdo.option.ConnectionURLjdbc:mys

mingchen_peng·2020-08-18 11:37

spark2.2.0：记录一次数据倾斜的解决（扩容join）！

前言：数据倾斜，一个在大数据处理中很常见的名词，经由前人总结，现已有不少数据倾斜的解决方案（而且会发现大数据的不同框架的数据倾斜解决思想是一致的，只是实现方法不同），本文重点记录这次遇到spark处理数据中的倾斜问题。老话：菜鸡一只，本人会对文中的结论负责，如果有说错的，还请各位批评指出！起因：事情是这样的：有一批数据在hive的表中（我们称它为表A，表A中有不同网站的域名），要对这批数据进行处理

lsr40·2020-08-18 11:51

spark2.3.0 without hive 编译

搭建Hiveonspark环境--Spark编译https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark:+Getting+Started根据以上Hive的Wiki得知Hiveonspark环境需要Spark不包含Hive相关jar包。NotethatyoumusthaveaversionofSparkwhichdoesnotin

大罗北·2020-08-18 11:07

spark2.2读写操作hive和mysql数据库

sparksession操作hive数据库1.需要将core-site.xml,hdfs-site.xml,hive-site.xml放入resources中。2.创建sparksession的时候加入属性.enableHiveSupport()3.操作hive数据库spark.sql("usehisms_sl") spark.sql("showtables").show(10) valdat

Shea1992·2020-08-18 10:26

Spark实验报告

对于ScalaAPI，Spark2.4.2使用Scala2.12。您需要使用兼容的Scala版本（2.12.x）。

MIracle丶ZSY·2020-08-18 10:42

spark2.3.0 配置spark sql 操作hive

spark可以通过读取hive的元数据来兼容hive，读取hive的表数据，然后在spark引擎中进行sql统计分析，从而，通过sparksql与hive结合实现数据分析将成为一种最佳实践。配置步骤如下：1、启动hive的元数据服务hive可以通过服务的形式对外提供元数据读写操作，通过简单的配置即可编辑$HIVE_HOME/conf/hive-site.xml,增加如下内容:hive.metast

weixin_33967071·2020-08-18 10:25

大数据系列之Spark基础解析（一）

文章目录第1章Spark概述1.1什么是Spark1.2Spark特点1.3Spark的用户和用途第2章Spark集群安装2.1集群角色2.2机器准备2.3下载Spark安装包2.4配置Spark2.5

开封程序员阿强·2020-08-18 10:33

SparkStreaming之套接字流(使用Socket编程实现自定义数据源)

一环境ubuntu14+pycharm+spark2.3+python3.6二目的python代码自定义Socket服务器端作为SparkStreaming数据源，实现wordcount功能三步骤1.实现

追枫萨·2020-08-18 10:56

Apache Spark 2.4 内置的 Avro 数据源实战

从ApacheSpark2.4版本开始（参见ApacheSpark2.4正式发布，重要功能详细介绍），Spark为读取和写入Avro数据提供内置支持。

Hadoop技术博文·2020-08-17 21:53

Spark 安装（单机版）

Spark安装（单机版）解压文件到指定目录修改配置文件重命名到/spark240/conf目录下（1）saprk-env.sh（2）slaves（配置单机的话，则不需要配置）配置环境变量运行Spark(

qinsur·2020-08-17 17:55

Openfire+Spark安装教程

1.下载OpenFire和Spark，注意Spark下载第一个带JRE的，Spark2.8.3默认使用32位的Jre环境，如果你已经安装了64位的jdk会安装不了。

GdinKing·2020-08-17 00:00

Spark ML（5）：聚类算法（Kmeans和LDA）

一、环境配置1.spark2.1.0-cdh5.7.0（自编译）2.cdh5.7.03.scala2.11.84.centos6.4二、环境准备参考https://blog.csdn.net/u010886217

RayBreslin·2020-08-16 08:35

新闻网大数据实时系统项目（基于Spark2.2）

基于Spark2.2新闻网大数据实时系统项目1.说明项目代码是参考基于Spark2.x新闻网大数据实时分析可视化系统项目或者大数据项目实战之新闻话题的实时统计分析，谢谢作者分享心得！

vitahao·2020-08-16 07:03

推荐频道

Spark2

Spark Streaming vs. Structured Streaming

PY => Ubuntu-Hadoop-YARN-HDFS-Hive-Spark安装配置

win10 spark+scala+eclipse+sbt 安装配置

win10 spark+scala+eclipse+sbt 安装配置

Spark2.3.1+Kafka0.9使用Direct模式消费信息异常

Spark2.3.1+Kafka0.9使用Direct模式消费信息异常

spark大数据分析:spark core(9)累加器

centos6.8安装python3.5

spark2.2 批量往es7.1.1中插入数据的时候问题

第四篇|Spark Streaming编程指南(1)

第四篇|Spark Streaming编程指南(1)

PY => Ubuntu-Hadoop-YARN-HDFS-Hive-Spark安装配置

PY => Ubuntu-Hadoop-YARN-HDFS-Hive-Spark安装配置

基于不同的数据源提供统一的RESTful风格的API

Spark2 Linear Regression线性回归案例(参数调优)

spark1.5.x升级spark2.1.1代码改动

Apache Spark 内存管理详解

Hadoop+Spark分布式集群搭建过程

Spark 2.3.0测试笔记二：还能不能玩了？

spark源码编译成功案例， 版本，修改点

Waterdrop推动Spark Structured Streaming走向生产环境

Spark 2.3.1测试笔记二：SortExec性能测试1

spark sql 中 java.lang.ClassCastException: org.apache.spark.sql.catalyst.expressions.Gener

pyspark的常见报错、问题以及解决方法【持续更新】。

spark2.0操作hive

死磕spark中的job、stage、task

Spark Streaming分析Kafka数据

配置支持Spark操作Hive表数据，使用Intellij

Flink安装部署

--------------------通过spark2.x版本将数据导入hive中出现的问题-----------------------

Receiver, ReceiverSupervisor, BlockGenerator详解

pyspark总结2——DataFrame

HDP3.1中spark2.3无法读取Hive3.0数据

SparkStreaming（11）：高级数据源flume-pull方式（生产）

本地local和kafka监听本地文件，进行sparkstreaming实时输出

Hortonworks Yarn Logs

Intellij IDEA构建Spark2.0以上工程示例

spark2.3.1 on hive2.2.1集成

spark2.2.0：记录一次数据倾斜的解决（扩容join）！

spark2.3.0 without hive 编译

spark2.2读写操作hive和mysql数据库

Spark实验报告

spark2.3.0 配置spark sql 操作hive

大数据系列之Spark基础解析（一）

SparkStreaming之套接字流(使用Socket编程实现自定义数据源)

Apache Spark 2.4 内置的 Avro 数据源实战

Spark 安装（单机版）

Openfire+Spark安装教程

Spark ML（5）：聚类算法（Kmeans和LDA）

新闻网大数据实时系统项目（基于Spark2.2）

spark源码编译成功案例，版本，修改点