E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark2
Spark Streaming vs. Structured Streaming
提供了基于RDDs的DstreamAPI,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算StructuredStreaming
Spark2
.X出来的流框架,采用了无界表的概念,流数据相当于往一个表上不断追加行
upupfeng
·
2020-08-20 23:09
spark-streaming
spark
PY => Ubuntu-Hadoop-YARN-HDFS-Hive-Spark安装配置
环境条件Java8Python3.7Scala2.12.10
Spark2
.4.4hadoop2.7.7hive2.3.6mysql5.7mysql-connector-java-5.1.48.jarR3.1
Cython_lin
·
2020-08-20 22:35
hdfs
hadoop
yarn
spark
hive
win10 spark+scala+eclipse+sbt 安装配置
转载请务必注明原创地址为:http://dongkelun.com/2018/03/...1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装
spark2
.1下载下载地址:http:/
董可伦
·
2020-08-20 20:02
sbt
scala
spark
windows
eclipse
win10 spark+scala+eclipse+sbt 安装配置
转载请务必注明原创地址为:http://dongkelun.com/2018/03/...1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装
spark2
.1下载下载地址:http:/
董可伦
·
2020-08-20 20:01
sbt
scala
spark
windows
eclipse
Spark2
.3.1+Kafka0.9使用Direct模式消费信息异常
Spark2
.3.1+Kafka使用Direct模式消费信息Maven依赖org.apache.sparkspark-streaming-kafka-0-8_2.112.3.1org.apache.sparkspark-streaming
笨兔儿
·
2020-08-20 20:02
spark
spark-streaming
kafka
scala
Spark2
.3.1+Kafka0.9使用Direct模式消费信息异常
Spark2
.3.1+Kafka使用Direct模式消费信息Maven依赖org.apache.sparkspark-streaming-kafka-0-8_2.112.3.1org.apache.sparkspark-streaming
笨兔儿
·
2020-08-20 20:02
spark
spark-streaming
kafka
scala
spark大数据分析:spark core(9)累加器
双精度浮点数累加器集合累加器自定义累加器累加器原理累加器是spark提供的一种共享变量机制,在spark中每一个task会分配到不同的节点中,执行过程中如果将多台节点中数据累加到同一变量中,可以通过累加器实现该功能这里只介绍
spark2
_张不帅
·
2020-08-20 20:54
spark-鲨鱼
centos6.8安装python3.5
原因是
spark2
.1.0不支持python3.6,所以重新安装python3.5步骤准备安装环境和依赖:yuminstallzlib-develbzip2-developenssl
SusanLovesTech
·
2020-08-20 20:06
小白学技术
spark2
.2 批量往es7.1.1中插入数据的时候问题
报的错为:FailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.SparkMain],main()threwexception,org.elasticsearch.spark.deploy.yarn.security.EsServiceCredentialProvider.credentialsRequired(Lorg/apa
大数据小蜗牛
·
2020-08-20 17:00
es
Spark
sparksql
第四篇|Spark Streaming编程指南(1)
在2016年7月,
Spark2
.0版本中引入了StructuredStreaming,并在
Spark2
.2版本中达到了生产级别,StructuredStreaming
西贝木土
·
2020-08-20 17:29
spark
第四篇|Spark Streaming编程指南(1)
在2016年7月,
Spark2
.0版本中引入了StructuredStreaming,并在
Spark2
.2版本中达到了生产级别,StructuredStreaming
西贝木土
·
2020-08-20 17:29
spark
PY => Ubuntu-Hadoop-YARN-HDFS-Hive-Spark安装配置
环境条件Java8Python3.7Scala2.12.10
Spark2
.4.4hadoop2.7.7hive2.3.6mysql5.7mysql-connector-java-5.1.48.jarR3.1
Cython_lin
·
2020-08-20 16:00
hdfs
hadoop
yarn
spark
hive
PY => Ubuntu-Hadoop-YARN-HDFS-Hive-Spark安装配置
环境条件Java8Python3.7Scala2.12.10
Spark2
.4.4hadoop2.7.7hive2.3.6mysql5.7mysql-connector-java-5.1.48.jarR3.1
Cython_lin
·
2020-08-20 16:00
hdfs
hadoop
yarn
spark
hive
基于不同的数据源提供统一的RESTful风格的API
提供数据查询接口有以下几种方式:localAPI(java)RESTThriftC/C++ApacheHbaseClientuseJDOwithHBaseScalaJythonPhoenix官方提供了一下的集成:1.
Spark2
mhjlq
·
2020-08-20 08:01
python
Spark2
Linear Regression线性回归案例(参数调优)
回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多重共线性情况下运行良好。数学上,ElasticNet被定义为L1和L2正则化项的凸组合:通过适当设置α,ElasticNet包含L1和L2正则化作为特殊情况。例如,如果用参数α设置为1来训练线性回归模型,则其等价于Lasso模型。另一方面,如果α被设置为0,则训练的模型简化为ridge回归模型。RegParam:
tiansheng1225
·
2020-08-20 08:48
ml
spark1.5.x升级
spark2
.1.1代码改动
背景公司一直用spark1.5.2,最近将其升级至
spark2
.1.1。本文的总结升级过程需要改动的地方。涉及了spark普通项目和sparkstreaming项目,项目均为java语言开发。
westfire
·
2020-08-20 04:06
Apache Spark 内存管理详解
本文中阐述的原理基于
Spark2
.1版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shuffle、JVM等相关概
麦子星星
·
2020-08-19 22:16
Hadoop+Spark分布式集群搭建过程
Hadoop2.7.3+
Spark2
.1.0完全分布式集群搭建过程1.选取三台服务器(CentOS系统64位)114.55.246.88主节点114.55.246.77从节点114.55.246.93从节点之后的操作如果是用普通用户操作的话也必须知道
_lefer
·
2020-08-19 20:15
综合
Spark 2.3.0测试笔记二:还能不能玩了?
1前言基于
Spark2
.3.0测试笔记一:Shuffle到胃疼的初步测试结论,由于未经声明的参数行为变化,2.3.0的性能对比惨到不行。
Kent_Yao
·
2020-08-19 19:06
spark源码编译成功案例, 版本,修改点
spark的下载打开网址spark.apache.org,点击download,选择想要下载的版本,我这里选择了最新的2.2.0版本在chooseapackagetype中选择sourcecode,获取
spark2
.2.0
Tiger-Li
·
2020-08-19 10:02
Spark
Waterdrop推动Spark Structured Streaming走向生产环境
前言StructuredStreaming是
Spark2
.0以后新开放的一个模块,相比SparkStreaming,它有一些比较突出的优点:它能做到更低的延迟;可以做实时的聚合,例如实时计算每天每个商品的销售总额
Ricky_Huo
·
2020-08-19 10:12
Spark
Waterdrop
Spark 2.3.1测试笔记二:SortExec性能测试1
前言本例基于1
Spark2
.3.0测试笔记一:Shuffle到胃疼2
Spark2
.3.0测试笔记二:还能不能玩了?3
Spark2
.3.1测试笔记一:问题依旧在?
Kent_Yao
·
2020-08-19 07:41
spark sql 中 java.lang.ClassCastException: org.apache.spark.sql.catalyst.expressions.Gener
最近在做推荐系统的项目,使用了
spark2
.0,需要给每个userid推荐出一个list,使用了udf函数udf()在每行执行的时候得到org.apache.spark.SparkException:Failedtoexecuteuserdefinedfunction
zhanghytc
·
2020-08-19 06:08
saprk
Scala
pyspark的常见报错、问题以及解决方法【持续更新】。
一、报错:Py4JError:Anerroroccurredwhilecallingo46.fit环境:Centos7、Python3.7、
spark2
.4.6、java1.8.0_211、scala2.11.12
学编程的大大怪
·
2020-08-18 16:45
大数据组件
spark2
.0操作hive
用spark直接操作hive方式,完成之前的流量分析统计。spark+hive的作用:1,hive是企业里面离线分析的数据源,hive作为数据源进行rdd加工操作,比如做一些算法类。2,为了紧紧执行hivesql。即已有的hive作业迁移到spark上来。hive运行在mapreduce框架里,要想运行在spark框架里,现在2.0版本就可以直接用hivesql,企业里面很多人做存储过程开发,所以
zzzzzzzzzzzzzzzzzxs
·
2020-08-18 12:57
spark
死磕spark中的job、stage、task
测试环境本地开发环境idea2019.1.2maven3.6
spark2
.4.3scala2.1.8jdk1
CCWeiXiao
·
2020-08-18 12:30
大数据折腾记
Spark Streaming分析Kafka数据
一、环境开发环境:系统:Win10开发工具:scala-eclipse-IDE项目管理工具:Maven3.6.0JDK1.8Scala2.11.11
Spark2
.4.3spark-streaming-kafka
碣石观海
·
2020-08-18 12:22
Spark
Kafka
配置支持Spark操作Hive表数据,使用Intellij
spark2
版本使用SparkSession作为统一入口,所以第一步就是给SparkSession增加Hive支持:enableHiveSupport()valspark=SparkSession.builder
HeMJGaoMM
·
2020-08-18 12:18
Spark
Hive
Flink安装部署
spark1作为master,
spark2
为work1,spark3为worker2。另
weixin_33985679
·
2020-08-18 12:14
--------------------通过
spark2
.x版本将数据导入hive中出现的问题-----------------------
一:将数据手动导入hive中(1)先将数据和脚本用上传工具传入/home/hadoop中(2)在虚拟机中./hive-f/home/hadoop/createHiveTab.sql运行该命令,数据将手动导入hive中(在这里注意hive-f和hive-e的区别): ./hive-f/home/hadoop/createHiveTab.sqlhive-f后面指定的是一个文件,然后文件里面直接写sql
weixin_30430169
·
2020-08-18 12:40
大数据
开发工具
数据库
Receiver, ReceiverSupervisor, BlockGenerator详解
福利部分:《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本系列内容适用范围:*2018.11.02update,
Spark2
.4全系列√(已发布:2.4.0)*2018.02.28update
大数据技术与架构
·
2020-08-18 12:06
大数据成神之路
Spark实战
pyspark总结2——DataFrame
目录1,创建DataFrame2,查询方法2.1利用DataFrameAPI查询2.2利用SQL查询1,创建DataFrame
Spark2
.0用SparkSession代替了SQLContext。
端坐的小王子
·
2020-08-18 12:18
pyspark
HDP3.1中
spark2
.3无法读取Hive3.0数据
通过Ambari2.7安装好HDP3.1后,发现在spark-sql中无法读到hive命令行创建的数据库和表。后来查了网上资料,发现hive3.0之后默认开启ACID功能,而且新建的表默认是ACID表。而spark目前还不支持hive的ACID功能,因此无法读取ACID表的数据。然后修改了hive-site.xml配置文件里的相关配置项:hive.strict.managed.tables=fal
MiniCoder丨
·
2020-08-18 12:45
spark
hive
SparkStreaming(11):高级数据源flume-pull方式(生产)
1.环境(1)生产环境flume1.6.0
spark2
.1.0(2)下载对应依赖备注:一定要将依赖都放入flume的Flume’sclasspath内,否则flume运行有问题。
RayBreslin
·
2020-08-18 12:33
Spark
SparkStreaming
大数据开发
flume
本地local和kafka监听本地文件,进行sparkstreaming实时输出
所用软件版本:
spark2
.3.0kafka1.10IDEA2019.1(spark-streaming-kafka-0-8-2.11-2.3.0)先是用sparksql来监听特定目录下的某一个source
reedom1991
·
2020-08-18 11:03
spark
Hortonworks Yarn Logs
hortonworkshadoopconfpath:/etc/hadoop/conf/hortonworks没有$HADOOP_HOME这个环境变量,但有$SPARK_HOME(/usr/hdp/current/
spark2
爱知菜
·
2020-08-18 11:00
Intellij IDEA构建
Spark2
.0以上工程示例
IntellijIDEA新建
Spark2
.0以上Maven工程示例长时间不用IDEA新建工程,新建的步骤都忘记了,再次记录一下,Spark新版中SparkSession需要依赖的包与SparkContext
qq_22796957
·
2020-08-18 11:14
Spark走马观花
spark2
.3.1 on hive2.2.1集成
spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过sparksql与hive结合实现数据分析将成为一种最佳实践。配置步骤如下:1、启动hive的元数据服务hive可以通过服务的形式对外提供元数据读写操作,通过简单的配置即可下面是hive的基础配置javax.jdo.option.ConnectionURLjdbc:mys
mingchen_peng
·
2020-08-18 11:37
spark
spark2
.2.0:记录一次数据倾斜的解决(扩容join)!
前言:数据倾斜,一个在大数据处理中很常见的名词,经由前人总结,现已有不少数据倾斜的解决方案(而且会发现大数据的不同框架的数据倾斜解决思想是一致的,只是实现方法不同),本文重点记录这次遇到spark处理数据中的倾斜问题。老话:菜鸡一只,本人会对文中的结论负责,如果有说错的,还请各位批评指出!起因:事情是这样的:有一批数据在hive的表中(我们称它为表A,表A中有不同网站的域名),要对这批数据进行处理
lsr40
·
2020-08-18 11:51
spark
spark2
.3.0 without hive 编译
搭建Hiveonspark环境--Spark编译https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark:+Getting+Started根据以上Hive的Wiki得知Hiveonspark环境需要Spark不包含Hive相关jar包。NotethatyoumusthaveaversionofSparkwhichdoesnotin
大罗北
·
2020-08-18 11:07
Hive
Spark
hadoop
spark2
.2读写操作hive和mysql数据库
sparksession操作hive数据库1.需要将core-site.xml,hdfs-site.xml,hive-site.xml放入resources中。2.创建sparksession的时候加入属性.enableHiveSupport()3.操作hive数据库spark.sql("usehisms_sl") spark.sql("showtables").show(10) valdat
Shea1992
·
2020-08-18 10:26
Spark实验报告
对于ScalaAPI,
Spark2
.4.2使用Scala2.12。您需要使用兼容的Scala版本(2.12.x)。
MIracle丶ZSY
·
2020-08-18 10:42
spark2
.3.0 配置spark sql 操作hive
spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过sparksql与hive结合实现数据分析将成为一种最佳实践。配置步骤如下:1、启动hive的元数据服务hive可以通过服务的形式对外提供元数据读写操作,通过简单的配置即可编辑$HIVE_HOME/conf/hive-site.xml,增加如下内容:hive.metast
weixin_33967071
·
2020-08-18 10:25
大数据系列之Spark基础解析(一)
文章目录第1章Spark概述1.1什么是Spark1.2Spark特点1.3Spark的用户和用途第2章Spark集群安装2.1集群角色2.2机器准备2.3下载Spark安装包2.4配置
Spark2
.5
开封程序员阿强
·
2020-08-18 10:33
大数据系列学习笔记
spark
SparkStreaming之套接字流(使用Socket编程实现自定义数据源)
一环境ubuntu14+pycharm+
spark2
.3+python3.6二目的python代码自定义Socket服务器端作为SparkStreaming数据源,实现wordcount功能三步骤1.实现
追枫萨
·
2020-08-18 10:56
Spark
Apache Spark 2.4 内置的 Avro 数据源实战
从Apache
Spark2
.4版本开始(参见Apache
Spark2
.4正式发布,重要功能详细介绍),Spark为读取和写入Avro数据提供内置支持。
Hadoop技术博文
·
2020-08-17 21:53
Spark 安装(单机版)
Spark安装(单机版)解压文件到指定目录修改配置文件重命名到/
spark2
40/conf目录下(1)saprk-env.sh(2)slaves(配置单机的话,则不需要配置)配置环境变量运行Spark(
qinsur
·
2020-08-17 17:55
Spark
Openfire+Spark安装教程
1.下载OpenFire和Spark,注意Spark下载第一个带JRE的,
Spark2
.8.3默认使用32位的Jre环境,如果你已经安装了64位的jdk会安装不了。
GdinKing
·
2020-08-17 00:00
Openfire
Spark ML(5):聚类算法(Kmeans和LDA)
一、环境配置1.
spark2
.1.0-cdh5.7.0(自编译)2.cdh5.7.03.scala2.11.84.centos6.4二、环境准备参考https://blog.csdn.net/u010886217
RayBreslin
·
2020-08-16 08:35
Spark
ML
新闻网大数据实时系统项目(基于
Spark2
.2)
基于
Spark2
.2新闻网大数据实时系统项目1.说明项目代码是参考基于
Spark2
.x新闻网大数据实时分析可视化系统项目或者大数据项目实战之新闻话题的实时统计分析,谢谢作者分享心得!
vitahao
·
2020-08-16 07:03
大数据
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他