E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
Spark读取hbase表的几种方式
环境:hadoop3.0+
Spark2
.2+hbase1.2+phoenix4.12基本上是都是比较新的环境,而且也比较稳定。但是hbase相对来说有点老了,但也还好。
sinadrew
·
2018-05-02 22:24
大数据
【spark】java.io.NotSerializableException: org.apache.spark.unsafe.types.UTF8String$IntWrapper
1、环境:这是一个spark的Tasknotserializable问题,因此只需要关注spark的版本就好了,我的版本是
spark2
.2.0的版本!
lsr40
·
2018-05-02 16:12
spark
spark2
.1.0-mongodb
1.从MongoDB读取packagecom.mongodb.spark;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.sql.SparkSession;importorg.bson.Document;importcom.mongodb.spark.MongoSpark;importcom.mongo
q启明星
·
2018-05-02 09:36
spark
Liunx搭建Spark开发环境
阅读更多Liunx搭建Spark开发环境1.
Spark2
.Spark开发环境搭建【1】Spark开发环境搭建需要Hadoop,Java,Scala环境的支持,由于本机已经默认安装Java和Hadoop开发环境
马智霖
·
2018-04-29 21:00
大数据
Spark
scala
Liunx搭建Spark开发环境
阅读更多Liunx搭建Spark开发环境1.
Spark2
.Spark开发环境搭建【1】Spark开发环境搭建需要Hadoop,Java,Scala环境的支持,由于本机已经默认安装Java和Hadoop开发环境
马智霖
·
2018-04-29 21:00
大数据
Spark
scala
sparksql dataFrame 关于列的增删改操作
valsqlContex=SparkSession.builder().master("local[2]").appName("
spark2
ES")//.con
xnlej
·
2018-04-26 21:58
spark2
.1.0-在文本文件中统计出现关键字的次数
packagecom.wangzs;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.api.java.function.Function;/***@title
q启明星
·
2018-04-26 19:52
spark
spark
Spark2
.3 RDD之 distinct 源码浅谈
distinct源码:/***ReturnanewRDDcontainingthedistinctelementsinthisRDD.*/defdistinct(numPartitions:Int)(implicitord:Ordering[T]=null):RDD[T]=withScope{map(x=>(x,null)).reduceByKey((x,y)=>x,numPartitions).
DPnice
·
2018-04-26 18:39
spark
Spark2
.3 RDD之 filter源码解析
sparkfilter源码:/***ReturnanewRDDcontainingonlytheelementsthatsatisfyapredicate.*/deffilter(f:T=>Boolean):RDD[T]=withScope{valcleanF=sc.clean(f)newMapPartitionsRDD[T,T](this,(context,pid,iter)=>iter.fil
DPnice
·
2018-04-26 17:30
spark
Spark2
.3 RDD之flatMap源码解析
SparkflatMap源码:/***ReturnanewRDDbyfirstapplyingafunctiontoallelementsofthis*RDD,andthenflatteningtheresults.*/defflatMap[U:ClassTag](f:T=>TraversableOnce[U]):RDD[U]=withScope{valcleanF=sc.clean(f)newM
DPnice
·
2018-04-26 14:23
spark
flume 对接spark streaming
阅读更多1.flume对接kafka的两种方式:pull和push流程如下:2.两者的区别3.使用pull方式可能遇到的问题:本地测试环境:
spark2
.3flume1.8使用pull方式,flume报错如下
功夫小当家
·
2018-04-25 19:00
flume对接spark
streaming
Hadoop2.7.3+
Spark2
.1.0完全分布式集群搭建过程
1.选取三台服务器(CentOS系统64位)114.55.246.88主节点114.55.246.77从节点114.55.246.93从节点之后的操作如果是用普通用户操作的话也必须知道root用户的密码,因为有些操作是得用root用户操作。如果是用root用户操作的话就不存在以上问题。我是用root用户操作的。2.修改hosts文件修改三台服务器的hosts文件。vi/etc/hosts在原文件的
宇宙浪子
·
2018-04-24 10:30
分享
Hadoop
Spark
Cluster
spark+scala+spring整合提高搬砖效率
提交sparkjob的画风通常是这样子的:spark-submit--clusterhadoop-
spark2
.0\--classcom.a
码蹄疾
·
2018-04-15 20:29
大数据
centos7环境 jdk1.8+hadoop2.9.0+
spark2
.2.1
1.安装jdk1.8,rpm安装或者解压2.配置jdk环境,vi/etc/profile,末尾添加exportJAVA_HOME=/usr/java/jdk1.8.0_121exportJRE_HOME=${JAVA_HOME}/jreexportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexportPATH=${JAVA_HOME}/bin:$PAT
xuli_joe
·
2018-04-10 11:18
linux
大数据
spark
hadoop
spark2
.x- spark sql语句可使用的内置函数
sparksql语句可使用的内置函数//Note:Wheneverweaddanewentryhere,makesurewealsoupdateExpressionToSQLSuitevalexpressions:Map[String,(ExpressionInfo,FunctionBuilder)]=Map(//miscnon-aggregatefunctionsexpression[Abs](
小蜗牛也有梦想
·
2018-04-08 10:15
spark
“scikit-learn(sklearn) 官方文档中文版”
sklearn)官方文档中文版”:网页链接GitHub:网页链接PS:在sklearn的Github链接中还有其他一些官方文档的中文版TensorFlowR1.2中文文档sklearn0.18中文文档
Spark2
.2.0
Allenlzcoder
·
2018-04-05 11:29
sklearn
学习资料汇总链接帖
Spark Structured Streaming2.3两种计算模式
micro-batchesProcessing&ContinuousProcessingStructuredStreaming在Apache
Spark2
.0引入,计算模式就是小批量计算,从高层次上看起来和小批量处理没有什么关系的
Josen_Qu
·
2018-04-04 11:53
spark学习总结第一天
/py
spark2
.设置spark的日志输出等级,进入spark目录下的conf文件夹,在log4j.properties文件中设置log4j.rootCategory=INFO,console,其中console
一身诗意千寻瀑
·
2018-04-03 23:11
spark
daily
note
Spark SQL入门
#HiveonSpark是在Hive中的,使用Spark作为hive的执行引擎,只需要在hive中修改一个参数即可:#sethive.execution.engine=
spark2
、SparkSQLa.
Mr_249
·
2018-03-31 20:50
(HDP2.6.2)Carbondata1.3.1+
Spark2
.1.0+Hadoop2.7.3实现
一、Carbondata下载编译1、下载Carbondata代码包https://github.com/apache/carbondata/archive/apache-carbondata-1.3.1-rc1.tar.gz2、解压编译tar-zxvfapache-carbondata-1.3.1-rc1.tar.gzcdapache-carbondata-1.3.1-rc1mvn-DskipTe
Jonathan丶Wei
·
2018-03-28 18:58
spark+hadoop集群搭建-虚拟机
172.16.29.11slave1:ubuntu16.0464位ip:172.16.29.12slave1:ubuntu16.0464位ip:172.16.29.13jdk9.0.4hadoop2.8.1
spark2
.3.0
扫地僧专用扫帚
·
2018-03-27 19:56
环境搭建
大数据
架构
Spark性能调优-总结分享
环境:服务器600+,
spark2
.0.2,Hadoop2.6.02、调优结果调优随机选取线上9条SQL,表横轴是调优测试项目,测试在集群空闲情况下进行,后一个的测试都是叠
H_Shun
·
2018-03-27 14:10
spark
hadoop
BigData
spark从入门到放弃一: worldcount-java
之前搭建集群用的是
spark2
.2hadoop2.9所以开发的需要引入如下的依赖UTF-82.2.11.82.9.0junitjunit4
意浅离殇
·
2018-03-26 21:07
PySpark学习笔记(4)——MLlib和ML介绍
SparkMLlib是Spark中专门用于处理机器学习任务的库,但在最新的
Spark2
.0中,大部分机器学习相关的任务已经转移到SparkML包中。
飞鸟2010
·
2018-03-23 18:16
PySpark学习笔记
Spark DataFrame transformation操作报错问题
在
Spark2
.0之后版本中,当对DataFrame对象进行transformation操作的时候,编译阶段不会报错,但是运行阶段就会抛出异常,提示这样的错误信息::26:error:UnabletofindencoderfortypestoredinaDataset.Primitivetypes
cyony
·
2018-03-23 17:16
spark
Spark SQL Dataset API 全集
本文基于
spark2
.3.0.下面是类方法简介。类方法Actionscollect():Array[T]返回一个数组,包含Dataset所有行的数据。注意:所有数据会被加载进dri
liam08
·
2018-03-22 23:50
Spark
spark学习系列——7 操作RDD
1、pom.xml文件4.0.0com.wangys
spark2
018031.0-SNAPSHOT2.1.02.11org.apache.sparkspark-core_${scala.ve
FisherWang_CN
·
2018-03-21 20:32
spark
对
spark2
.3.0中Structured Streaming低延迟持续处理模式的介绍
2018/03/20/low-latency-continuous-processing-mode-in-structured-streaming-in-apache-spark-2-3-0.html在
Spark2
.0
古月慕南
·
2018-03-21 19:14
BigData-器
DataFrame创建的三种方式
Spark中DataFrame的三种创建方式标签:
spark2
017年09月15日11:11:021722人阅读评论(1)收藏举报目录(?)
无恋-zx
·
2018-03-20 19:04
机器学习
spark - 部署和安装
阅读更多本地环境:hadoop3.0
spark2
.3注:由于测试中,换了机器,导致下面的截图,是在两个spark版本(2.2和2.3)的机器上做的,hostname略有不同(hdp1和hd1),不影响实际结果
功夫小当家
·
2018-03-20 10:00
spark安装
部署
参数优化
spark - 部署和安装
阅读更多本地环境:hadoop3.0
spark2
.3注:由于测试中,换了机器,导致下面的截图,是在两个spark版本(2.2和2.3)的机器上做的,hostname略有不同(hdp1和hd1),不影响实际结果
功夫小当家
·
2018-03-20 10:00
spark安装
部署
参数优化
Kafka整合SparkStreaming2.2的一下午(奇葩错误一堆)
集群环境:CDH5.13.0,
Spark2
.2.0,Scala2.11.0ps:没营养的错误。。有些难受。还是要多看看源码啊。。
深寒丶
·
2018-03-16 10:55
大数据
利用intellij idea 搭建spark开发环境(windows)
利用intellijidea搭建spark开发环境(windows)本文配置所有环境Win10企业版2016长期服务版Jdk1.8.0.131Hadoop2.7.3
Spark2
.2.0Scala2.11.12
yiluohan0307
·
2018-03-15 15:57
spark从入门到放弃
Spark2
.3.0 Standalone Mode
参看文档:http://spark.apache.org/docs/latest/spark-standalone.htmlSparkStandaloneModeInstallingSparkStandalonetoaClusterStartingaClusterManuallyClusterLaunchScriptsConnectinganApplicationtotheClusterLaunc
Geek_ymv
·
2018-03-15 01:59
Spark
CDH5.11.1 升级
spark2
.x
环境介绍:在我的CDH5.11.1的集群中,默认已经安装的spark是1.6版本,这里需要将其升级为
spark2
.1版本。
heavylgf
·
2018-03-14 14:46
大数据spark
大数据
CDH
CDH集群 Spark1.6 升级到
Spark2
.2 全纪录
但鉴于
Spark2
.0以后变化较大,为了方便新来员工技术发展,我决定把Spark1.6升级为
spark2
.2版本(2.3版本刚出不久,算是最新了)。
深寒丶
·
2018-03-14 10:53
大数据
Spark 2.x 性能调优-IBM
IBMBigDataPerformanceJesseChen,
[email protected]
Spark2
.xBuildingSparkRunningSpark
hery_csnd168
·
2018-03-13 09:54
spark优化
关于
spark2
.x后的SparkSession
Apache
Spark2
.0引入了SparkSession,其为用户提供了一个统一的切入点来使用Spark的各项功能,并且允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序
qq_30366667
·
2018-03-10 21:43
大数据
Spark2
.1命令工具类CommandUtils的源码分析
注:本文是为了配合《Spark内核设计的艺术架构设计与实现》一书的内容而编写,目的是为了节省成本、方便读者查阅。书中附录F的内容都在本文呈现。CommandUtils是Spark中最常用的工具类之一,其作用是为了构建进程。如果不太关心其实现也不影响对Spark源码的阅读和原理的学习。我们要介绍的方法如下:buildProcessBuilder功能描述:基于给定的参数创建ProcessBuilder
泰山不老生
·
2018-03-09 11:53
Spark2
Spark2.1
Spark2.0
Command
进程
大数据
Spark
Scala
深入理解Spark
BigDL 运行 LeNet5 on MNIST 发现的 BUG
1.部署Hadoop2.8.3,
Spark2
.1.02.编译和部署BigDL编译command:.
ibingoogle
·
2018-03-08 02:11
BigDL
大数据框架资源汇集
环境需要:Java8JDK下载地址:https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz使用帮助:点击查看Spark安装版本:
Spark2
.3.0
困境囚徒
·
2018-03-07 14:30
大数据
Spark2
.3.0之pyspark实现原理分析
背景PySparkPerformanceEnhancements:[SPARK-22216][SPARK-21187]Significantimprovementsinpythonperformanceandinteroperabilitybyfastdataserializationandvectorizedexecution.SPARK-22216:主要实现矢量化pandasudf处理,并解决
Rilakkuma
·
2018-03-06 16:18
spark
Spark 2.3.0支持ORC Vectorized矢量化源码分析
AddssupportfornewORCreaderthatsubstantiallyimprovestheORCscanthroughputthroughvectorization(2-5x).Toenablethereader,userscansetspark.sql.orc.impltonative.在
Spark2
.3.0
Rilakkuma
·
2018-03-05 22:32
spark
Spark 2.3.0+Kubernetes应用程序部署
Spark2
.3.0+Kubernetes应用程序部署Spark可以运行在Kubernetes管理的集群中,利用NativeKubernetes调度的特点已经被加入Spark。
段智华
·
2018-03-05 21:46
AI
&
Big
Data案例实战课程
[Spark版本更新]--2.3.0发行说明
一、DataBricks做了相关说明今天,我们很高兴地宣布Databricks上的Apache
Spark2
.3.0作为其DatabricksRuntime4.0的一部分。
highfei2011
·
2018-03-03 11:28
Spark
Apache Spark 2.3 重要特性介绍
本文翻译自:https://databricks.com/blog/2018/02/28/introducing-apache-spark-2-3.html为了继续实现Spark更快,更轻松,更智能的目标,
Spark2
.3
Hadoop技术博文
·
2018-03-02 00:00
Spark 2.2.1 处理HDFS文件数据源的案例与解读
Spark2
.2.1处理HDFS文件数据源的案例与解读上一节讲解了从Sockets获取数据,SparkStreamingContextAPI还提供了从其他基础数据源创建DStream实例的方法,这里以文件数据源作为例子
段智华
·
2018-02-23 15:22
AI
&
Big
Data案例实战课程
Spark 2.2.1 SQL UDAF用户自定义函数案例
Spark2
.2.1SQLUDAF用户自定义函数案例UDAF:UserDefinedAggregationFunction,用户自定义的聚合函数,函数本身作用于数据集合,能够在聚合操作的基础上进行自定义操作
段智华
·
2018-02-21 17:00
AI
&
Big
Data案例实战课程
SPARK 2.2.1 基于HIVEQL的人力资源系统的数据处理的案例与解读
SPARK2
.2.1HIVEQL的人力资源系统的数据处理的案例与解读本节给出一个简单的公司人力资源系统的数据处理案例。人力资源管理系统的管理内容组织结构如图3-10所示。
段智华
·
2018-02-21 13:14
AI
&
Big
Data案例实战课程
Spark 2.2.1 集成Hive数据仓库的案例与解读
Spark2
.2.1集成Hive数据仓库的案例与解读一般情况下,各个公司都会建立自己的数据仓库,尤其是当前大数据生态圈中使用最普遍的Hive数据仓库,需要集成这部分数据,向外提供这部分数据的查询接口。
段智华
·
2018-02-20 21:09
AI
&
Big
Data案例实战课程
上一页
32
33
34
35
36
37
38
39
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他