E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
Spark常用执行脚本
集群环境变量无配置:exportSPARK_DIST_CLASSPATH=$(hadoopclasspath)安全认证:
[email protected]
spark2
执行命令
lhxsir
·
2018-11-23 15:02
spark
SparkSession的使用
简单的来说,SparkSession是
Spark2
.0版本中SparkContext更好用的接口packagecom.imooc.sparkimportorg.apache.spark.sql.SparkSession
翰文不是瀚
·
2018-11-22 23:17
spark
Spark环境搭建(多种模式)
搭建环境:CentOS7+jdk8+
spark2
.3.2+hadoop2.7Local本地模
LousenJay
·
2018-11-22 09:00
大数据
Spark2
.1.0——WebUI框架体系
阅读建议:阅读本文前最好先阅读《
Spark2
.1.0——SparkUI的实现》一文。SparkUI构建在WebUI的框架体系之上,因此应当首先了解WebUI。
泰山不老生
·
2018-11-20 09:34
大数据
Spark
Scala
深入理解Spark
PySpark Failed to locate the winutils binary
STEP1:downloadrightversionofwinutils.exe,I'musing
spark2
.3withhadoop2.7,soIneedtodownloadHadoop2.7'swinutils.exe.https
qianleiz
·
2018-11-20 09:27
Big
Data
PySpark Failed to locate the winutils binary
STEP1:downloadrightversionofwinutils.exe,I'musing
spark2
.3withhadoop2.7,soIneedtodownloadHadoop2.7'swinutils.exe.https
qianleiz
·
2018-11-20 09:27
Big
Data
Spark SQL
楔子SparkSQL,基于
Spark2
.版本Spark相关内容以下内容是从相关书籍中,阅读Spark部分笔记企业大数据处理Spark、Druid、Flume、Kafka应用实践2Spark详解Spark
千里草竹
·
2018-11-18 00:04
Spark
PySpark读写Oracle性能深度调优
1、环境准备 在本次测试环境中,用6台机器搭建了CDH的Hadoop平台,
Spark2
.2版本搭配Yarn进
超叔csdn
·
2018-11-17 15:18
【Spark】Spark 消息通信架构
Spark有内置的RPC框架(在
Spark2
.0.0之前,是借助Akka来实现的,虽
w1992wishes
·
2018-11-15 14:11
【Spark】Spark 消息通信架构
Spark有内置的RPC框架(在
Spark2
.0.0之前,是借助Akka来实现的,虽
w1992wishes
·
2018-11-15 14:04
Spark
spark
hive与spark的匹配版本汇总
src1.3.1apache-hive-2.1.1-src1.6.0apache-hive-2.3.3-src2.0.0apache-hive-3.0.0-src2.3.0stackoverflow上可行的例子是:
spark2
.0.2withhadoop2.7.3andhive2.1
俞驰的博客
·
2018-11-12 13:30
PySpark
Hive
Spark2
.1.0——SparkContext概述
Spark应用程序的提交离不开SparkDriver,后者是驱动应用程序在Spark集群上执行的原动力。了解SparkDriver的初始化,有助于读者理解Spark应用程序与SparkDriver的关系。SparkDriver的初始化始终围绕着SparkContext的初始化。SparkContext可以算得上是Spark应用程序的发动机引擎,轿车要想跑起来,发动机首先要启动。SparkConte
泰山不老生
·
2018-11-12 10:23
大数据
Spark
Scala
Java
Hadoop
深入理解Spark
大数据DMP画像系统
系统的架构和开发4、大数据结合业务场景落地系统开发要求涉及的技术要点:spark、elasticsearch、hadoop、hive、LRGBDT等机器学习算法开发工具:idea、eclipse开发环境:
spark2
.2
java_66666
·
2018-11-12 00:00
Hadoop与Spark关系
Hadoop与Spark的关系目录一:介绍1:
Spark2
:Hadoop二:不同层面的关系1:功能2:依赖关系3:数据量影响4:容错说明:近期在做一个图关系项目时,使用到了saprk分析引擎和Hadoop
yoylee_web
·
2018-11-11 17:14
大数据
Hadoop与Spark关系
Hadoop与Spark的关系目录一:介绍1:
Spark2
:Hadoop二:不同层面的关系1:功能2:依赖关系3:数据量影响4:容错说明:近期在做一个图关系项目时,使用到了saprk分析引擎和Hadoop
yoylee_web
·
2018-11-11 17:14
大数据
3、
Spark2
x 基于内存的计算引擎
Spark2
x基于内存的计算引擎一、Spark概述Spark是一种基于内存进行计算的分布式批处理引擎,他的主要工作是执行以下几种计算:(1)数据处理,可以进行快速的数据计算工作,具备容错性和可拓展性。
bug发现与制造
·
2018-11-09 17:13
Spark
大数据
windos下
spark2
.3.2源码编译
当时在学习spark的时候,编译过
spark2
.11源码,当时也遇到过不少坑,导致编译过程坎坷。时过境迁,目前spark的最新版本是
spark2
.3.2。这次跟着官网指导编译一下最新代码。
梧上擎天
·
2018-11-09 11:03
spark读取hive数据-java
环境:
spark2
.0.21.SparkSession里设置enableHiveSupport()SparkConfconf=newSparkConf().setAppName("appName").setMaster
hupangrou
·
2018-11-08 12:29
spark
Spark DataFrame的groupBy vs groupByKey
所用spark版本:
spark2
.1.0先从使用的角度来说,groupBy:groupBy类
zzzzMing
·
2018-11-04 16:00
大数据分布式平台Hadoop2.7.7 +
Spark2
.2.2搭建
ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器
兴趣e族
·
2018-11-02 16:37
spark
hadoop
spark
Spark SQL的数据源(
Spark2
.3.2)
版权声明:本文为博主原创(翻译)文章,未经博主允许不得转载。https://blog.csdn.net/jmx_bigdata/article/details/83619838目录一、普通的Load/Save方式1.手动指定文件格式2.使用SQL直接查询文件3.保存模式4.保存为永久的表5.分桶、排序与分区二、Parquet文件1.编程的方式加载数据2.自动识别分区3.模式合并4.Hive中Par
jmx_bigdata
·
2018-11-01 14:38
Spark
Spark
SQL
IDEA编写wordcount,读取hdfs文件,运行在Spark集群例子
前期:已安装好hadoop集群和spark集群,hadoop2.6.5,
spark2
.3.1,jdk1.8.scala2.1.0第一步:在idea编写scala程序,并且要打包(pom文件的build标签中配置好
璀璨下的一点星辰
·
2018-10-31 10:51
Spark
spark2
.1源码编译
我的hadoop版本:hadoop-2.6.0-cdh5.7.0我的scala版本:2.11.8我的hive版本:hive-1.1.0-cdh5.7.0hadoop下载地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gzhive下载路径:http://archive.cloudera.com/cdh5/cdh/
匪_3f3e
·
2018-10-31 09:46
spark第九篇:Spark操作ES
从5.0版本开始,支持
spark2
.0。把elasticsearch-hadoop-xxx.jar放在spark的类路径(classpath)中。
koushr
·
2018-10-29 22:00
Spark2
.x源码分析---spark-submit提交流程
本文以sparkonyarn的yarn-cluster模式进行源码解析,如有不妥之处,欢迎吐槽。步骤1.spark-submit提交任务脚本spark-submit--class主类路径\--masteryarn\--deploy-modecluster\--driver-memory申请driver内存\--executor-memory申请每个executor内存\--executor-cor
启明龍
·
2018-10-29 11:33
spark
spark RDD,reduceByKey vs groupByKey
先看两者的调用顺序(都是使用默认的Partitioner,即defaultPartitioner)所用spark版本:
spark2
.1.0先看reduceByKeyStep1defreduceByKey
zzzzMing
·
2018-10-28 21:00
利用最新的CentOS7.5,hadoop3.1,
spark2
.3.2搭建spark集群
1.桥接模式,静态ip上外网:vi/etc/sysconfig/network-scripts/ifcfg-ens33TYPE=EthernetPROXY_METHOD=noneBROWSER_ONLY=noBOOTPROTO=staticDEFROUTE=yesIPV4_FAILURE_FATAL=noIPV6INIT=yesIPV6_AUTOCONF=yesIPV6_DEFROUTE=yesI
丰泽园的天空
·
2018-10-28 10:00
hue集成Oozie工作流调度之
Spark2
Workflow
一、环境准备CDH5.15.0,
spark2
.3.0,hue3.9.0注意:由于使用的是CDH集群,默认的spark版本为1.6.0,又通过parcel包的方式安装了
spark2
.3.0,此时集群存在两个
jmx_bigdata
·
2018-10-25 18:15
HUE
Oozie
Spark
Spark通过JDBC加载部分数据、添加过滤条件
例如:只需要其中的部分字段按照条件进行筛选后的数据此时就需要在JDBC连接时对option(“dbtable”,tablename)属性值进行修改,参看spark官网给出的属性介绍:(
spark2
.3jdbc-to-other-databa
雾幻
·
2018-10-25 09:31
spark
Windows Pycharm 开发Spark环境搭建
是参考的这个:https://stackoverflow.com/questions/34685905/how-to-link-pycharm-with-pyspark环境:Windows1064bit,
Spark2
.3.2
qianleiz
·
2018-10-24 16:54
Python
java使用
spark2
开发本地测试的wordCount程序
packagecn.spark.study.core;importjava.util.Arrays;importjava.util.HashMap;importjava.util.Iterator;importjava.util.Map;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;impo
璃鹿
·
2018-10-17 11:05
spark
Spark2
.3.1+Kafka0.9使用Direct模式消费信息异常
Spark2
.3.1+Kafka使用Direct模式消费信息Maven依赖org.apache.sparkspark-streaming-kafka-0-8_2.112.3.1org.apache.sparkspark-streaming
笨兔儿
·
2018-10-12 00:00
scala
kafka
spark-streaming
spark
大数据工程师
经常感觉没有什么目标,于是就百度汇总了一下可以学习的东西,比较全面了,包括数据分析与可视化,机器学习可以根据自己的喜好来选择大数据通用处理平台:1.
Spark2
.Flink3.Hadoop分布式存储:HDFS
S_Running_snail
·
2018-10-11 10:42
大数据学习
SparkStreaming(10):高级数据源flume-push方式(生产)
【参考:http://spark.apache.org/docs/2.1.0/streaming-flume-integration.html】1.环境
spark2
.1.0flume1.6.02.flume
RayBreslin
·
2018-10-11 07:13
SparkStreaming
Spark
大数据开发
flume
Spark2
.2,IDEA,Maven开发环境搭建附测试
Spark2
.2,IDEA,Maven开发环境搭建附测试前言:停滞了一段时间,现在要沉下心来学习点东西,出点货了。
husongbo
·
2018-10-10 11:01
Spark2
.3.1使用技巧
Spark2
.3.1使用技巧Spark-SQL读取JSON文件时反射表头caseclassStudentInfo(id:Long,name:String,age:Int)valexample=spark.read.json
笨兔儿
·
2018-10-09 00:00
spark
Spark作业运行架构原理解析
需要注意的是,这里是基于
Spark2
.x以下的版本,因为在之前,底层通信是基于AKKAACTOR的方式,但是之后就是使用RPC的方式了。
xpleaf
·
2018-10-05 11:41
大数据
Spark
架构
Spark
Kubernetes与大数据之一:使用Kubernetes scheduler运行Spark
一共支持如下四种资源调度方式:StandaloneDeployModeApacheMesosHadoopYARNKubernetes现在使用Kubernetes作为原生调度器还只是一个试验功能,并且需要如下前提条件:
Spark2
.3
cloudvtech
·
2018-10-02 09:44
kubernetes
Spark
大数据
大数据与Kubernetes
SparkSQL(3)——Spark SQL DataFrame操作
读取数据源创建DataFrame在
spark2
.0之后,SparkSession封装了SparkContext,SqlContext,通过SparkSession可以获取到SparkConetxt,SqlContext
Fenggms
·
2018-09-30 21:36
Spark
大数据学习之路85-
spark2
.0中的DataSet和DataFrame简介
DataSet是
spark2
.0提出来的新东西,我们来玩一下:这次我们就不用SparkContext了,所以我们也不需要SparkConf了。
爱米酱
·
2018-09-29 21:44
大数据
解决spark streaming长时间运行日志不断增长问题
解决sparkstreaming长时间运行日志不断增长问题一、sparkstreaminglog日志二、sparkstreamingeventlog组件:基于CDH5.13、
spark2
.2.X背景:由于
shengjk1
·
2018-09-29 19:25
工作之行
Spark---内存管理
本文中阐述的原理基于
Spark2
.1版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shuffle、JVM等相关概念。在执行
YK_324504836
·
2018-09-29 16:30
spark
2018即将推出的Apache Spark 2.4都有哪些新功能
即将发布的Apache
Spark2
.4版本是2.x系列的第五个版本。本文对Apache
Spark2
.4的主要功能和增强功能进行了概述。
青色的海牛
·
2018-09-29 10:44
【Big Data 每日一题20180927】Structured Streaming 之 Event Time 解析
StructuredStreaming之EventTime解析[酷玩Spark]StructuredStreaming源码解析系列,返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围:*2017.07.11update,
Spark2
.2
天地不仁以万物为刍狗
·
2018-09-27 21:22
Spark
Big
Data
每日一题
Spark
即将发布的 Apache Spark 2.4 都有哪些新功能
即将发布的Apache
Spark2
.4版本是2.x系列的第五个版本。本文对 Apache
Spark2
.4的主要功能和增强功能进行了概述。
Hadoop技术博文
·
2018-09-21 00:00
spark中 Dynamic Allocation 以及 num-executors 的问题
之前使用
spark2
.3.1的sparkstreaming时,发现spark-submite设置num-executors10时,没有起作用,spark作业的executors一度多大几百个,后来把dynamicAllocation.enabledfalse
EnterPine
·
2018-09-12 16:41
spark
hadoop + spark+ hive 集群搭建(apache版本)
1.集群环境和版本说明3台CentOS7.4的服务器,4CPU,8G内存;jdk1.8hadoop2.7.7
spark2
.3.0hive2.1.1节点和主
hello_cjq
·
2018-09-11 17:27
hadoop
hive
spark
自动化运维
spark读取hbase表格记录实例 for IntelliJ IDEA
spark读取hbase表格记录实例forIntelliJIDEA引入库hbase2.0.1中lib库所有*.jarscala-sdk-2.11.6
spark2
.3.1中spark\jars目录中所有*
hsg77
·
2018-09-11 16:51
云平台
hadoop
分布式开发
存储
Spark源码研读-散篇记录(二):Spark内置RPC框架之TransportConf
1Spark版本
Spark2
.1.0。
xpleaf
·
2018-09-10 23:58
Spark
源码
TransportConf
Spark
【AutoML框架】TransmogrifAI配置问题及简要分析
*,尽量装12版本,13可能不支持2、安装hadoop和
spark2
.2.*,同样注意版本号,安装gradle3、下载TransmogrifAI的Release版本,目前是0.
人木
·
2018-09-10 17:15
AutoML
上一页
29
30
31
32
33
34
35
36
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他