E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
184、Spark 2.0之Spark 2.x与1.x对比以及分析
Spark2
.x与1.x对比Spark1.x:SparkCore(RDD)、SparkSQL(SQL+Dataframe+Dataset)、SparkStreaming、SparkMLlib、SparkGraphx
Spark2
ZFH__ZJ
·
2019-02-11 13:00
Spark入坑
第一个spark应用开发详解(java版)
WordCount是大数据学习最好的入门demo,今天就一起开发java版本的WordCount,然后提交到
Spark2
.3.2环境运行;版本信息操作系统:CentOS7;JDK:1.8.0_191;Spark
程序员欣宸
·
2019-02-08 21:06
spark
Spark实战
无痛搭建
Spark2
.1+Scala2.11.8+jdk1.8+IntelliJ的环境
前言最近又需要在OSX的系统下重新安装spark,intelliJIdea,scala的环境,讲道理不难,阅读者可以按照教程享受个无痛搭建环境的体验。IntelliJJDK下载安装JDK下载网站https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html我选的是JDK1.8的dmg.Scal
coolljp21
·
2019-02-04 01:48
spark
CarbonData SDK集成OSS - 测试步骤
java-classpath/home/carbondata/carbondata/assembly/target/scala-2.11/apache-carbondata-1.6.0-SNAPSHOT-bin-
spark2
.2.1
文竹小二
·
2019-02-03 19:12
Spark2
.4.0源码编译支持hadoop-2.6.0-cdh5.7.0
软件包JDK1.8.0_45apache-maven-3.6.0Scala2.11.8hadoop-2.6.0-cdh5.7.0注意设置内存*****exportMAVEN_OPTS="-Xmx2g-XX:ReservedCodeCacheSize=512m"安装git,源码编译过程中会需要用到git[
[email protected]
]$s
Nekou_
·
2019-01-30 00:41
Spark
ApacheCN 学习资源汇总 2019.1
合作or侵权,请联系【fonttian】|请抄送一份到Java基础Java编程思想JavaWeb和大数据
Spark2
飞龙
·
2019-01-29 00:00
pandas
numpy
pytorch
tensorflow
python
在CentOS6.9搭建
Spark2
.4.0集群
一、环境操作系统:CentOS6.9软件版本:
Spark2
.4.0集群架构:master:10.200.4.117(oracle02)worker1:10.200.4.116(oracle03)worker2
andyguan01_2
·
2019-01-24 17:39
spark
spark
Spark MLlib 环境搭建超详细教程
2、环境下载2.1Spark下载http://spark.apache.org/downloads.html
spark2
.2hadooponwindos下载https://github.com/sardet
徐卜灵
·
2019-01-24 09:16
Spark SQL中列转行(UNPIVOT)的两种方法
本文链接:https://www.cnblogs.com/hhelibeb/p/10310369.html测试数据准备本文的环境是Windows10,
Spark2
.4,开发语言是Python。
氢氦
·
2019-01-23 18:00
Spark 2.2.0 在创建过大的DataFrame时候出现的错误
我当时很奇怪,就立即kill掉了这个应用,并且去看了一下yarn上面对应的日志,发现了报了这样的错:然后去网上疯狂百度,发现这是
spark2
.2.0版本的一个bug,当创建的DataFrame的大小超过一定的范
big_data1
·
2019-01-23 17:27
那些年踩过的坑
spark
'HiveContext' object has no attribute 'jsonFile' && 'DataFrame' object has no attribute 'map'报错解决
测试环境:Ubuntu16.04;
Spark2
.4错误1描述input=hiveCtx.jsonFile(inputFile)--------------------------------------
Solarzhou
·
2019-01-23 15:59
linux
大数据
伐木累
Python+Spark 2.0+Hadoop机器学习与大数据实战 目录
DataFrame、SparkSQL291.4使用Python开发Spark机器学习与大数据应用301.5PythonSpark机器学习311.6SparkMLPipeline机器学习流程介绍321.7
Spark2
.0
belldeep
·
2019-01-20 10:09
技术书籍
spark2
.3.3消费kafka中的数据,与hive中的表做关联并写入elasticsearch6.5.3(spark structed streaming)
背景:本地物理机机房新建了一个大数据集群(cdh,
spark2
.3.3+hive3.0)旧集群环境:
spark2
.1.0+hive2.4.2新旧集群为内网访问。
Me丶kang
·
2019-01-20 02:41
spark
spark
structed
streaming
kafka
elasticsearch
hive
Spark2
.4+Hadoop2.7+Zookeeper3.4+HBase2.1集群部署
一、操作系统及软件操作系统:CentOS7.2应用软件:软件可以到官网去下,也可以使用本站提供的地址
Spark2
.4.0:http://www.gaoq.vip/download/spark-2.4.0
itbs
·
2019-01-18 13:10
大数据
Spark2
.2——RpcEnv(一)
Spark1.6推出的RpcEnv、RpcEndPoint、RpcEndpointRef为核心的新型架构下的RPC通信方式,在底层封装了Akka和Netty,为未来扩充更多的通信系统提供了可能。RpcEnv是一个更宏观的Env,是Spark集群Rpc通信的基础服务环境,因此在集群启动时候所有的节点(无论Master还是Worker)都会创建一个RpcEnv,然后将该节点注册到RpcEnv中。R
Jorocco
·
2019-01-16 11:22
大数据
Spark
Spark2
.2源码剖析——SecurityManager
SecurityManager主要对帐号、权限以及身份认证进行设置和管理。如果Spark的部署模式为YARN,则需要生成secretkey(密钥)并存储HadoopUGI。而在其他模式下,则需要设置环境变量_SPARK_AUTH_SECRET(优先级更高)或者spark.authenticate.secret属性指定secretkey(密钥)。最后SecurityManager中设置了默认的口
Jorocco
·
2019-01-15 13:13
大数据
Spark
Spark2
.2源码剖析——SparkContext
Spark应用程序的提交离不开SparkDriver,后者是驱动应用程序在Spark集群上执行的原动力。了解SparkDriver的初始化,有助于理解Spark应用程序与SparkDriver的关系。 而SparkDriver的初始化始终围绕着SparkContext的初始化。SparkContext可以算得上是Spark应用程序的发动机引擎,轿车要想跑起来,发动机首先要启动。SparkCo
Jorocco
·
2019-01-14 13:29
大数据
Spark
Structured Streaming入门实例
StructuredStreaming入门实例StructuredStreaming是
Spark2
.4版本推出的新的实时流处理计算。相比SparkStreaming具有更低的延迟。
张行之
·
2019-01-10 16:56
大数据
pyspark-配置spark的Python环境
1.首先你的服务器上spark环境已经配置完成,本文主要针对spark配置py
spark2
.由于python的库众多为了更好的管理与集成,这里使用anconda3来集成Python3(我的centOS7
三石弟弟
·
2019-01-10 11:58
spark
YARN、Spark、Hive使用kerberos
我的环境:三台服务器,分别命名为zelda1、zelda2、zelda3ubuntu14.04hadoop2.7.2
spark2
.0/1.6.1YARN认证目的是将YARN接入到kerberos集群里,
mnasd
·
2019-01-08 23:46
ranger
spark2
连接关系型数据库postgresql
通过spark-shell连接关系型数据库postgresql1.拷贝postgresql的jdbc驱动首先需要将postgresql的jdbc驱动拷贝至spark的jars文件夹下2.启动spark-shell交互命令执行如下命令,启动spark-shell交互命令./spark-shell或者通过显示指定jdbc驱动,启动spark-shell./spark-shell--driver-cla
reco171
·
2019-01-06 13:00
大数据环境搭建步骤详解(Hadoop,Hive,Zookeeper,Kafka,Flume,Hbase,Spark等安装与配置)
大数据环境安装和配置(Hadoop2.7.7,Hive2.3.4,Zookeeper3.4.10,Kafka2.1.0,Flume1.8.0,Hbase2.1.1,
Spark2
.4.0等)系统说明搭建步骤详述一
原来浙小商啊
·
2019-01-02 13:12
大数据
hadoop
spark
spark2
以后对limit的优化和存在问题
问题假如我们在spark-shell上执行:spark.sql("select*fromtablelimit1000").collect()spark会开多少多个任务去跑这个任务呢?实验OK,我们来做一个实验吧!job通过实验结果我们可以看到就开了一个Task执行,but,是这样的嘛?其实开多少Task还真不是固定的,这个取决于我们take的条数和这张表底层每个分区数据量的大小,怎么说呢,我们举个
frb502
·
2018-12-31 21:35
Spark 内核设计的艺术架构与实现 第二章Spark模型设计
1Spark编程模型用户使用SparkContext提供的API编写Driver段程序(常用的textFilesequenceFilerunjob等)
Spark2
.4Spark基本架构从集群部署的角度来看
chixushuchu
·
2018-12-30 17:04
实战
spark
win10 安装单机版 pyspark
1需要安装spark和hadoop(python3.6需要
spark2
.1以上版本)两者作相同处理:解压之后,还需要完成SPARK_HOME和bin环境变量相关配置;HADOOP_HOME和bin环境变量的配置
蕾姆233
·
2018-12-29 16:40
spark
Spark2
.0 StructuredStreaming
流式计算的现状大多数的流式计算引擎(比如storm、sparkstreaming等)都仅仅关注流数据的计算方面:比如使用一个map函数对一个流中每条数据都进行转换,或者是用reduce函数对一批数据进行聚合。但是,实际上在大部分的流式计算应用中,远远不只是需要一个流式计算引擎那么简单。相反的,流式计算仅仅在流式应用中占据一个部分而已。因此现在出现了一个新的名词,叫做持续计算/应用,continuo
chixushuchu
·
2018-12-29 14:29
实战
spark
搜狐实验室 新闻点击量项目
新闻项目大数据实时可视化分析项目项目托管到码云第一章技术点Hadoop2.x、Zookeeper、Flume、Hive、Hbase、Kafka、
Spark2
.x、SparkStreaming、MySQL
chixushuchu
·
2018-12-29 10:37
spark
2.0搜狐实验室新闻可视化
实战
spark
MLSQL平台执行python代码示例
4、兼容
Spark2
.2.x/2.3.x/2.4.x。MLSQL项目地址:https://github.
天降攻城狮
·
2018-12-28 11:48
使用Spark ML进行数据分析
Spark版本:2.4.0语言:Scala任务:分类这里对数据的处理步骤如下:载入数据归一化PCA降维划分训练/测试集线性SVM分类验证精度输出cvs格式的结果前言从
Spark2
.0开始,Spark机器学习
涛O_O
·
2018-12-27 22:29
Spark2
.X-自定义累加器AccumulatorV2
累加器作为spark的一个共享变量的实现,在用于累加计数计算计算指标的时候可以有效的减少网络的消耗spark中有一个节点的角色是Master,根据配置文件进行分配,Master节点的职责主要是参与worker节点之间的资源调度。参与spark作业计算的是worker节点上的excutor,在最开始会将原始RDD复制到excutor的各个task进程上以供计算。这时候如果task过多,或者原始RDD
hlp4207
·
2018-12-27 16:03
spark
Spark Streaming & Structured Streaming分析
Spark2
.x中也推出了全新的基于Dataframe/Dataset的StructuredStreaming流式计算
chixushuchu
·
2018-12-27 10:48
实战
spark
Spark RDD的默认分区数:(spark 2.1.0)
本文基于
Spark2
.1.0版本新手首先要明白几个配置:spark.default.parallelism:(默认的并发数)如果配置文件spark-default.conf中没有显示的配置,则按照如下规则取值
weixin_34319999
·
2018-12-27 00:00
基于
Spark2
.2的 交互式用户活跃度分析 指定范围 访问次数 top10
spark2
.0主要就是DataSet的成熟api,提供比rdd原生api更高level的抽象api,更加方便我们的数据开发工作。
chixushuchu
·
2018-12-26 18:00
实战
spark
hadoop3.1.1+scala2.12.8+
spark2
.4.0分布式集群搭建
gzspark-2.4.0-bin-hadoop2.7.gz1.2集群规划IPHostname安装内容192.168.56.11spark1Hadoop\scala\spark192.168.56.12
Spark2
Hadoop
古佛青灯
·
2018-12-19 16:12
Spark相关
Spark2
.X+Python实战课程
阅读更多
Spark2
.X+Python实战课程网盘地址:https://pan.baidu.com/s/1aoBjDkU1rCSkIAr1drsfLg提取码:vm93备用地址(腾讯微云):https:/
天台没有爱情
·
2018-12-18 14:00
python
Spark2
.X+Python实战课程
阅读更多
Spark2
.X+Python实战课程网盘地址:https://pan.baidu.com/s/1aoBjDkU1rCSkIAr1drsfLg提取码:vm93备用地址(腾讯微云):https:/
天台没有爱情
·
2018-12-18 14:00
python
Spark 2.4.0编程指南--Spark SQL UDF和UDAF
原文链接:https://my.oschina.net/u/723009/blog/2989933
Spark2
.4.0编程指南--SparkSQLUDF和UDAF更多资源github:https://github.com
chongqueluo2709
·
2018-12-18 14:00
Spark2
.3.2源码解析: 4.2.Yarn cluster 模式 SparkSubmit源码分析(二)ApplicationMaster
准备工作:启动脚本--namespark-test--classWordCount--masteryarn--deploy-modecluster/A/spark-test/spark-test.jar/tmp/zl/data/data.txt执行jar包spark-test.jar代码核心:valconf=newSparkConf()conf.setAppName("WordCount")val
张伯毅
·
2018-12-18 14:12
Spark
Spark2.3.2源码解析
Spark 2.4.0编程指南--spark dataSet action
原文链接:https://my.oschina.net/u/723009/blog/2989913
Spark2
.4.0编程指南--sparkdataSetaction更多资源github:https:/
chongqueluo2709
·
2018-12-18 14:00
IDEA 中开发第一个Spark 程序
1.创建一个Maven项目2.添加SCALA依赖库****注意scala的版本相对于
spark2
.4,scala的版本必须是2.11.x修改POM.xml文件加入hadoop-client和spark-core
颓废的大饼
·
2018-12-16 17:07
Spark
大数据学习第二天
2.部署spark和hadoopHadoop2.9.2+
Spark2
.4.0完全分布式集群搭建过程主要参考了这一篇https://blog.csdn.net/guoyu931206/article/details
glory8901
·
2018-12-15 13:08
大数据
Spark 2.4 入门之基于Hadoop 2.7.3环境搭建
准备环境3台LinuxVMServerRHL6.8*3Hadoop2.7.3集群环境搭建下载
Spark2
.4版本网址:https://spark.apache.org/downloads.html镜像地址
颓废的大饼
·
2018-12-12 23:42
Spark
spark
笔者的环境为:centos7.该文章主要是讲述了在centos7上搭建
spark2
.0的具体操作和spark的简单使用,希望可以给刚刚接触spark的朋友一些帮助。
hehyyoulan
·
2018-12-12 16:25
大数据学习
使用Spark Streaming处理Kafka数据流
1系统软件本文实验基于的各软件版本如下:Java1.8.0_191Scala2.11hadoop-3.0.3zookeeper-3.4.10
Spark2
.3.2kafka_2.12-2.0.1kafka-manager
安中古天乐
·
2018-12-08 18:47
Spark2
.0 RDD DataFrame DataSet 如何选择?
RDD和Dataset最大的不同在于,RDD是low-level的API和内核,Dataset实际上基于底层的引擎构建的high-level的计算引擎。1、RDD使用场景1、如果我们需要对数据集进行非常底层的掌控和操作,比如说,手动管理RDD的分区,或者根据RDD的运行逻辑来结合各种参数和编程来进行较为底层的调优。因为实际上Dataframe/Dataset底层会基于whole-stagecode
chixushuchu
·
2018-12-07 15:19
实战
Hadoop2.8.5+
Spark2
.4.0完全分布式集群搭建过程
Hadoop2.8.5+
Spark2
.4.0完全分布式集群搭建过程1.选取三台服务器(CentOS系统64位)2.修改hosts文件3.ssh无密码验证配置4.安装基础环境(JAVA和SCALA环境)5
从小白开始的程序媛之路
·
2018-12-04 18:14
升级 spark 2.3问题:Spark Streaming日志级别设置,最小堆内存设置
一、内存问题1、旧集群spark1.6.1jdk1.7或1.8jvm堆内存分配,直接分配的为driver申请的内存(最大、最小堆内存相等)2、新集群
spark2
.3.jdk1.8jvm堆内存分配,刚开始分比较小的内存
T-Janey
·
2018-12-03 17:52
BigData
spark2
.1.0配置windows本地基于java语言的Eclipse开发环境
前面配置过在windows本地通过Eclipse开发hadoop程序然后打成jar包在Linux集群中运行的经历,因此一方面是基于同样的需求,另一方面是因为我是spark小白,想通过这种方式快速了解和学习spark开发。(注意:此文配置的是基于java语言开发spark的,如果要用scala开发,则需要在Eclipse中添加scala插件并做进一步配置。如果要用python开发,则最好用pycha
ASN_forever
·
2018-12-03 11:27
spark
大数据
Spark2
.3(三十四):Spark Structured Streaming之withWaterMark和windows窗口是否可以实现最近一小时统计
WaterMark除了可以限定来迟数据范围,是否可以实现最近一小时统计?WaterMark目的用来限定参数计算数据的范围:比如当前计算数据内maxtimestamp是12::00,waterMark限定数据分为是60minutes,那么如果此时输入11:00之前的数据就会被舍弃不参与统计,视为来迟范围超出了60minutes限定范围。那么,是否可以借助它实现最近一小时的数据统计呢?代码示例:pac
cctext
·
2018-12-02 19:00
如何成为一个大数据开发工程师?
大数据通用处理平台1.
Spark2
.Flink3.Hadoop分布式存储HDFS资源调度YarnMesos机器学习工具Mahout1
qq_43713878
·
2018-12-01 13:25
大数据
大数据学习
大数据分析
大数据开发
Linux
Hadoop
spark
数据挖掘
上一页
28
29
30
31
32
33
34
35
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他