E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
14.3 Spark-SQL基于PostgreSQL数据分析编程实例
创建Gradle项目,引入依赖创建连接读数据库写数据库完整源码
Spark2
PostgreSQL.java完整项目源码14.3.1引入依赖compilegrou
王小雷-多面手
·
2018-07-15 22:35
Spark
大数据
Spark SQL之Catalog API介绍和使用
《
Spark2
.0技术预览:更容易、更快速、更智能》文章中简单地介绍了
Spark2
.0带来的新技术等。
Spark2
.0是ApacheSpark的下一个主要版本。
Mr_249
·
2018-07-14 16:57
Win10--
Spark2
.3 + hadoop3.1 本地环境搭建
中间有部分坑(此篇为64位的环境,如果是32位则无需更换bin内容)准备工作Hadoop所需要更换的bin目录下的文件Hadoop3.1进行下载
Spark2
.3.1下载包JDK1.8进行配置将下载好的Hadoop
喜欢雨天的我
·
2018-07-11 23:25
后端--开发
1G内存云服务器(CentOS6.9)也能跑起
Spark2
环境CentOSrelease6.9(Final)java1.8.0-openjdk.x86_64scala2.12.6
spark2
.3.11.准备服务器2.创建swapmemory3.持久化swapmemory4
多空师
·
2018-07-11 13:17
spark
Spark SQL 实现 group_concat
SparkSQL实现group_concat环境:
Spark2
.0.1以下貌似需要至少Spark1.6支持,未实测(网友yanshichuan1反馈spark1.5.1同样支持,感谢)表结构及内容:+-
Islotus
·
2018-07-11 02:47
spark
Windows10/Centos7安装
Spark2
.3.1
环境Windows10Centos7.4java1.8.0-openjdk.x86_64scala2.12.6
spark2
.3.1Windows10安装
Spark2
.3.11.安装Java1.82.安装
多空师
·
2018-07-10 15:22
spark
Spark2
.X 使用累加器AccumulatorV2实现字符串拼接下的字母统计
Spark2
.X中的累加器和Spark1.X中有着很大不同,下面将实现的功能是:将一个集合,集合中含有字母"A","B","A","D","E","D","G","H","I","A","B","I",
Winner941112
·
2018-07-10 15:32
Spark2.X
Accumulator
RDD
CentOS7.5搭建
spark2
.3.1集群
安装前提Java8安装成功zookeeper安装参考:CentOS7.5搭建Zookeeper3.4.12集群hadoop安装参考:CentOS7.5搭建Hadoop2.7.6集群Scala安装成功注意:从
Spark2
.0
邓天翔
·
2018-07-09 13:10
Spark
Spark 2.2 内存占用计算公式
下面参数均已
spark2
.2为准,不同版本会有些差异一、Spark内存管理(1)spark内
微步229
·
2018-07-06 13:53
Spark
Kafka+Spark streaming读取数据存hdfs
Sparkstreaming+Kafka读取数据存hdfs一、环境准备:
spark2
.3.0下载kafka1.1.0下载二、Kafka代码1、maven依赖的包以及编译环境(pom.xml)org.apache.kafkakafka
chak_16
·
2018-07-05 08:24
kafka
spark
streaming
hdfs
Spark job提交过程
本文基于
spark2
.111.前言1.1基本概念RDD关于RDD已经有很多文章了,可以参考一下理解Spark的核心RDD依赖依赖分为窄依赖和宽依赖,下图描述了两种依赖(图片出自spark窄依赖和宽依赖)
cjlion
·
2018-06-30 17:39
spark2
.2.0集群配置
1、集群模式简介(1)Local多用于本地测试,如在eclipse,idea中写程序测试等。(2)StandaloneStandalone是Spark自带的一个资源调度框架,它支持完全分布式。(3)YarnHadoop生态圈里面的一个资源调度框架,Spark是可以基于Yarn来计算的,最流行。(4)Mesos一种资源调度框架,支持docker,前景最好2、资源分配这里我用5台机器,1个Master
LiryZlian
·
2018-06-23 01:50
Bigdata
Spark
windows10下
spark2
.3.0本地开发环境搭建-亲测
1windows10下
spark2
.3.0本地开发环境搭建文档下载地址:https://download.csdn.net/download/hambition/10492232由于博文上传图片比较麻烦
hambition
·
2018-06-22 10:51
大数据
spark
HBase实战(6):使用Spark 2.2.1 直接操作HBASE 1.2.0数据库
HBase实战(6):使用
Spark2
.2.1直接操作HBASE1.2.0数据库之前对于Hbase系统已实验成功的内容:Hbase分布式集群搭建:点击打开链接直接使用pythonAPI连接Hbase操作数据
段智华
·
2018-06-15 15:37
AI
&
Big
Data案例实战课程
Spark DataFrame写入HBase的常用方式
本文将会介绍三种写入的方式,其中一种还在期待中,暂且官网即可...代码在
spark2
lin502
·
2018-06-15 09:00
大数据
大数据面试题集锦(四)
JobTracker失效会多事集群中所有的运行作业,用户需手动重新提交和恢复工作流3)对不同编程模型的支持HadoopV1以MapReduce为中心的设计虽然能支持广泛的用例,但是并不适合所有大型计算,如storm,
spark2
Zzreal
·
2018-06-14 16:51
面试(做弊)指南
Hadoop(十)spark环境搭建
本篇使用
Spark2
.3.0ApacheSpark是一个快速且通用的集群计算系统。它提供Java,Scala,Python和R中的高级API以及支持通用执行图的优化引擎。
chsmy2018
·
2018-06-14 14:15
大数据
大数据Structured Streaming教程1:基本概念及使用
在
Spark2
.x中,新开放了一个基于DataFrame的无下限的流式处理组件——StructuredStreaming,它也是本系列的主角,废话不多说,进入正题吧!
哈哈哈_53b3
·
2018-06-07 01:56
小白spark学习感悟 AND spark两大版本的比较!!!
个月左右的因为还有平时上课所以学的比较零散,有不足的地方希望大家指出来)对于刚刚入spark的小白(metoo)来说我觉得你们很有必要读读这篇介绍,你可能看不懂,你也有可能觉得没什么实在的内容,但是我劝你好好看看,看完之后对你的学习
spark2
.0
忘川风华录
·
2018-06-04 20:09
spark
Spark读取mongoDB数据写入Hive普通表和分区表
版本:
spark2
.2.0hive1.1.0scala2.11.8hadoop-2.6.0-cdh5.7.0jdk1.8MongoDB3.6.4一原始数据及Hive表MongoDB数据格式{"_id":
A_ChunUnique
·
2018-06-03 23:15
Spark
[使用SparkSQL操作DataFrame]
在
Spark2
.0之后,引入了SparkSession新概念。SparkSession实质上是SQLContext和HiveContext的组合,所以在SQLContext
fazhi-bb
·
2018-06-01 20:51
scala
Spark
Spark进阶专栏
spark2
.2.0源码阅读---spark core包 --- storage
1、本文目标以及其它说明:本文主要是介绍storage包下面的类2、storage包下面的数据结构说明sealedabstractclassBlockId{表示的是数据块的标识。具体子类有rddblockid/shuffle/broadcast/task/stream/temlocal/temshuffle等等private[storage]classBlockInfo(vallevel:Stor
danlial
·
2018-05-30 17:42
spark源码
Spark2
Dataset之collect_set与collect_list
collect_set去除重复元素;collect_list不去除重复元素selectgender,concat_ws(',',collect_set(children)),concat_ws(',',collect_list(children))fromAffairsgroupbygender12345678910111213//创建视图data.createOrReplaceTempView(
DemonHunter211
·
2018-05-30 10:49
Hadoop
Spark-- docker + spark +hadoop进行搭建本机的伪集群
docker-spark:https://github.com/houshuai0816/docker-spark这个项目中当前使用的是
Spark2
.3.0和hadoop2.7和jdk8构建进行检出仓库内容
喜欢雨天的我
·
2018-05-29 16:30
Linux--运维
Spark:自定义Estimator机器学习类
本文使用scala语言,基于
spark2
+由于没有将类写到包org.apache.spark.ml.feature里,所以很多spark源码里的方法不可以直接调用。
xuejianbest
·
2018-05-29 14:39
大数据
大数据/spark
算法
spark
ml
特征处理
机器学习
Estimator
spark 2.3 导致driver OOM的一个SparkPlanGraphWrapper源码的bug
背景长话短说,我们部门一个同事找到我,说他的
spark2
.3structuredstreaming程序频繁报OOM,从来没有坚持过超过三四天的,叫帮看一下。
老白讲互联网
·
2018-05-29 09:00
spark大数据架构初学入门基础详解
离线计算SparkSQL交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)特点:i.一站式:一个技术堆栈解决大数据领域的计算问题ii.基于内存d)
Spark2
009
假的鱼
·
2018-05-28 17:44
java
大数据
数据挖掘
spark
Hadoop
reduce
Spark2
Dataset的FlatMapGroups,FlatMap使用
数据表结构SparkSessionspark=SparkSession.builder().appName("app-train").master("local[*]").getOrCreate();DatasettrainData=spark.read().json("src/main/resource/train_stopover.json").orderBy("duration_date",
小白鸽
·
2018-05-26 15:02
Spark
hive 2.3.3(HA) on spark 2.2.0 on yarn 2.6.5踩坑记
环境一览hive2.3.3配置HA
spark2
.2.0hadoop2.6.5zookeeper3.6.5hbase1.2.6碰到的所有坑1、jdbc连接zk时方法找不到异常org.apache.curator.utils.ZKPaths.fixForNamespace
烫烫烫口
·
2018-05-25 19:58
j2ee
bigdata
spark2
.2.0源码阅读---spark core包 --- shuffle
1、本文目标以及其它说明:本文主要是介绍shuffle包下面的类2、shuffle包下面的数据结构说明private[spark]classBaseShuffleHandle[K,V,C](shuffleId:Int,valnumMaps:Int,valdependency:ShuffleDependency[K,V,C])extendsShuffleHandle(shuffleId)用于捕获注册
danlial
·
2018-05-25 18:08
spark源码
SPARK2
.2 DATAFRAME的一些算子操作
SparkSession中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrameAPI。本文中的代码基于Spark-2.2的文档实现。一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hive表,以及通过JDBC连
DemonHunter211
·
2018-05-25 16:32
Hadoop
spark2
.2.0源码阅读---spark core包 --- partial/rdd
1、本文目标以及其它说明:本文主要是介绍partial、rdd包下面的类2、partial包下面的数据结构说明private[spark]traitApproximateEvaluator[U,R]{defmerge(outputId:Int,taskResult:U):UnitdefcurrentResult():R}这接口两个方法主要是用来逐渐地合并不同task跑后的结果。每一个task任务结
danlial
·
2018-05-25 14:48
spark源码
次简单的spark + notebook 解决方案(Linux&mac)
前期准备1、安装
spark2
、安装库findspark(e.g.pip3/pipinstallfindspark)第一步:设置SPARK_HOME在命令行中输入vim~/.bash_profile,加入如下字段
问号Max
·
2018-05-25 10:23
spark2
.2.0源码阅读---spark core包 --- network
1、本文目标以及其它说明:本文主要是介绍network包下面的类2、network包下面的数据结构说明traitBlockDataManager{//主要干3件事情1、通过blockid将块存储在本地2、通过blockid将块从本地取出来。3、释放1/2步获取的锁private[spark]abstractclassBlockTransferServiceextendsShuffleClientw
danlial
·
2018-05-24 16:56
spark源码
Hive:JDBC示例
下的test4.txt文件内容(每行数据之间用tab键隔开)如下所示:[hadoop@mastertest]$sudovimtest4.txt1dajiangtai2hadoop3hive4hbase5
spark2
努力的凹凸曼
·
2018-05-24 15:12
Hive
spark2
.2.0源码阅读---spark core包 --- launcher/memory包
1、本文目标以及其它说明:本文主要是介绍launcher/memory两个包的数据结构2、launcher包下面的数据结构说明private[spark]abstractclassLauncherBackend{用来和启动服务器进行对话的。会创建BackendConnection对象,立面又封装了Socket,Socket有能够获取输入输出流private[spark]classWorkerCom
danlial
·
2018-05-24 14:54
spark源码
Spark2
.x学习笔记:11、RDD依赖关系与stage划分 - CSDN博客
11、RDD依赖关系与stage划分Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。11.1窄依赖与宽依赖针对不同的转换函数,RDD之间的依赖关系分类窄依赖(narrowdependency)和宽依赖(widedependency,也称shuffledependency)。(1)窄依赖窄依赖是指1个父RDD分区对应1
·
2018-05-23 17:00
《Spark Structured Streaming》 官方文档解读
模型思想窗口操作应对数据延迟就绪补充:关于OutputMode模型思想从
Spark2
.0开始,SparkStreaming引入了一套新的流计算编程模型:StructuredStreaming,开发这套API
bluishglc
·
2018-05-23 17:16
大数据专题
启动spark-shell遇到的问题
系统:Windows10
Spark2
.1.1+Hadoop2.8.3+Scala2.11.8+jdk1.8.0_171最近在学习spark的东西,本来想按照官方文档学的,但是第一个例子就报错。
妈妈说名字要起的长看起来才够叼
·
2018-05-23 14:11
开发第一个Spark程序
三、开发环境 IDEA+Maven,scala2.11.8,CDH
Spark2
2.1.1 四、代码开发 (1)pom.xml,配置如
fengfengchen95
·
2018-05-23 00:00
Spark
Spark学习了解CORE、RDD等,以及基于Hadoop2.7.5的伪分布式集群搭建
Spark2
.3的环境部署
环境准备:JDK1.8Hadoop2.7.5(Hadoop伪分布式搭建博客)总结:Spark概述为什么用Spark?spark的几种运行模式spark的数据存储和读取Spark的生态系统(spark属于BDAS生态系统)Spark框架的组成部分SPARKCORESpark生态圈的核心SparkSQL解释RDD解释DAGSpark与MR比较,Spark具有如下优势:Spark运行时的步骤MAPRED
OnTheRoad_Kang
·
2018-05-20 21:06
Big
Data
Hadoop
Scala
Spark
CDH5.12.0 如何升级到
Spark2
.0 版本
CDH5.12.0如何升级到
Spark2
.0版本标签(空格分隔):大数据平台构建一:CDH5.12.0的
spark2
.0的概述:二:如何在CDH5.12.0上面升级
spark2
.0三:在cdh5.12.0CM
flyfish225
·
2018-05-18 19:02
CDH
spark
CDH
大数据技术
spark2
.2.0源码阅读---spark core包 --- rpc模块
1、本文目标以及其它说明:本文或者本次系列主要是弄清楚spark.2.2.0版本中,sparkcore包下rpc通信情况。从源代码上面看到,底层通信是用的netty,因为本系列以及本文是专项学习spark,故netty只会涉及到不会去讲解。在读源码前考虑到spark的体系结构有sparkcore/sparksql/sparkstreaming/sparkmachinelearning/sparkg
danlial
·
2018-05-18 15:28
spark源码
CSDN日报180517——《15类一面试就知道不靠谱的公司》
点击阅读全文作者已开通快问,可随时向作者提问~大数据|
Spark2
.1.0之代码结构及载入Ecplise方法作者:beliefe
CSDN官方博客
·
2018-05-17 19:19
博文推荐汇总
CSDN日报
Spark加载PMML进行预测
背景:Spark由2.0.0升级至2.2.1,导致之前同事写的Spark加载PMML的工具jar在调度上跑作业出错期望:将
Spark2
.0.0版加载PMML工具jar升级到支持
Spark2
.2.1解决:
AleZhang
·
2018-05-15 10:35
win10 spark+scala+eclipse+sbt 安装配置
转载请务必注明原创地址为:http://dongkelun.com/2018/03/...1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装
spark2
.1下载下载地址:http:/
董可伦
·
2018-05-10 00:00
eclipse
windows
spark
scala
sbt
Spark2
.0基于广播变量broadcast实现实时数据按天统计
packagecom.gm.hive.SparkHive;importjava.text.SimpleDateFormat;importjava.util.Arrays;importjava.util.Collection;importjava.util.Date;importjava.util.HashMap;importjava.util.List;importjava.util.Map;im
gmHappy
·
2018-05-08 16:07
大数据
分布式框架
Spark
大数据
win10 spark+scala+eclipse+sbt 安装配置
我的原创地址:https://dongkelun.com/2018/03/15/winSparkConf/1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装
spark2
.1下载下载地址
董可伦
·
2018-05-07 12:24
spark
Spark
Spark2
.0 Java实现将Hive运算结果保存到数据库
packagecom.gm.hive.SparkHive;importorg.apache.spark.sql.Dataset;importorg.apache.spark.sql.Row;importorg.apache.spark.sql.SaveMode;importorg.apache.spark.sql.SparkSession;importjava.util.Properties;/*
gmHappy
·
2018-05-07 11:30
Hive
Spark
Spark2
.0集成Hive操作的相关配置与注意事项
前言已完成安装ApacheHive,具体安装步骤请参照,Linux基于Hadoop2.8.0集群安装配置Hive2.1.1及基础操作补充说明Hive中metastore(元数据存储)的三种方式:内嵌Derby方式Local方式Remote方式[一]、内嵌Derby方式这个是Hive默认的启动模式,一般用于单元测试,这种存储方式有一个缺点:在同一时间只能有一个进程连接使用数据库。配置文件hive-s
gmHappy
·
2018-05-05 13:48
大数据
分布式框架
Hive
Spark
大数据
上一页
31
32
33
34
35
36
37
38
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他