spark2 第35页

14.3 Spark-SQL基于PostgreSQL数据分析编程实例

创建Gradle项目，引入依赖创建连接读数据库写数据库完整源码Spark2PostgreSQL.java完整项目源码14.3.1引入依赖compilegrou

王小雷-多面手·2018-07-15 22:35

Spark SQL之Catalog API介绍和使用

《Spark2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark2.0带来的新技术等。Spark2.0是ApacheSpark的下一个主要版本。

Mr_249·2018-07-14 16:57

Win10--Spark2.3 + hadoop3.1 本地环境搭建

中间有部分坑(此篇为64位的环境，如果是32位则无需更换bin内容)准备工作Hadoop所需要更换的bin目录下的文件Hadoop3.1进行下载Spark2.3.1下载包JDK1.8进行配置将下载好的Hadoop

喜欢雨天的我·2018-07-11 23:25

1G内存云服务器(CentOS6.9)也能跑起Spark2

环境CentOSrelease6.9(Final)java1.8.0-openjdk.x86_64scala2.12.6spark2.3.11.准备服务器2.创建swapmemory3.持久化swapmemory4

多空师·2018-07-11 13:17

Spark SQL 实现 group_concat

SparkSQL实现group_concat环境：Spark2.0.1以下貌似需要至少Spark1.6支持，未实测（网友yanshichuan1反馈spark1.5.1同样支持，感谢）表结构及内容：+-

Islotus·2018-07-11 02:47

Windows10/Centos7安装Spark2.3.1

环境Windows10Centos7.4java1.8.0-openjdk.x86_64scala2.12.6spark2.3.1Windows10安装Spark2.3.11.安装Java1.82.安装

多空师·2018-07-10 15:22

Spark2.X 使用累加器AccumulatorV2实现字符串拼接下的字母统计

Spark2.X中的累加器和Spark1.X中有着很大不同，下面将实现的功能是：将一个集合，集合中含有字母"A","B","A","D","E","D","G","H","I","A","B","I",

Winner941112·2018-07-10 15:32

CentOS7.5搭建spark2.3.1集群

安装前提Java8安装成功zookeeper安装参考：CentOS7.5搭建Zookeeper3.4.12集群hadoop安装参考：CentOS7.5搭建Hadoop2.7.6集群Scala安装成功注意：从Spark2.0

邓天翔·2018-07-09 13:10

Spark 2.2 内存占用计算公式

下面参数均已spark2.2为准，不同版本会有些差异一、Spark内存管理（1）spark内

微步229·2018-07-06 13:53

Kafka+Spark streaming读取数据存hdfs

Sparkstreaming+Kafka读取数据存hdfs一、环境准备：spark2.3.0下载kafka1.1.0下载二、Kafka代码1、maven依赖的包以及编译环境（pom.xml）org.apache.kafkakafka

chak_16·2018-07-05 08:24

Spark job提交过程

本文基于spark2.111.前言1.1基本概念RDD关于RDD已经有很多文章了，可以参考一下理解Spark的核心RDD依赖依赖分为窄依赖和宽依赖，下图描述了两种依赖(图片出自spark窄依赖和宽依赖)

cjlion·2018-06-30 17:39

spark2.2.0集群配置

1、集群模式简介（1）Local多用于本地测试，如在eclipse，idea中写程序测试等。（2）StandaloneStandalone是Spark自带的一个资源调度框架，它支持完全分布式。（3）YarnHadoop生态圈里面的一个资源调度框架，Spark是可以基于Yarn来计算的，最流行。（4）Mesos一种资源调度框架，支持docker，前景最好2、资源分配这里我用5台机器，1个Master

LiryZlian·2018-06-23 01:50

windows10下spark2.3.0本地开发环境搭建-亲测

1windows10下spark2.3.0本地开发环境搭建文档下载地址：https://download.csdn.net/download/hambition/10492232由于博文上传图片比较麻烦

hambition·2018-06-22 10:51

HBase实战（6）：使用Spark 2.2.1 直接操作HBASE 1.2.0数据库

HBase实战（6）：使用Spark2.2.1直接操作HBASE1.2.0数据库之前对于Hbase系统已实验成功的内容：Hbase分布式集群搭建：点击打开链接直接使用pythonAPI连接Hbase操作数据

段智华·2018-06-15 15:37

Spark DataFrame写入HBase的常用方式

本文将会介绍三种写入的方式，其中一种还在期待中，暂且官网即可...代码在spark2

lin502·2018-06-15 09:00

大数据面试题集锦(四)

JobTracker失效会多事集群中所有的运行作业，用户需手动重新提交和恢复工作流3)对不同编程模型的支持HadoopV1以MapReduce为中心的设计虽然能支持广泛的用例，但是并不适合所有大型计算,如storm，spark2

Zzreal·2018-06-14 16:51

Hadoop(十)spark环境搭建

本篇使用Spark2.3.0ApacheSpark是一个快速且通用的集群计算系统。它提供Java，Scala，Python和R中的高级API以及支持通用执行图的优化引擎。

chsmy2018·2018-06-14 14:15

大数据Structured Streaming教程1：基本概念及使用

在Spark2.x中，新开放了一个基于DataFrame的无下限的流式处理组件——StructuredStreaming，它也是本系列的主角，废话不多说，进入正题吧！

哈哈哈_53b3·2018-06-07 01:56

小白spark学习感悟 AND spark两大版本的比较！！！

个月左右的因为还有平时上课所以学的比较零散，有不足的地方希望大家指出来）对于刚刚入spark的小白（metoo）来说我觉得你们很有必要读读这篇介绍，你可能看不懂，你也有可能觉得没什么实在的内容，但是我劝你好好看看，看完之后对你的学习spark2.0

忘川风华录·2018-06-04 20:09

Spark读取mongoDB数据写入Hive普通表和分区表

版本：spark2.2.0hive1.1.0scala2.11.8hadoop-2.6.0-cdh5.7.0jdk1.8MongoDB3.6.4一原始数据及Hive表MongoDB数据格式{"_id":

A_ChunUnique·2018-06-03 23:15

[使用SparkSQL操作DataFrame]

在Spark2.0之后，引入了SparkSession新概念。SparkSession实质上是SQLContext和HiveContext的组合，所以在SQLContext

fazhi-bb·2018-06-01 20:51

spark2.2.0源码阅读---spark core包 --- storage

1、本文目标以及其它说明：本文主要是介绍storage包下面的类2、storage包下面的数据结构说明sealedabstractclassBlockId{表示的是数据块的标识。具体子类有rddblockid/shuffle/broadcast/task/stream/temlocal/temshuffle等等private[storage]classBlockInfo(vallevel:Stor

danlial·2018-05-30 17:42

Spark2 Dataset之collect_set与collect_list

collect_set去除重复元素；collect_list不去除重复元素selectgender,concat_ws(',',collect_set(children)),concat_ws(',',collect_list(children))fromAffairsgroupbygender12345678910111213//创建视图data.createOrReplaceTempView(

DemonHunter211·2018-05-30 10:49

Spark-- docker + spark +hadoop进行搭建本机的伪集群

docker-spark：https://github.com/houshuai0816/docker-spark这个项目中当前使用的是Spark2.3.0和hadoop2.7和jdk8构建进行检出仓库内容

喜欢雨天的我·2018-05-29 16:30

Spark：自定义Estimator机器学习类

本文使用scala语言，基于spark2+由于没有将类写到包org.apache.spark.ml.feature里，所以很多spark源码里的方法不可以直接调用。

xuejianbest·2018-05-29 14:39

spark 2.3 导致driver OOM的一个SparkPlanGraphWrapper源码的bug

背景长话短说，我们部门一个同事找到我，说他的spark2.3structuredstreaming程序频繁报OOM，从来没有坚持过超过三四天的，叫帮看一下。

老白讲互联网·2018-05-29 09:00

spark大数据架构初学入门基础详解

离线计算SparkSQL交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)特点：i.一站式：一个技术堆栈解决大数据领域的计算问题ii.基于内存d)Spark2009

假的鱼·2018-05-28 17:44

Spark2 Dataset的FlatMapGroups,FlatMap使用

数据表结构SparkSessionspark=SparkSession.builder().appName("app-train").master("local[*]").getOrCreate();DatasettrainData=spark.read().json("src/main/resource/train_stopover.json").orderBy("duration_date",

小白鸽·2018-05-26 15:02

hive 2.3.3(HA) on spark 2.2.0 on yarn 2.6.5踩坑记

环境一览hive2.3.3配置HAspark2.2.0hadoop2.6.5zookeeper3.6.5hbase1.2.6碰到的所有坑1、jdbc连接zk时方法找不到异常org.apache.curator.utils.ZKPaths.fixForNamespace

烫烫烫口·2018-05-25 19:58

spark2.2.0源码阅读---spark core包 --- shuffle

1、本文目标以及其它说明：本文主要是介绍shuffle包下面的类2、shuffle包下面的数据结构说明private[spark]classBaseShuffleHandle[K,V,C](shuffleId:Int,valnumMaps:Int,valdependency:ShuffleDependency[K,V,C])extendsShuffleHandle(shuffleId)用于捕获注册

danlial·2018-05-25 18:08

SPARK2.2 DATAFRAME的一些算子操作

SparkSession中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrameAPI。本文中的代码基于Spark-2.2的文档实现。一、DataFrame对象的生成Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hive表，以及通过JDBC连

DemonHunter211·2018-05-25 16:32

spark2.2.0源码阅读---spark core包 --- partial/rdd

1、本文目标以及其它说明：本文主要是介绍partial、rdd包下面的类2、partial包下面的数据结构说明private[spark]traitApproximateEvaluator[U,R]{defmerge(outputId:Int,taskResult:U):UnitdefcurrentResult():R}这接口两个方法主要是用来逐渐地合并不同task跑后的结果。每一个task任务结

danlial·2018-05-25 14:48

次简单的spark + notebook 解决方案(Linux&mac)

前期准备1、安装spark2、安装库findspark(e.g.pip3/pipinstallfindspark)第一步：设置SPARK_HOME在命令行中输入vim~/.bash_profile，加入如下字段

问号Max·2018-05-25 10:23

spark2.2.0源码阅读---spark core包 --- network

1、本文目标以及其它说明：本文主要是介绍network包下面的类2、network包下面的数据结构说明traitBlockDataManager{//主要干3件事情1、通过blockid将块存储在本地2、通过blockid将块从本地取出来。3、释放1/2步获取的锁private[spark]abstractclassBlockTransferServiceextendsShuffleClientw

danlial·2018-05-24 16:56

Hive：JDBC示例

下的test4.txt文件内容(每行数据之间用tab键隔开)如下所示:[hadoop@mastertest]$sudovimtest4.txt1dajiangtai2hadoop3hive4hbase5spark2

努力的凹凸曼·2018-05-24 15:12

spark2.2.0源码阅读---spark core包 --- launcher/memory包

1、本文目标以及其它说明：本文主要是介绍launcher/memory两个包的数据结构2、launcher包下面的数据结构说明private[spark]abstractclassLauncherBackend{用来和启动服务器进行对话的。会创建BackendConnection对象，立面又封装了Socket，Socket有能够获取输入输出流private[spark]classWorkerCom

danlial·2018-05-24 14:54

Spark2.x学习笔记：11、RDD依赖关系与stage划分 - CSDN博客

11、RDD依赖关系与stage划分Spark中RDD的高效与DAG图有着莫大的关系，在DAG调度中需要对计算过程划分stage，而划分依据就是RDD之间的依赖关系。11.1窄依赖与宽依赖针对不同的转换函数，RDD之间的依赖关系分类窄依赖（narrowdependency）和宽依赖（widedependency,也称shuffledependency）。（1）窄依赖窄依赖是指1个父RDD分区对应1

·2018-05-23 17:00

《Spark Structured Streaming》官方文档解读

模型思想窗口操作应对数据延迟就绪补充：关于OutputMode模型思想从Spark2.0开始，SparkStreaming引入了一套新的流计算编程模型：StructuredStreaming，开发这套API

bluishglc·2018-05-23 17:16

启动spark-shell遇到的问题

系统：Windows10Spark2.1.1+Hadoop2.8.3+Scala2.11.8+jdk1.8.0_171最近在学习spark的东西，本来想按照官方文档学的，但是第一个例子就报错。

妈妈说名字要起的长看起来才够叼·2018-05-23 14:11

开发第一个Spark程序

三、开发环境 IDEA+Maven,scala2.11.8,CDH Spark2 2.1.1 四、代码开发（1）pom.xml，配置如

fengfengchen95·2018-05-23 00:00

Spark学习了解CORE、RDD等，以及基于Hadoop2.7.5的伪分布式集群搭建Spark2.3的环境部署

环境准备：JDK1.8Hadoop2.7.5(Hadoop伪分布式搭建博客)总结：Spark概述为什么用Spark？spark的几种运行模式spark的数据存储和读取Spark的生态系统（spark属于BDAS生态系统）Spark框架的组成部分SPARKCORESpark生态圈的核心SparkSQL解释RDD解释DAGSpark与MR比较，Spark具有如下优势：Spark运行时的步骤MAPRED

OnTheRoad_Kang·2018-05-20 21:06

CDH5.12.0 如何升级到Spark2.0 版本

CDH5.12.0如何升级到Spark2.0版本标签（空格分隔）：大数据平台构建一：CDH5.12.0的spark2.0的概述：二：如何在CDH5.12.0上面升级spark2.0三：在cdh5.12.0CM

flyfish225·2018-05-18 19:02

spark2.2.0源码阅读---spark core包 --- rpc模块

1、本文目标以及其它说明：本文或者本次系列主要是弄清楚spark.2.2.0版本中，sparkcore包下rpc通信情况。从源代码上面看到，底层通信是用的netty，因为本系列以及本文是专项学习spark，故netty只会涉及到不会去讲解。在读源码前考虑到spark的体系结构有sparkcore/sparksql/sparkstreaming/sparkmachinelearning/sparkg

danlial·2018-05-18 15:28

CSDN日报180517——《15类一面试就知道不靠谱的公司》

点击阅读全文作者已开通快问，可随时向作者提问~大数据|Spark2.1.0之代码结构及载入Ecplise方法作者：beliefe

CSDN官方博客·2018-05-17 19:19

Spark加载PMML进行预测

背景：Spark由2.0.0升级至2.2.1，导致之前同事写的Spark加载PMML的工具jar在调度上跑作业出错期望：将Spark2.0.0版加载PMML工具jar升级到支持Spark2.2.1解决：

AleZhang·2018-05-15 10:35

win10 spark+scala+eclipse+sbt 安装配置

转载请务必注明原创地址为：http://dongkelun.com/2018/03/...1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装spark2.1下载下载地址：http:/

董可伦·2018-05-10 00:00

Spark2.0基于广播变量broadcast实现实时数据按天统计

packagecom.gm.hive.SparkHive;importjava.text.SimpleDateFormat;importjava.util.Arrays;importjava.util.Collection;importjava.util.Date;importjava.util.HashMap;importjava.util.List;importjava.util.Map;im

gmHappy·2018-05-08 16:07

win10 spark+scala+eclipse+sbt 安装配置

我的原创地址：https://dongkelun.com/2018/03/15/winSparkConf/1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装spark2.1下载下载地址

董可伦·2018-05-07 12:24

Spark2.0 Java实现将Hive运算结果保存到数据库

packagecom.gm.hive.SparkHive;importorg.apache.spark.sql.Dataset;importorg.apache.spark.sql.Row;importorg.apache.spark.sql.SaveMode;importorg.apache.spark.sql.SparkSession;importjava.util.Properties;/*

gmHappy·2018-05-07 11:30

Spark2.0集成Hive操作的相关配置与注意事项

前言已完成安装ApacheHive，具体安装步骤请参照，Linux基于Hadoop2.8.0集群安装配置Hive2.1.1及基础操作补充说明Hive中metastore（元数据存储）的三种方式：内嵌Derby方式Local方式Remote方式[一]、内嵌Derby方式这个是Hive默认的启动模式，一般用于单元测试，这种存储方式有一个缺点：在同一时间只能有一个进程连接使用数据库。配置文件hive-s

gmHappy·2018-05-05 13:48

推荐频道

spark2

14.3 Spark-SQL基于PostgreSQL数据分析编程实例

Spark SQL之Catalog API介绍和使用

Win10--Spark2.3 + hadoop3.1 本地环境搭建

1G内存云服务器(CentOS6.9)也能跑起Spark2

Spark SQL 实现 group_concat

Windows10/Centos7安装Spark2.3.1

Spark2.X 使用累加器AccumulatorV2实现字符串拼接下的字母统计

CentOS7.5搭建spark2.3.1集群

Spark 2.2 内存占用计算公式

Kafka+Spark streaming读取数据存hdfs

Spark job提交过程

spark2.2.0集群配置

windows10下spark2.3.0本地开发环境搭建-亲测

HBase实战（6）：使用Spark 2.2.1 直接操作HBASE 1.2.0数据库

Spark DataFrame写入HBase的常用方式

大数据面试题集锦(四)

Hadoop(十)spark环境搭建

大数据Structured Streaming教程1：基本概念及使用

小白spark学习感悟 AND spark两大版本的比较！！！

Spark读取mongoDB数据写入Hive普通表和分区表

[使用SparkSQL操作DataFrame]

spark2.2.0源码阅读---spark core包 --- storage

Spark2 Dataset之collect_set与collect_list

Spark-- docker + spark +hadoop进行搭建本机的伪集群

Spark：自定义Estimator机器学习类

spark 2.3 导致driver OOM的一个SparkPlanGraphWrapper源码的bug

spark大数据架构初学入门基础详解

Spark2 Dataset的FlatMapGroups,FlatMap使用

hive 2.3.3(HA) on spark 2.2.0 on yarn 2.6.5踩坑记

spark2.2.0源码阅读---spark core包 --- shuffle

SPARK2.2 DATAFRAME的一些算子操作

spark2.2.0源码阅读---spark core包 --- partial/rdd

次简单的spark + notebook 解决方案(Linux&mac)

spark2.2.0源码阅读---spark core包 --- network

Hive：JDBC示例

spark2.2.0源码阅读---spark core包 --- launcher/memory包

Spark2.x学习笔记：11、RDD依赖关系与stage划分 - CSDN博客

《Spark Structured Streaming》 官方文档解读

启动spark-shell遇到的问题

开发第一个Spark程序

Spark学习了解CORE、RDD等，以及基于Hadoop2.7.5的伪分布式集群搭建Spark2.3的环境部署

CDH5.12.0 如何升级到Spark2.0 版本

spark2.2.0源码阅读---spark core包 --- rpc模块

CSDN日报180517——《15类一面试就知道不靠谱的公司》

Spark加载PMML进行预测

win10 spark+scala+eclipse+sbt 安装配置

Spark2.0基于广播变量broadcast实现实时数据按天统计

win10 spark+scala+eclipse+sbt 安装配置

Spark2.0 Java实现将Hive运算结果保存到数据库

Spark2.0集成Hive操作的相关配置与注意事项

《Spark Structured Streaming》官方文档解读