spark2 第32页

184、Spark 2.0之Spark 2.x与1.x对比以及分析

Spark2.x与1.x对比Spark1.x：SparkCore（RDD）、SparkSQL（SQL+Dataframe+Dataset）、SparkStreaming、SparkMLlib、SparkGraphxSpark2

ZFH__ZJ·2019-02-11 13:00

第一个spark应用开发详解(java版)

WordCount是大数据学习最好的入门demo，今天就一起开发java版本的WordCount，然后提交到Spark2.3.2环境运行；版本信息操作系统：CentOS7；JDK：1.8.0_191；Spark

程序员欣宸·2019-02-08 21:06

无痛搭建Spark2.1+Scala2.11.8+jdk1.8+IntelliJ的环境

前言最近又需要在OSX的系统下重新安装spark,intelliJIdea,scala的环境，讲道理不难，阅读者可以按照教程享受个无痛搭建环境的体验。IntelliJJDK下载安装JDK下载网站https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html我选的是JDK1.8的dmg.Scal

coolljp21·2019-02-04 01:48

CarbonData SDK集成OSS - 测试步骤

java-classpath/home/carbondata/carbondata/assembly/target/scala-2.11/apache-carbondata-1.6.0-SNAPSHOT-bin-spark2.2.1

文竹小二·2019-02-03 19:12

Spark2.4.0源码编译支持hadoop-2.6.0-cdh5.7.0

软件包JDK1.8.0_45apache-maven-3.6.0Scala2.11.8hadoop-2.6.0-cdh5.7.0注意设置内存*****exportMAVEN_OPTS="-Xmx2g-XX:ReservedCodeCacheSize=512m"安装git,源码编译过程中会需要用到git[[email protected]]$s

Nekou_·2019-01-30 00:41

ApacheCN 学习资源汇总 2019.1

合作or侵权，请联系【fonttian】|请抄送一份到Java基础Java编程思想JavaWeb和大数据Spark2

飞龙·2019-01-29 00:00

在CentOS6.9搭建Spark2.4.0集群

一、环境操作系统：CentOS6.9软件版本：Spark2.4.0集群架构：master：10.200.4.117（oracle02）worker1：10.200.4.116（oracle03）worker2

andyguan01_2·2019-01-24 17:39

Spark MLlib 环境搭建超详细教程

2、环境下载2.1Spark下载http://spark.apache.org/downloads.htmlspark2.2hadooponwindos下载https://github.com/sardet

徐卜灵·2019-01-24 09:16

Spark SQL中列转行（UNPIVOT）的两种方法

本文链接：https://www.cnblogs.com/hhelibeb/p/10310369.html测试数据准备本文的环境是Windows10,Spark2.4，开发语言是Python。

氢氦·2019-01-23 18:00

Spark 2.2.0 在创建过大的DataFrame时候出现的错误

我当时很奇怪，就立即kill掉了这个应用，并且去看了一下yarn上面对应的日志，发现了报了这样的错：然后去网上疯狂百度，发现这是spark2.2.0版本的一个bug，当创建的DataFrame的大小超过一定的范

big_data1·2019-01-23 17:27

'HiveContext' object has no attribute 'jsonFile' && 'DataFrame' object has no attribute 'map'报错解决

测试环境：Ubuntu16.04；Spark2.4错误1描述input=hiveCtx.jsonFile(inputFile)--------------------------------------

Solarzhou·2019-01-23 15:59

Python+Spark 2.0+Hadoop机器学习与大数据实战目录

DataFrame、SparkSQL291.4使用Python开发Spark机器学习与大数据应用301.5PythonSpark机器学习311.6SparkMLPipeline机器学习流程介绍321.7Spark2.0

belldeep·2019-01-20 10:09

spark2.3.3消费kafka中的数据，与hive中的表做关联并写入elasticsearch6.5.3（spark structed streaming）

背景：本地物理机机房新建了一个大数据集群（cdh,spark2.3.3+hive3.0)旧集群环境：spark2.1.0+hive2.4.2新旧集群为内网访问。

Me丶kang·2019-01-20 02:41

Spark2.4+Hadoop2.7+Zookeeper3.4+HBase2.1集群部署

一、操作系统及软件操作系统：CentOS7.2应用软件：软件可以到官网去下，也可以使用本站提供的地址Spark2.4.0：http://www.gaoq.vip/download/spark-2.4.0

itbs·2019-01-18 13:10

Spark2.2——RpcEnv（一）

Spark1.6推出的RpcEnv、RpcEndPoint、RpcEndpointRef为核心的新型架构下的RPC通信方式，在底层封装了Akka和Netty，为未来扩充更多的通信系统提供了可能。RpcEnv是一个更宏观的Env，是Spark集群Rpc通信的基础服务环境,因此在集群启动时候所有的节点(无论Master还是Worker)都会创建一个RpcEnv，然后将该节点注册到RpcEnv中。R

Jorocco·2019-01-16 11:22

Spark2.2源码剖析——SecurityManager

SecurityManager主要对帐号、权限以及身份认证进行设置和管理。如果Spark的部署模式为YARN，则需要生成secretkey（密钥）并存储HadoopUGI。而在其他模式下，则需要设置环境变量_SPARK_AUTH_SECRET（优先级更高）或者spark.authenticate.secret属性指定secretkey（密钥）。最后SecurityManager中设置了默认的口

Jorocco·2019-01-15 13:13

Spark2.2源码剖析——SparkContext

Spark应用程序的提交离不开SparkDriver，后者是驱动应用程序在Spark集群上执行的原动力。了解SparkDriver的初始化，有助于理解Spark应用程序与SparkDriver的关系。而SparkDriver的初始化始终围绕着SparkContext的初始化。SparkContext可以算得上是Spark应用程序的发动机引擎，轿车要想跑起来，发动机首先要启动。SparkCo

Jorocco·2019-01-14 13:29

Structured Streaming入门实例

StructuredStreaming入门实例StructuredStreaming是Spark2.4版本推出的新的实时流处理计算。相比SparkStreaming具有更低的延迟。

张行之·2019-01-10 16:56

pyspark-配置spark的Python环境

1.首先你的服务器上spark环境已经配置完成，本文主要针对spark配置pyspark2.由于python的库众多为了更好的管理与集成，这里使用anconda3来集成Python3（我的centOS7

三石弟弟·2019-01-10 11:58

YARN、Spark、Hive使用kerberos

我的环境：三台服务器，分别命名为zelda1、zelda2、zelda3ubuntu14.04hadoop2.7.2spark2.0/1.6.1YARN认证目的是将YARN接入到kerberos集群里，

mnasd·2019-01-08 23:46

spark2连接关系型数据库postgresql

通过spark-shell连接关系型数据库postgresql1.拷贝postgresql的jdbc驱动首先需要将postgresql的jdbc驱动拷贝至spark的jars文件夹下2.启动spark-shell交互命令执行如下命令，启动spark-shell交互命令./spark-shell或者通过显示指定jdbc驱动，启动spark-shell./spark-shell--driver-cla

reco171·2019-01-06 13:00

大数据环境搭建步骤详解（Hadoop，Hive，Zookeeper，Kafka，Flume，Hbase，Spark等安装与配置）

大数据环境安装和配置（Hadoop2.7.7，Hive2.3.4，Zookeeper3.4.10，Kafka2.1.0，Flume1.8.0，Hbase2.1.1，Spark2.4.0等）系统说明搭建步骤详述一

原来浙小商啊·2019-01-02 13:12

spark2以后对limit的优化和存在问题

问题假如我们在spark-shell上执行：spark.sql("select*fromtablelimit1000").collect()spark会开多少多个任务去跑这个任务呢？实验OK，我们来做一个实验吧！job通过实验结果我们可以看到就开了一个Task执行，but,是这样的嘛？其实开多少Task还真不是固定的，这个取决于我们take的条数和这张表底层每个分区数据量的大小，怎么说呢，我们举个

frb502·2018-12-31 21:35

Spark 内核设计的艺术架构与实现第二章Spark模型设计

1Spark编程模型用户使用SparkContext提供的API编写Driver段程序（常用的textFilesequenceFilerunjob等）Spark2.4Spark基本架构从集群部署的角度来看

chixushuchu·2018-12-30 17:04

win10 安装单机版 pyspark

1需要安装spark和hadoop（python3.6需要spark2.1以上版本）两者作相同处理：解压之后，还需要完成SPARK_HOME和bin环境变量相关配置；HADOOP_HOME和bin环境变量的配置

蕾姆233·2018-12-29 16:40

Spark2.0 StructuredStreaming

流式计算的现状大多数的流式计算引擎（比如storm、sparkstreaming等）都仅仅关注流数据的计算方面：比如使用一个map函数对一个流中每条数据都进行转换，或者是用reduce函数对一批数据进行聚合。但是，实际上在大部分的流式计算应用中，远远不只是需要一个流式计算引擎那么简单。相反的，流式计算仅仅在流式应用中占据一个部分而已。因此现在出现了一个新的名词，叫做持续计算/应用，continuo

chixushuchu·2018-12-29 14:29

搜狐实验室新闻点击量项目

新闻项目大数据实时可视化分析项目项目托管到码云第一章技术点Hadoop2.x、Zookeeper、Flume、Hive、Hbase、Kafka、Spark2.x、SparkStreaming、MySQL

chixushuchu·2018-12-29 10:37

MLSQL平台执行python代码示例

4、兼容Spark2.2.x/2.3.x/2.4.x。MLSQL项目地址：https://github.

天降攻城狮·2018-12-28 11:48

使用Spark ML进行数据分析

Spark版本：2.4.0语言：Scala任务：分类这里对数据的处理步骤如下：载入数据归一化PCA降维划分训练/测试集线性SVM分类验证精度输出cvs格式的结果前言从Spark2.0开始，Spark机器学习

涛O_O·2018-12-27 22:29

Spark2.X-自定义累加器AccumulatorV2

累加器作为spark的一个共享变量的实现，在用于累加计数计算计算指标的时候可以有效的减少网络的消耗spark中有一个节点的角色是Master，根据配置文件进行分配，Master节点的职责主要是参与worker节点之间的资源调度。参与spark作业计算的是worker节点上的excutor，在最开始会将原始RDD复制到excutor的各个task进程上以供计算。这时候如果task过多，或者原始RDD

hlp4207·2018-12-27 16:03

Spark Streaming & Structured Streaming分析

Spark2.x中也推出了全新的基于Dataframe/Dataset的StructuredStreaming流式计算

chixushuchu·2018-12-27 10:48

Spark RDD的默认分区数：（spark 2.1.0）

本文基于Spark2.1.0版本新手首先要明白几个配置：spark.default.parallelism：（默认的并发数）如果配置文件spark-default.conf中没有显示的配置，则按照如下规则取值

weixin_34319999·2018-12-27 00:00

基于Spark2.2的交互式用户活跃度分析指定范围访问次数 top10

spark2.0主要就是DataSet的成熟api，提供比rdd原生api更高level的抽象api，更加方便我们的数据开发工作。

chixushuchu·2018-12-26 18:00

hadoop3.1.1+scala2.12.8+spark2.4.0分布式集群搭建

gzspark-2.4.0-bin-hadoop2.7.gz1.2集群规划IPHostname安装内容192.168.56.11spark1Hadoop\scala\spark192.168.56.12Spark2Hadoop

古佛青灯·2018-12-19 16:12

Spark2.X+Python实战课程

天台没有爱情·2018-12-18 14:00

Spark2.X+Python实战课程

天台没有爱情·2018-12-18 14:00

Spark 2.4.0编程指南--Spark SQL UDF和UDAF

原文链接：https://my.oschina.net/u/723009/blog/2989933Spark2.4.0编程指南--SparkSQLUDF和UDAF更多资源github:https://github.com

chongqueluo2709·2018-12-18 14:00

Spark2.3.2源码解析： 4.2.Yarn cluster 模式 SparkSubmit源码分析（二）ApplicationMaster

准备工作：启动脚本--namespark-test--classWordCount--masteryarn--deploy-modecluster/A/spark-test/spark-test.jar/tmp/zl/data/data.txt执行jar包spark-test.jar代码核心：valconf=newSparkConf()conf.setAppName("WordCount")val

张伯毅·2018-12-18 14:12

Spark 2.4.0编程指南--spark dataSet action

原文链接：https://my.oschina.net/u/723009/blog/2989913Spark2.4.0编程指南--sparkdataSetaction更多资源github:https:/

chongqueluo2709·2018-12-18 14:00

IDEA 中开发第一个Spark 程序

1.创建一个Maven项目2.添加SCALA依赖库****注意scala的版本相对于spark2.4,scala的版本必须是2.11.x修改POM.xml文件加入hadoop-client和spark-core

颓废的大饼·2018-12-16 17:07

大数据学习第二天

2.部署spark和hadoopHadoop2.9.2+Spark2.4.0完全分布式集群搭建过程主要参考了这一篇https://blog.csdn.net/guoyu931206/article/details

glory8901·2018-12-15 13:08

Spark 2.4 入门之基于Hadoop 2.7.3环境搭建

准备环境3台LinuxVMServerRHL6.8*3Hadoop2.7.3集群环境搭建下载Spark2.4版本网址：https://spark.apache.org/downloads.html镜像地址

颓废的大饼·2018-12-12 23:42

spark

笔者的环境为：centos7.该文章主要是讲述了在centos7上搭建spark2.0的具体操作和spark的简单使用，希望可以给刚刚接触spark的朋友一些帮助。

hehyyoulan·2018-12-12 16:25

使用Spark Streaming处理Kafka数据流

1系统软件本文实验基于的各软件版本如下：Java1.8.0_191Scala2.11hadoop-3.0.3zookeeper-3.4.10Spark2.3.2kafka_2.12-2.0.1kafka-manager

安中古天乐·2018-12-08 18:47

Spark2.0 RDD DataFrame DataSet 如何选择？

RDD和Dataset最大的不同在于，RDD是low-level的API和内核，Dataset实际上基于底层的引擎构建的high-level的计算引擎。1、RDD使用场景1、如果我们需要对数据集进行非常底层的掌控和操作，比如说，手动管理RDD的分区，或者根据RDD的运行逻辑来结合各种参数和编程来进行较为底层的调优。因为实际上Dataframe/Dataset底层会基于whole-stagecode

chixushuchu·2018-12-07 15:19

Hadoop2.8.5+Spark2.4.0完全分布式集群搭建过程

Hadoop2.8.5+Spark2.4.0完全分布式集群搭建过程1.选取三台服务器（CentOS系统64位）2.修改hosts文件3.ssh无密码验证配置4.安装基础环境（JAVA和SCALA环境）5

从小白开始的程序媛之路·2018-12-04 18:14

升级 spark 2.3问题：Spark Streaming日志级别设置，最小堆内存设置

一、内存问题1、旧集群spark1.6.1jdk1.7或1.8jvm堆内存分配，直接分配的为driver申请的内存（最大、最小堆内存相等）2、新集群spark2.3.jdk1.8jvm堆内存分配，刚开始分比较小的内存

T-Janey·2018-12-03 17:52

spark2.1.0配置windows本地基于java语言的Eclipse开发环境

前面配置过在windows本地通过Eclipse开发hadoop程序然后打成jar包在Linux集群中运行的经历，因此一方面是基于同样的需求，另一方面是因为我是spark小白，想通过这种方式快速了解和学习spark开发。（注意：此文配置的是基于java语言开发spark的，如果要用scala开发，则需要在Eclipse中添加scala插件并做进一步配置。如果要用python开发，则最好用pycha

ASN_forever·2018-12-03 11:27

Spark2.3（三十四）：Spark Structured Streaming之withWaterMark和windows窗口是否可以实现最近一小时统计

WaterMark除了可以限定来迟数据范围，是否可以实现最近一小时统计？WaterMark目的用来限定参数计算数据的范围：比如当前计算数据内maxtimestamp是12::00，waterMark限定数据分为是60minutes，那么如果此时输入11:00之前的数据就会被舍弃不参与统计，视为来迟范围超出了60minutes限定范围。那么，是否可以借助它实现最近一小时的数据统计呢？代码示例：pac

cctext·2018-12-02 19:00

如何成为一个大数据开发工程师？

大数据通用处理平台1.Spark2.Flink3.Hadoop分布式存储HDFS资源调度YarnMesos机器学习工具Mahout1

qq_43713878·2018-12-01 13:25

推荐频道

spark2

184、Spark 2.0之Spark 2.x与1.x对比以及分析

第一个spark应用开发详解(java版)

无痛搭建Spark2.1+Scala2.11.8+jdk1.8+IntelliJ的环境

CarbonData SDK集成OSS - 测试步骤

Spark2.4.0源码编译支持hadoop-2.6.0-cdh5.7.0

ApacheCN 学习资源汇总 2019.1

在CentOS6.9搭建Spark2.4.0集群

Spark MLlib 环境搭建超详细教程

Spark SQL中列转行（UNPIVOT）的两种方法

Spark 2.2.0 在创建过大的DataFrame时候出现的错误

'HiveContext' object has no attribute 'jsonFile' && 'DataFrame' object has no attribute 'map'报错解决

Python+Spark 2.0+Hadoop机器学习与大数据实战 目录

spark2.3.3消费kafka中的数据，与hive中的表做关联并写入elasticsearch6.5.3（spark structed streaming）

Spark2.4+Hadoop2.7+Zookeeper3.4+HBase2.1集群部署

Spark2.2——RpcEnv（一）

Spark2.2源码剖析——SecurityManager

Spark2.2源码剖析——SparkContext

Structured Streaming入门实例

pyspark-配置spark的Python环境

YARN、Spark、Hive使用kerberos

spark2连接关系型数据库postgresql

大数据环境搭建步骤详解（Hadoop，Hive，Zookeeper，Kafka，Flume，Hbase，Spark等安装与配置）

spark2以后对limit的优化和存在问题

Spark 内核设计的艺术架构与实现 第二章Spark模型设计

win10 安装单机版 pyspark

Spark2.0 StructuredStreaming

搜狐实验室 新闻点击量项目

MLSQL平台执行python代码示例

使用Spark ML进行数据分析

Spark2.X-自定义累加器AccumulatorV2

Spark Streaming & Structured Streaming分析

Spark RDD的默认分区数：（spark 2.1.0）

基于Spark2.2的 交互式用户活跃度分析 指定范围 访问次数 top10

hadoop3.1.1+scala2.12.8+spark2.4.0分布式集群搭建

Spark2.X+Python实战课程

Spark2.X+Python实战课程

Spark 2.4.0编程指南--Spark SQL UDF和UDAF

Spark2.3.2源码解析： 4.2.Yarn cluster 模式 SparkSubmit源码分析（二）ApplicationMaster

Spark 2.4.0编程指南--spark dataSet action

IDEA 中开发第一个Spark 程序

大数据学习第二天

Spark 2.4 入门之基于Hadoop 2.7.3环境搭建

spark

使用Spark Streaming处理Kafka数据流

Spark2.0 RDD DataFrame DataSet 如何选择？

Hadoop2.8.5+Spark2.4.0完全分布式集群搭建过程

升级 spark 2.3问题：Spark Streaming日志级别设置，最小堆内存设置

spark2.1.0配置windows本地基于java语言的Eclipse开发环境

Spark2.3（三十四）：Spark Structured Streaming之withWaterMark和windows窗口是否可以实现最近一小时统计

如何成为一个大数据开发工程师？

Python+Spark 2.0+Hadoop机器学习与大数据实战目录

Spark 内核设计的艺术架构与实现第二章Spark模型设计

搜狐实验室新闻点击量项目

基于Spark2.2的交互式用户活跃度分析指定范围访问次数 top10