spark2 第33页

Spark常用执行脚本

集群环境变量无配置：exportSPARK_DIST_CLASSPATH=$(hadoopclasspath)安全认证：[email protected]spark2执行命令

lhxsir·2018-11-23 15:02

SparkSession的使用

简单的来说，SparkSession是Spark2.0版本中SparkContext更好用的接口packagecom.imooc.sparkimportorg.apache.spark.sql.SparkSession

翰文不是瀚·2018-11-22 23:17

Spark环境搭建（多种模式）

搭建环境：CentOS7+jdk8+spark2.3.2+hadoop2.7Local本地模

LousenJay·2018-11-22 09:00

Spark2.1.0——WebUI框架体系

阅读建议：阅读本文前最好先阅读《Spark2.1.0——SparkUI的实现》一文。SparkUI构建在WebUI的框架体系之上，因此应当首先了解WebUI。

泰山不老生·2018-11-20 09:34

PySpark Failed to locate the winutils binary

STEP1:downloadrightversionofwinutils.exe,I'musingspark2.3withhadoop2.7,soIneedtodownloadHadoop2.7'swinutils.exe.https

qianleiz·2018-11-20 09:27

PySpark Failed to locate the winutils binary

STEP1:downloadrightversionofwinutils.exe,I'musingspark2.3withhadoop2.7,soIneedtodownloadHadoop2.7'swinutils.exe.https

qianleiz·2018-11-20 09:27

Spark SQL

楔子SparkSQL,基于Spark2.版本Spark相关内容以下内容是从相关书籍中，阅读Spark部分笔记企业大数据处理Spark、Druid、Flume、Kafka应用实践2Spark详解Spark

千里草竹·2018-11-18 00:04

PySpark读写Oracle性能深度调优

1、环境准备在本次测试环境中，用6台机器搭建了CDH的Hadoop平台，Spark2.2版本搭配Yarn进

超叔csdn·2018-11-17 15:18

【Spark】Spark 消息通信架构

Spark有内置的RPC框架（在Spark2.0.0之前，是借助Akka来实现的，虽

w1992wishes·2018-11-15 14:11

【Spark】Spark 消息通信架构

Spark有内置的RPC框架（在Spark2.0.0之前，是借助Akka来实现的，虽

w1992wishes·2018-11-15 14:04

hive与spark的匹配版本汇总

src1.3.1apache-hive-2.1.1-src1.6.0apache-hive-2.3.3-src2.0.0apache-hive-3.0.0-src2.3.0stackoverflow上可行的例子是：spark2.0.2withhadoop2.7.3andhive2.1

俞驰的博客·2018-11-12 13:30

Spark2.1.0——SparkContext概述

Spark应用程序的提交离不开SparkDriver，后者是驱动应用程序在Spark集群上执行的原动力。了解SparkDriver的初始化，有助于读者理解Spark应用程序与SparkDriver的关系。SparkDriver的初始化始终围绕着SparkContext的初始化。SparkContext可以算得上是Spark应用程序的发动机引擎，轿车要想跑起来，发动机首先要启动。SparkConte

泰山不老生·2018-11-12 10:23

大数据DMP画像系统

系统的架构和开发4、大数据结合业务场景落地系统开发要求涉及的技术要点：spark、elasticsearch、hadoop、hive、LRGBDT等机器学习算法开发工具：idea、eclipse开发环境：spark2.2

java_66666·2018-11-12 00:00

Hadoop与Spark关系

Hadoop与Spark的关系目录一：介绍1:Spark2:Hadoop二：不同层面的关系1:功能2:依赖关系3:数据量影响4:容错说明：近期在做一个图关系项目时，使用到了saprk分析引擎和Hadoop

yoylee_web·2018-11-11 17:14

Hadoop与Spark关系

Hadoop与Spark的关系目录一：介绍1:Spark2:Hadoop二：不同层面的关系1:功能2:依赖关系3:数据量影响4:容错说明：近期在做一个图关系项目时，使用到了saprk分析引擎和Hadoop

yoylee_web·2018-11-11 17:14

3、Spark2x 基于内存的计算引擎

Spark2x基于内存的计算引擎一、Spark概述Spark是一种基于内存进行计算的分布式批处理引擎，他的主要工作是执行以下几种计算：（1）数据处理，可以进行快速的数据计算工作，具备容错性和可拓展性。

bug发现与制造·2018-11-09 17:13

windos下spark2.3.2源码编译

当时在学习spark的时候，编译过spark2.11源码，当时也遇到过不少坑，导致编译过程坎坷。时过境迁，目前spark的最新版本是spark2.3.2。这次跟着官网指导编译一下最新代码。

梧上擎天·2018-11-09 11:03

spark读取hive数据-java

环境：spark2.0.21.SparkSession里设置enableHiveSupport()SparkConfconf=newSparkConf().setAppName("appName").setMaster

hupangrou·2018-11-08 12:29

Spark DataFrame的groupBy vs groupByKey

所用spark版本：spark2.1.0先从使用的角度来说，groupBy：groupBy类

zzzzMing·2018-11-04 16:00

大数据分布式平台Hadoop2.7.7 + Spark2.2.2搭建

ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架，Spark，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器

兴趣e族·2018-11-02 16:37

Spark SQL的数据源(Spark2.3.2)

jmx_bigdata·2018-11-01 14:38

IDEA编写wordcount，读取hdfs文件，运行在Spark集群例子

前期：已安装好hadoop集群和spark集群，hadoop2.6.5，spark2.3.1，jdk1.8.scala2.1.0第一步：在idea编写scala程序，并且要打包（pom文件的build标签中配置好

璀璨下的一点星辰·2018-10-31 10:51

spark2.1源码编译

我的hadoop版本：hadoop-2.6.0-cdh5.7.0我的scala版本：2.11.8我的hive版本：hive-1.1.0-cdh5.7.0hadoop下载地址：http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gzhive下载路径：http://archive.cloudera.com/cdh5/cdh/

匪_3f3e·2018-10-31 09:46

spark第九篇：Spark操作ES

从5.0版本开始，支持spark2.0。把elasticsearch-hadoop-xxx.jar放在spark的类路径(classpath)中。

koushr·2018-10-29 22:00

Spark2.x源码分析---spark-submit提交流程

本文以sparkonyarn的yarn-cluster模式进行源码解析，如有不妥之处，欢迎吐槽。步骤1.spark-submit提交任务脚本spark-submit--class主类路径\--masteryarn\--deploy-modecluster\--driver-memory申请driver内存\--executor-memory申请每个executor内存\--executor-cor

启明龍·2018-10-29 11:33

spark RDD，reduceByKey vs groupByKey

先看两者的调用顺序（都是使用默认的Partitioner，即defaultPartitioner）所用spark版本：spark2.1.0先看reduceByKeyStep1defreduceByKey

zzzzMing·2018-10-28 21:00

利用最新的CentOS7.5，hadoop3.1,spark2.3.2搭建spark集群

1.桥接模式，静态ip上外网：vi/etc/sysconfig/network-scripts/ifcfg-ens33TYPE=EthernetPROXY_METHOD=noneBROWSER_ONLY=noBOOTPROTO=staticDEFROUTE=yesIPV4_FAILURE_FATAL=noIPV6INIT=yesIPV6_AUTOCONF=yesIPV6_DEFROUTE=yesI

丰泽园的天空·2018-10-28 10:00

hue集成Oozie工作流调度之Spark2 Workflow

一、环境准备CDH5.15.0，spark2.3.0，hue3.9.0注意：由于使用的是CDH集群，默认的spark版本为1.6.0，又通过parcel包的方式安装了spark2.3.0，此时集群存在两个

jmx_bigdata·2018-10-25 18:15

Spark通过JDBC加载部分数据、添加过滤条件

例如：只需要其中的部分字段按照条件进行筛选后的数据此时就需要在JDBC连接时对option(“dbtable”,tablename)属性值进行修改，参看spark官网给出的属性介绍：(spark2.3jdbc-to-other-databa

雾幻·2018-10-25 09:31

Windows Pycharm 开发Spark环境搭建

是参考的这个：https://stackoverflow.com/questions/34685905/how-to-link-pycharm-with-pyspark环境：Windows1064bit,Spark2.3.2

qianleiz·2018-10-24 16:54

java使用spark2开发本地测试的wordCount程序

packagecn.spark.study.core;importjava.util.Arrays;importjava.util.HashMap;importjava.util.Iterator;importjava.util.Map;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;impo

璃鹿·2018-10-17 11:05

Spark2.3.1+Kafka0.9使用Direct模式消费信息异常

Spark2.3.1+Kafka使用Direct模式消费信息Maven依赖org.apache.sparkspark-streaming-kafka-0-8_2.112.3.1org.apache.sparkspark-streaming

笨兔儿·2018-10-12 00:00

大数据工程师

经常感觉没有什么目标，于是就百度汇总了一下可以学习的东西，比较全面了，包括数据分析与可视化，机器学习可以根据自己的喜好来选择大数据通用处理平台:1.Spark2.Flink3.Hadoop分布式存储：HDFS

S_Running_snail·2018-10-11 10:42

SparkStreaming（10）：高级数据源flume-push方式（生产）

【参考：http://spark.apache.org/docs/2.1.0/streaming-flume-integration.html】1.环境spark2.1.0flume1.6.02.flume

RayBreslin·2018-10-11 07:13

Spark2.2,IDEA,Maven开发环境搭建附测试

Spark2.2,IDEA,Maven开发环境搭建附测试前言：停滞了一段时间，现在要沉下心来学习点东西，出点货了。

husongbo·2018-10-10 11:01

Spark2.3.1使用技巧

Spark2.3.1使用技巧Spark-SQL读取JSON文件时反射表头caseclassStudentInfo(id:Long,name:String,age:Int)valexample=spark.read.json

笨兔儿·2018-10-09 00:00

Spark作业运行架构原理解析

需要注意的是，这里是基于Spark2.x以下的版本，因为在之前，底层通信是基于AKKAACTOR的方式，但是之后就是使用RPC的方式了。

xpleaf·2018-10-05 11:41

Kubernetes与大数据之一：使用Kubernetes scheduler运行Spark

一共支持如下四种资源调度方式：StandaloneDeployModeApacheMesosHadoopYARNKubernetes现在使用Kubernetes作为原生调度器还只是一个试验功能，并且需要如下前提条件：Spark2.3

cloudvtech·2018-10-02 09:44

SparkSQL（3）——Spark SQL DataFrame操作

读取数据源创建DataFrame在spark2.0之后，SparkSession封装了SparkContext，SqlContext，通过SparkSession可以获取到SparkConetxt,SqlContext

Fenggms·2018-09-30 21:36

大数据学习之路85-spark2.0中的DataSet和DataFrame简介

DataSet是spark2.0提出来的新东西，我们来玩一下：这次我们就不用SparkContext了，所以我们也不需要SparkConf了。

爱米酱·2018-09-29 21:44

解决spark streaming长时间运行日志不断增长问题

解决sparkstreaming长时间运行日志不断增长问题一、sparkstreaminglog日志二、sparkstreamingeventlog组件：基于CDH5.13、spark2.2.X背景：由于

shengjk1·2018-09-29 19:25

Spark---内存管理

本文中阐述的原理基于Spark2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。在执行

YK_324504836·2018-09-29 16:30

2018即将推出的Apache Spark 2.4都有哪些新功能

即将发布的ApacheSpark2.4版本是2.x系列的第五个版本。本文对ApacheSpark2.4的主要功能和增强功能进行了概述。

青色的海牛·2018-09-29 10:44

【Big Data 每日一题20180927】Structured Streaming 之 Event Time 解析

StructuredStreaming之EventTime解析[酷玩Spark]StructuredStreaming源码解析系列，返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围：*2017.07.11update,Spark2.2

天地不仁以万物为刍狗·2018-09-27 21:22

即将发布的 Apache Spark 2.4 都有哪些新功能

即将发布的ApacheSpark2.4版本是2.x系列的第五个版本。本文对 ApacheSpark2.4的主要功能和增强功能进行了概述。

Hadoop技术博文·2018-09-21 00:00

spark中 Dynamic Allocation 以及 num-executors 的问题

之前使用spark2.3.1的sparkstreaming时，发现spark-submite设置num-executors10时，没有起作用，spark作业的executors一度多大几百个，后来把dynamicAllocation.enabledfalse

EnterPine·2018-09-12 16:41

hadoop + spark+ hive 集群搭建(apache版本)

1.集群环境和版本说明3台CentOS7.4的服务器，4CPU，8G内存；jdk1.8hadoop2.7.7spark2.3.0hive2.1.1节点和主

hello_cjq·2018-09-11 17:27

spark读取hbase表格记录实例 for IntelliJ IDEA

spark读取hbase表格记录实例forIntelliJIDEA引入库hbase2.0.1中lib库所有*.jarscala-sdk-2.11.6spark2.3.1中spark\jars目录中所有*

hsg77·2018-09-11 16:51

Spark源码研读-散篇记录（二）：Spark内置RPC框架之TransportConf

1Spark版本Spark2.1.0。

xpleaf·2018-09-10 23:58

【AutoML框架】TransmogrifAI配置问题及简要分析

*，尽量装12版本，13可能不支持2、安装hadoop和spark2.2.*，同样注意版本号，安装gradle3、下载TransmogrifAI的Release版本，目前是0.

人木·2018-09-10 17:15

推荐频道

spark2

Spark常用执行脚本

SparkSession的使用

Spark环境搭建（多种模式）

Spark2.1.0——WebUI框架体系

PySpark Failed to locate the winutils binary

PySpark Failed to locate the winutils binary

Spark SQL

PySpark读写Oracle性能深度调优

【Spark】Spark 消息通信架构

【Spark】Spark 消息通信架构

hive与spark的匹配版本汇总

Spark2.1.0——SparkContext概述

大数据DMP画像系统

Hadoop与Spark关系

Hadoop与Spark关系

3、Spark2x 基于内存的计算引擎

windos下spark2.3.2源码编译

spark读取hive数据-java

Spark DataFrame的groupBy vs groupByKey

大数据分布式平台Hadoop2.7.7 + Spark2.2.2搭建

Spark SQL的数据源(Spark2.3.2)

IDEA编写wordcount，读取hdfs文件，运行在Spark集群例子

spark2.1源码编译

spark第九篇：Spark操作ES

Spark2.x源码分析---spark-submit提交流程

spark RDD，reduceByKey vs groupByKey

利用最新的CentOS7.5，hadoop3.1,spark2.3.2搭建spark集群

hue集成Oozie工作流调度之Spark2 Workflow

Spark通过JDBC加载部分数据、添加过滤条件

Windows Pycharm 开发Spark环境搭建

java使用spark2开发本地测试的wordCount程序

Spark2.3.1+Kafka0.9使用Direct模式消费信息异常

大数据工程师

SparkStreaming（10）：高级数据源flume-push方式（生产）

Spark2.2,IDEA,Maven开发环境搭建附测试

Spark2.3.1使用技巧

Spark作业运行架构原理解析

Kubernetes与大数据之一：使用Kubernetes scheduler运行Spark

SparkSQL（3）——Spark SQL DataFrame操作

大数据学习之路85-spark2.0中的DataSet和DataFrame简介

解决spark streaming长时间运行日志不断增长问题

Spark---内存管理

2018即将推出的Apache Spark 2.4都有哪些新功能

【Big Data 每日一题20180927】Structured Streaming 之 Event Time 解析

即将发布的 Apache Spark 2.4 都有哪些新功能

spark中 Dynamic Allocation 以及 num-executors 的问题

hadoop + spark+ hive 集群搭建(apache版本)

spark读取hbase表格记录实例 for IntelliJ IDEA

Spark源码研读-散篇记录（二）：Spark内置RPC框架之TransportConf

【AutoML框架】TransmogrifAI配置问题及简要分析