spark2 第34页

PySpark大数据处理及机器学习Spark2.3

qkxbhdrusmc·2018-09-10 14:00

PySpark大数据处理及机器学习Spark2.3

qkxbhdrusmc·2018-09-10 14:00

CDH中HUE开启Livy Spark提交工具

github.com/cloudera/livy.gitcdlivymvnpackage配置启动Livylivy-env.shexportSPARK_HOME=/opt/cloudera/parcels/SPARK2

青行灯er·2018-09-10 13:02

Spark源码研读-散篇记录（一）：SparkConf

1Spark版本Spark2.1.0。2说明源码过程中所涉及的许多Scala的知识，完全可以参考之前Scala的笔记文章，应该来说确实很多知识内容都涉及到了。

xpleaf·2018-09-09 23:40

DataFrame、Dataset、RDD的区别与联系及相互之间的转换

DataFrame、Dataset、RDD的区别与联系及相互之间的转换本文主要讲解ApacheSpark2.0中RDD，DataFrame和Dataset三种数据组织类型；它们各自适合的使用场景，是最常用的数据类型

fct2001140269·2018-09-09 18:09

HDP 下 SPARK2 与 Phoenix 的整合

Centos7.21511Ambari：2.6.2.0HDP：2.6.5.0Spark：2.x(HDP)Phoenix：4.7.x(HDP)条件：1.HBase安装完成；2.Phoenix已经启用，ambari界面如下所示：3.Spark2

BalaBalaYi·2018-09-08 13:08

spark学习-30-spark2.2.0的SparkContext初始化

Spark源代码该怎么看，那就是看SparkContext类，只要你看懂了SparkContext，就懂得了Spark，因为这个是Spark程序的入口，也是最基础的。１sparkContext的主要构造器参数为SparkConf,实现如下classSparkContext(config:SparkConf)extendsLogging{//ThecallsitewherethisSparkCont

九师兄-梁川川·2018-09-06 15:13

Spark SQL/DataFrame/DataSet操作（一）-----读数据

所有示例代码均在spark-shell上运行，我使用的是spark2.2，其它版本方法类似。

微步229·2018-09-06 14:20

基于Spark的Als算法+自迭代+Spark2.0新写法

主要介绍了一下几点：1矩阵分解的几种算法2spark使用矩阵分解的几种方式，1ml包中使用，2mllib包中的使用，其实有不调用包自己写的案列（可以去看看哈，就在example目录）3使用ALS做推荐的一个比较详细的流程：1自迭代确定比较优的参数是，2使用参数训练模型，3使用模型推荐topn的物品给用户4讲了怎么自迭代ALS算法参数，感觉这个还重要点5提交spark的报了一个错误，已经错误解决方式

hellozhxy·2018-09-04 20:20

spark python安装配置 (初学)

参考博客https://blog.csdn.net/tyhj_sf/article/details/81907051需要：jdk10.0、spark2.3.1、Hadoop2.7.7（与spark对应的版本

PilviMannis·2018-09-04 14:22

hive on spark

hive3.0.x对应spark2.3.0，hive2.3.x对应spark2.0.0，hive2.2.x、hive2.1.x对应spark1.6.0，hive2.0.x

koushr·2018-09-02 19:00

第二章 Hadoop2.7.3+Spark2.1.0+Scala2.12.2+jdk1.8 完全分布式环境环境搭建

一、版本选择Hadoop2.7.3+Spark2.1.0+Scala2.12.2+jdk1.8完全分布式环境搭建全过程二、所有环境和已有环境已有：Hadoop2.7.3、Zookper、Jdk1.8所需搭建

mzhhy·2018-08-31 16:11

第一张：基本大数据平台宏观搭建

1业务需求分析（1）、捕获数据日志或数据库数据信息（2）、实时分析前当前数据内容（3）、实时统计当前数据量（4）、根据业务需求新增统计规划2、平台组件hadoop2.8.4spark2.3.1hive2.3.3kafka2.12zookeeper3.4.12Hbaseflumesqoop3

mzhhy·2018-08-31 16:23

spark2.1.0之源码分析—排列三网站搭建t详解

调用addRpcRe排列三网站搭建【征途源码论坛zhengtuwl.com】联系方式：QQ：2747044651quest向handler（特别提醒下读者这里的handler不是RpcHandler,而是通过TransportClient构造器传入的TransportResponseHandler）添加requestId与回调类RpcResponseCallback的引用之间的关系。Transpo

ac74v·2018-08-31 10:16

在CDH5.14上离线安装Spark2.3

我们现在可以现有的集群中再装spark2.x版本，能和spark1.6版本并存。

常飞梦·2018-08-30 17:53

centos7 安装spark2.3.1 。安装scala2.12.6

1.安装scala1).官网下载scala>wgethttps://downloads.lightbend.com/scala/2.12.6/scala-2.12.6.tgz2)解压>tar-zxvfscala-2.12.6.tgz3)修改环境变量>vim/etc/profileexportSCALA_HOME=/root/yao/scala-2.12.6exportPATH=$PATH:$SCA

kaolayao·2018-08-30 13:39

搭建Spark集群详细步骤（3）

spark集群经典4部曲：1.搭建hadoop单机和伪分布式环境2.构造分布式hadoop集群3.构造分布式spark集群4.测试spark集群第三步构造分布式spark集群3.1安装scala3.2安装spark2.2.0

aidanmo·2018-08-29 22:14

编译spark2.1.0

编译spark2.1.0目标得到spark-2.1.0-bin-2.6.0-cdh5.7.0环境jdk1.8.0_65【1.7+】mavenApacheMaven3.3.9【3.3.9版】spark2.1.0

乘风御浪云帆之上·2018-08-29 21:58

spark2.1.0之源码分析——RPC客户端TransportClient详解

提示：阅读本文前最好先阅读：《Spark2.1.0之内置RPC框架》《spark2.1.0之源码分析——RPC配置TransportConf》《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory

泰山不老生·2018-08-28 10:46

Structured Streaming-创建流式的dataset和dataframe

一输入源spark2.0中初步提供了一些内置的source支持。filesour

Anbang713·2018-08-26 13:07

SparkStreaming2.2+kafka的偏移量管理

在从kafka接受流式数据的时候，spark提供了两种方式，Dstream和DirectStream，在spark2.2中已经不在提供第一种方式，具体区别这儿就不再描述了，第二种方式spark是用的kafka

cyony·2018-08-22 11:41

oozie on spark2:基于Yarn运行Spark2时出现的错误说明（scala does not exist; make sure Spark is built.）

OozieaddsallofthejarsintheOozieSparksharelibtotheDistributedCachesuchthatalljarswillbepresentinthecurrentworkingdirectoryoftheYARNcontainer(aswellasinthecontainerclasspath).However,thisisnotquiteenoug

Nobi·2018-08-21 18:34

如何跳过Spark中CSV文件的标题？

从Spark2.0开始，您可以使用SparkSession将其作为一个内容来完成：valspark=SparkSession.builder.config(conf).get

酱g·2018-08-17 17:36

【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序

从Spark2.0开始，DataFrame和Dataset可以表示静态（有界数据）

Spark技术咖·2018-08-16 20:01

PySpark学习笔记

在spark2.0中,HiveContext,SQLContext,StreamingContext,SparkContext都被聚合到了spark模块中。

IE06·2018-08-16 16:55

SparkContext转化为JavaSparkContext

自动Spark2.0发布以来，官方最开始推荐的代码由finalSparkConfconf=newSparkConf().setMaster("local").setAppName("---");finalJavaSparkContextctx

徐雄辉·2018-08-16 15:51

Spark入门详解

一Spark概述111什么是Spark2Spark特点3Spark的用户和用途二Spark集群安装1集群角色2机器准备3下载Spark安装包4配置SparkStandalone5配置JobHistoryServerStandalone6

卢子墨·2018-08-16 15:04

CDH5.15集成spark2

CDH5.15集成spark2简介：在我的CDH5.15集群中，默认安装的spark是1.6版本，这里需要将其升级为spark2.x版本。

HarSenZhao·2018-08-15 09:15

PCA主成份分析（Spark 2.0）

转载：https://blog.csdn.net/qq_34531825/article/details/52347220PCA在Spark2.0用法比较简单，只需要设置：.setInputCol(“features

m0_37870649·2018-08-13 14:56

Spark 2.3.0 用户自定义聚合函数UserDefinedAggregateFunction和Aggregator

Spark2.3.0用户自定义聚合函数UserDefinedAggregateFunction和Aggregator一、无类型的用户自定于聚合函数（UntypedUser-DefinedAggregateFunctions

leboop·2018-08-11 17:21

spark2.3.1集群安装方法hadoop2.7.6和scala2.11.6

spark2.3.1集群安装方法hadoop2.7.6和scala2.11.6下载安装包：spark-2.3.1-bin-hadoop2.7.tgzhttp://spark.apache.org/downloads.html

hsg77·2018-08-10 21:12

hadoop2.8.3 + hive2.3.3 + hbase0.98.24 + spark2.1.3安装

cboss8·2018-08-08 10:00

hadoop2.8.3 + hive2.3.3 + hbase0.98.24 + spark2.1.3安装

cboss8·2018-08-08 10:00

第一节 Spark2.3源码解析之spark2-submit程序提交流程

本系列”spark2源码解析”,均以最新spark2.3.0版本为蓝本进行编写,转载请注明出处spark2-submit脚本应用程序提交流程一目录1.打包程序提交的流程demo,注意cdhspark2.3

数字支配万物的流转·2018-08-07 16:56

Spark之RDD编程快速入门

注：笔者用的spark1.6.3版本的，计划是用spark1.x版本大致了解一遍spark，然后再用spark2.x正式玩玩。

在屋顶听歌·2018-08-03 13:47

数据挖掘工具---spark使用练习---ml(二)

在PySpark中，由很多评估器可用，本文以Spark2.2.1中提供的模型。分类分类ML包为数据科学家提供了七种分类（Classification）模型以供选择。线性回归classpyspa

diggerTT·2018-08-03 09:46

Spark UDF使用详解及代码示例

/02/sparkUDF/前言本文介绍如何在SparkSql和DataFrame中使用UDF，如何利用UDF给一个表或者一个DataFrame根据需求添加几列，并给出了旧版（Spark1.x）和新版（Spark2

董可伦·2018-08-03 09:53

解决CDH SparkStreaming任务启动之后executor不停增长的问题,num-executors配置不管用。...

spark2-submit--classSparkKafka--masteryarn--executor-memory1G--num-executors6--driver-memory1g\--confspark.driver.supervise

arli_xu·2018-08-02 21:00

Spark Structured Stream的流关联（Stream-Stream Joins）

自Spark2.3开始，SparkStructuredStreaming开始支持Stream-streamJoins。

bluishglc·2018-08-01 10:04

linux与hadoop

1.使用spark2，clouderaManager必须要是5.8.0或者以上2.rm:cannotremove‘cm-5.7.0/run/cloudera-scm-agent/process’:Deviceorresourcebusy

Yuan_CSDF·2018-07-30 09:41

spark完整入门

1、下载spark2.1.0，下载地址https://spark.apache.org/downloads.html2、上传到linux服务器，解压即可简单应用，具体验证是否可用步骤第一步：进入spark

m0_37601109·2018-07-27 18:35

解决Spark On Yarn yarn-cluster模式下的No Suitable Driver问题

网上解决方案我们全部都试过了，奉上我们自己验证通过的方案：1、在spark2-submit中指定好如下配置(我们使用的是mysql-connector-java-5.1.38.jar)：--driver-class-path

我爱豆腐脑·2018-07-27 17:00

DAGScheduler之Job的提交划分Stage

整体流程图流程图源码分析spark2.3getOrCreateParentStages创建所有祖先Stage/***GetorcreatethelistofparentstagesforagivenRDD.ThenewStageswillbecreatedwith

阿武z·2018-07-27 15:11

spark sql读取映射hbase数据的hive外部表报错

集群环境CDH5.8.0/spark2.1.0我们用执行以下命令报错：spark2-submit--masteryarn--classcom.test.hive.SparkReadHbaseTest.

lhxsir·2018-07-19 14:54

spark 2.3.1 Standalone 集群

zhangyongbo·2018-07-18 19:00

spark 2.3.1 Standalone 集群

zhangyongbo·2018-07-18 19:00

Spark2.x学习笔记：6、在Windows平台下搭建Spark开发环境（Intellij IDEA）

Spark2.x学习笔记6、在Windows平台下搭建Spark开发环境（IntellijIDEA+Maven）6.1集成开发环境IDE为了方便应用程序开发与测试，提高开发效率，一般使用集成开发工具IDE

autumnLemon·2018-07-18 10:55

Spark2.2.0源码阅读：SparkJob 如何提交到Yarn(cluster)

Spark是如何提交到Yarn上的大部分的书籍在和文档在分析sparkjob提交的时候都是以standalone的方式分析的，由于大部分生产环境spark都是运行在yarn上的，并且deploy多为cluser，所以我抽时间专门看了一下相关的源码，一起学习一下，有助于对于线上问题的的排查和分析。如有不正确的地方欢迎指出。先看下提交的脚本spark-submit.shif[-z"${SPARK_HO

pcqlegend·2018-07-17 17:52

SparkStreaming读kafka写入HDFS（kerberos认证）

SparkStreaming读kafka写入HDFSpom访问Kerberos环境下的HBase代码Spark2Streaming应用实时读取Kafka代码写入数据到kafka代码SparkStreaming

lhxsir·2018-07-16 15:30

Spark2.x学习笔记：2、Scala简单例子

2、Scala简单例子参考教程:https://yq.aliyun.com/topic/692.1交互式编程spark-shell是Spark交互式运行模式，提供了交互式编程，边敲代码边执行，不需要创建程序源文件，方便调试程序，有利于快速学习Spark。[[email protected]]#bin/spark-shellUsingSpark'sdefaultlog4jprofile:or

autumnLemon·2018-07-16 15:37

推荐频道

spark2

PySpark大数据处理及机器学习Spark2.3

PySpark大数据处理及机器学习Spark2.3

CDH中HUE开启Livy Spark提交工具

Spark源码研读-散篇记录（一）：SparkConf

DataFrame、Dataset、RDD的区别与联系及相互之间的转换

HDP 下 SPARK2 与 Phoenix 的整合

spark学习-30-spark2.2.0的SparkContext初始化

Spark SQL/DataFrame/DataSet操作（一）-----读数据

基于Spark的Als算法+自迭代+Spark2.0新写法

spark python安装配置 (初学)

hive on spark

第二章 Hadoop2.7.3+Spark2.1.0+Scala2.12.2+jdk1.8 完全分布式环境 环境搭建

第一张：基本大数据平台宏观搭建

spark2.1.0之源码分析—排列三网站搭建t详解

在CDH5.14上离线安装Spark2.3

centos7 安装spark2.3.1 。安装scala2.12.6

搭建Spark集群详细步骤（3）

编译spark2.1.0

spark2.1.0之源码分析——RPC客户端TransportClient详解

Structured Streaming-创建流式的dataset和dataframe

SparkStreaming2.2+kafka的偏移量管理

oozie on spark2:基于Yarn运行Spark2时出现的错误说明（scala does not exist; make sure Spark is built.）

如何跳过Spark中CSV文件的标题？

【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序

PySpark学习笔记

SparkContext转化为JavaSparkContext

Spark入门详解

CDH5.15集成spark2

PCA主成份分析（Spark 2.0）

Spark 2.3.0 用户自定义聚合函数UserDefinedAggregateFunction和Aggregator

spark2.3.1集群安装方法hadoop2.7.6和scala2.11.6

hadoop2.8.3 + hive2.3.3 + hbase0.98.24 + spark2.1.3安装

hadoop2.8.3 + hive2.3.3 + hbase0.98.24 + spark2.1.3安装

第一节 Spark2.3源码解析之spark2-submit程序提交流程

Spark之RDD编程快速入门

数据挖掘工具---spark使用练习---ml(二)

Spark UDF使用详解及代码示例

解决CDH SparkStreaming任务启动之后executor不停增长的问题,num-executors配置不管用。...

Spark Structured Stream的流关联（Stream-Stream Joins）

linux与hadoop

spark完整入门

解决Spark On Yarn yarn-cluster模式下的No Suitable Driver问题

DAGScheduler之Job的提交划分Stage

spark sql读取映射hbase数据的hive外部表报错

spark 2.3.1 Standalone 集群

spark 2.3.1 Standalone 集群

Spark2.x学习笔记：6、在Windows平台下搭建Spark开发环境（Intellij IDEA）

Spark2.2.0源码阅读：SparkJob 如何提交到Yarn(cluster)

SparkStreaming读kafka写入HDFS（kerberos认证）

Spark2.x学习笔记：2、Scala简单例子

第二章 Hadoop2.7.3+Spark2.1.0+Scala2.12.2+jdk1.8 完全分布式环境环境搭建