spark2 第36页

Spark读取hbase表的几种方式

环境：hadoop3.0+Spark2.2+hbase1.2+phoenix4.12基本上是都是比较新的环境，而且也比较稳定。但是hbase相对来说有点老了，但也还好。

sinadrew·2018-05-02 22:24

【spark】java.io.NotSerializableException: org.apache.spark.unsafe.types.UTF8String$IntWrapper

1、环境：这是一个spark的Tasknotserializable问题，因此只需要关注spark的版本就好了，我的版本是spark2.2.0的版本！

lsr40·2018-05-02 16:12

spark2.1.0-mongodb

1.从MongoDB读取packagecom.mongodb.spark;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.sql.SparkSession;importorg.bson.Document;importcom.mongodb.spark.MongoSpark;importcom.mongo

q启明星·2018-05-02 09:36

Liunx搭建Spark开发环境

马智霖·2018-04-29 21:00

Liunx搭建Spark开发环境

马智霖·2018-04-29 21:00

sparksql dataFrame 关于列的增删改操作

valsqlContex=SparkSession.builder().master("local[2]").appName("spark2ES")//.con

xnlej·2018-04-26 21:58

spark2.1.0-在文本文件中统计出现关键字的次数

packagecom.wangzs;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.api.java.function.Function;/***@title

q启明星·2018-04-26 19:52

Spark2.3 RDD之 distinct 源码浅谈

distinct源码：/***ReturnanewRDDcontainingthedistinctelementsinthisRDD.*/defdistinct(numPartitions:Int)(implicitord:Ordering[T]=null):RDD[T]=withScope{map(x=>(x,null)).reduceByKey((x,y)=>x,numPartitions).

DPnice·2018-04-26 18:39

Spark2.3 RDD之 filter源码解析

sparkfilter源码：/***ReturnanewRDDcontainingonlytheelementsthatsatisfyapredicate.*/deffilter(f:T=>Boolean):RDD[T]=withScope{valcleanF=sc.clean(f)newMapPartitionsRDD[T,T](this,(context,pid,iter)=>iter.fil

DPnice·2018-04-26 17:30

Spark2.3 RDD之flatMap源码解析

SparkflatMap源码：/***ReturnanewRDDbyfirstapplyingafunctiontoallelementsofthis*RDD,andthenflatteningtheresults.*/defflatMap[U:ClassTag](f:T=>TraversableOnce[U]):RDD[U]=withScope{valcleanF=sc.clean(f)newM

DPnice·2018-04-26 14:23

flume 对接spark streaming

功夫小当家·2018-04-25 19:00

Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程

1.选取三台服务器（CentOS系统64位）114.55.246.88主节点114.55.246.77从节点114.55.246.93从节点之后的操作如果是用普通用户操作的话也必须知道root用户的密码，因为有些操作是得用root用户操作。如果是用root用户操作的话就不存在以上问题。我是用root用户操作的。2.修改hosts文件修改三台服务器的hosts文件。vi/etc/hosts在原文件的

宇宙浪子·2018-04-24 10:30

spark+scala+spring整合提高搬砖效率

提交sparkjob的画风通常是这样子的：spark-submit--clusterhadoop-spark2.0\--classcom.a

码蹄疾·2018-04-15 20:29

centos7环境 jdk1.8+hadoop2.9.0+spark2.2.1

1.安装jdk1.8,rpm安装或者解压2.配置jdk环境，vi/etc/profile,末尾添加exportJAVA_HOME=/usr/java/jdk1.8.0_121exportJRE_HOME=${JAVA_HOME}/jreexportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexportPATH=${JAVA_HOME}/bin:$PAT

xuli_joe·2018-04-10 11:18

spark2.x- spark sql语句可使用的内置函数

sparksql语句可使用的内置函数//Note:Wheneverweaddanewentryhere,makesurewealsoupdateExpressionToSQLSuitevalexpressions:Map[String,(ExpressionInfo,FunctionBuilder)]=Map(//miscnon-aggregatefunctionsexpression[Abs](

小蜗牛也有梦想·2018-04-08 10:15

“scikit-learn(sklearn) 官方文档中文版”

sklearn)官方文档中文版”：网页链接GitHub：网页链接PS:在sklearn的Github链接中还有其他一些官方文档的中文版TensorFlowR1.2中文文档sklearn0.18中文文档Spark2.2.0

Allenlzcoder·2018-04-05 11:29

Spark Structured Streaming2.3两种计算模式

micro-batchesProcessing&ContinuousProcessingStructuredStreaming在ApacheSpark2.0引入，计算模式就是小批量计算，从高层次上看起来和小批量处理没有什么关系的

Josen_Qu·2018-04-04 11:53

spark学习总结第一天

/pyspark2.设置spark的日志输出等级，进入spark目录下的conf文件夹，在log4j.properties文件中设置log4j.rootCategory=INFO,console,其中console

一身诗意千寻瀑·2018-04-03 23:11

Spark SQL入门

#HiveonSpark是在Hive中的，使用Spark作为hive的执行引擎，只需要在hive中修改一个参数即可：#sethive.execution.engine=spark2、SparkSQLa.

Mr_249·2018-03-31 20:50

（HDP2.6.2）Carbondata1.3.1+Spark2.1.0+Hadoop2.7.3实现

一、Carbondata下载编译1、下载Carbondata代码包https://github.com/apache/carbondata/archive/apache-carbondata-1.3.1-rc1.tar.gz2、解压编译tar-zxvfapache-carbondata-1.3.1-rc1.tar.gzcdapache-carbondata-1.3.1-rc1mvn-DskipTe

Jonathan丶Wei·2018-03-28 18:58

spark+hadoop集群搭建-虚拟机

172.16.29.11slave1：ubuntu16.0464位ip:172.16.29.12slave1：ubuntu16.0464位ip:172.16.29.13jdk9.0.4hadoop2.8.1spark2.3.0

扫地僧专用扫帚·2018-03-27 19:56

Spark性能调优-总结分享

环境：服务器600+，spark2.0.2，Hadoop2.6.02、调优结果调优随机选取线上9条SQL，表横轴是调优测试项目，测试在集群空闲情况下进行，后一个的测试都是叠

H_Shun·2018-03-27 14:10

spark从入门到放弃一: worldcount-java

之前搭建集群用的是spark2.2hadoop2.9所以开发的需要引入如下的依赖UTF-82.2.11.82.9.0junitjunit4

意浅离殇·2018-03-26 21:07

PySpark学习笔记（4）——MLlib和ML介绍

SparkMLlib是Spark中专门用于处理机器学习任务的库，但在最新的Spark2.0中，大部分机器学习相关的任务已经转移到SparkML包中。

飞鸟2010·2018-03-23 18:16

Spark DataFrame transformation操作报错问题

在Spark2.0之后版本中，当对DataFrame对象进行transformation操作的时候，编译阶段不会报错，但是运行阶段就会抛出异常，提示这样的错误信息：:26:error:UnabletofindencoderfortypestoredinaDataset.Primitivetypes

cyony·2018-03-23 17:16

Spark SQL Dataset API 全集

本文基于spark2.3.0.下面是类方法简介。类方法Actionscollect():Array[T]返回一个数组，包含Dataset所有行的数据。注意：所有数据会被加载进dri

liam08·2018-03-22 23:50

spark学习系列——7 操作RDD

1、pom.xml文件4.0.0com.wangysspark2018031.0-SNAPSHOT2.1.02.11org.apache.sparkspark-core_${scala.ve

FisherWang_CN·2018-03-21 20:32

对spark2.3.0中Structured Streaming低延迟持续处理模式的介绍

2018/03/20/low-latency-continuous-processing-mode-in-structured-streaming-in-apache-spark-2-3-0.html在Spark2.0

古月慕南·2018-03-21 19:14

DataFrame创建的三种方式

Spark中DataFrame的三种创建方式标签：spark2017年09月15日11:11:021722人阅读评论(1)收藏举报目录(?)

无恋-zx·2018-03-20 19:04

spark - 部署和安装

功夫小当家·2018-03-20 10:00

spark - 部署和安装

功夫小当家·2018-03-20 10:00

Kafka整合SparkStreaming2.2的一下午（奇葩错误一堆）

集群环境：CDH5.13.0，Spark2.2.0，Scala2.11.0ps：没营养的错误。。有些难受。还是要多看看源码啊。。

深寒丶·2018-03-16 10:55

利用intellij idea 搭建spark开发环境（windows）

利用intellijidea搭建spark开发环境（windows）本文配置所有环境Win10企业版2016长期服务版Jdk1.8.0.131Hadoop2.7.3Spark2.2.0Scala2.11.12

yiluohan0307·2018-03-15 15:57

Spark2.3.0 Standalone Mode

参看文档：http://spark.apache.org/docs/latest/spark-standalone.htmlSparkStandaloneModeInstallingSparkStandalonetoaClusterStartingaClusterManuallyClusterLaunchScriptsConnectinganApplicationtotheClusterLaunc

Geek_ymv·2018-03-15 01:59

CDH5.11.1 升级spark2.x

环境介绍：在我的CDH5.11.1的集群中，默认已经安装的spark是1.6版本，这里需要将其升级为spark2.1版本。

heavylgf·2018-03-14 14:46

CDH集群 Spark1.6 升级到 Spark2.2 全纪录

但鉴于Spark2.0以后变化较大，为了方便新来员工技术发展，我决定把Spark1.6升级为spark2.2版本（2.3版本刚出不久，算是最新了）。

深寒丶·2018-03-14 10:53

Spark 2.x 性能调优-IBM

IBMBigDataPerformanceJesseChen,[email protected]Spark2.xBuildingSparkRunningSpark

hery_csnd168·2018-03-13 09:54

关于spark2.x后的SparkSession

ApacheSpark2.0引入了SparkSession，其为用户提供了一个统一的切入点来使用Spark的各项功能，并且允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序

qq_30366667·2018-03-10 21:43

Spark2.1命令工具类CommandUtils的源码分析

注：本文是为了配合《Spark内核设计的艺术架构设计与实现》一书的内容而编写，目的是为了节省成本、方便读者查阅。书中附录F的内容都在本文呈现。CommandUtils是Spark中最常用的工具类之一，其作用是为了构建进程。如果不太关心其实现也不影响对Spark源码的阅读和原理的学习。我们要介绍的方法如下：buildProcessBuilder功能描述：基于给定的参数创建ProcessBuilder

泰山不老生·2018-03-09 11:53

BigDL 运行 LeNet5 on MNIST 发现的 BUG

1.部署Hadoop2.8.3,Spark2.1.02.编译和部署BigDL编译command:.

ibingoogle·2018-03-08 02:11

大数据框架资源汇集

环境需要：Java8JDK下载地址：https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz使用帮助：点击查看Spark安装版本：Spark2.3.0

困境囚徒·2018-03-07 14:30

Spark2.3.0之pyspark实现原理分析

背景PySparkPerformanceEnhancements:[SPARK-22216][SPARK-21187]Significantimprovementsinpythonperformanceandinteroperabilitybyfastdataserializationandvectorizedexecution.SPARK-22216：主要实现矢量化pandasudf处理，并解决

Rilakkuma·2018-03-06 16:18

Spark 2.3.0支持ORC Vectorized矢量化源码分析

AddssupportfornewORCreaderthatsubstantiallyimprovestheORCscanthroughputthroughvectorization(2-5x).Toenablethereader,userscansetspark.sql.orc.impltonative.在Spark2.3.0

Rilakkuma·2018-03-05 22:32

Spark 2.3.0+Kubernetes应用程序部署

Spark2.3.0+Kubernetes应用程序部署Spark可以运行在Kubernetes管理的集群中，利用NativeKubernetes调度的特点已经被加入Spark。

段智华·2018-03-05 21:46

[Spark版本更新]--2.3.0发行说明

highfei2011·2018-03-03 11:28

Apache Spark 2.3 重要特性介绍

本文翻译自：https://databricks.com/blog/2018/02/28/introducing-apache-spark-2-3.html为了继续实现Spark更快，更轻松，更智能的目标，Spark2.3

Hadoop技术博文·2018-03-02 00:00

Spark 2.2.1 处理HDFS文件数据源的案例与解读

Spark2.2.1处理HDFS文件数据源的案例与解读上一节讲解了从Sockets获取数据，SparkStreamingContextAPI还提供了从其他基础数据源创建DStream实例的方法，这里以文件数据源作为例子

段智华·2018-02-23 15:22

Spark 2.2.1 SQL UDAF用户自定义函数案例

Spark2.2.1SQLUDAF用户自定义函数案例UDAF：UserDefinedAggregationFunction，用户自定义的聚合函数，函数本身作用于数据集合，能够在聚合操作的基础上进行自定义操作

段智华·2018-02-21 17:00

SPARK 2.2.1 基于HIVEQL的人力资源系统的数据处理的案例与解读

SPARK2.2.1HIVEQL的人力资源系统的数据处理的案例与解读本节给出一个简单的公司人力资源系统的数据处理案例。人力资源管理系统的管理内容组织结构如图3-10所示。

段智华·2018-02-21 13:14

Spark 2.2.1 集成Hive数据仓库的案例与解读

Spark2.2.1集成Hive数据仓库的案例与解读一般情况下，各个公司都会建立自己的数据仓库，尤其是当前大数据生态圈中使用最普遍的Hive数据仓库，需要集成这部分数据，向外提供这部分数据的查询接口。

段智华·2018-02-20 21:09

推荐频道

spark2

Spark读取hbase表的几种方式

【spark】java.io.NotSerializableException: org.apache.spark.unsafe.types.UTF8String$IntWrapper

spark2.1.0-mongodb

Liunx搭建Spark开发环境

Liunx搭建Spark开发环境

sparksql dataFrame 关于列的增删改操作

spark2.1.0-在文本文件中统计出现关键字的次数

Spark2.3 RDD之 distinct 源码浅谈

Spark2.3 RDD之 filter源码解析

Spark2.3 RDD之flatMap源码解析

flume 对接spark streaming

Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程

spark+scala+spring整合提高搬砖效率

centos7环境 jdk1.8+hadoop2.9.0+spark2.2.1

spark2.x- spark sql语句可使用的内置函数

“scikit-learn(sklearn) 官方文档中文版”

Spark Structured Streaming2.3两种计算模式

spark学习总结第一天

Spark SQL入门

（HDP2.6.2）Carbondata1.3.1+Spark2.1.0+Hadoop2.7.3实现

spark+hadoop集群搭建-虚拟机

Spark性能调优-总结分享

spark从入门到放弃一: worldcount-java

PySpark学习笔记（4）——MLlib和ML介绍

Spark DataFrame transformation操作报错问题

Spark SQL Dataset API 全集

spark学习系列——7 操作RDD

对spark2.3.0中Structured Streaming低延迟持续处理模式的介绍

DataFrame创建的三种方式

spark - 部署和安装

spark - 部署和安装

Kafka整合SparkStreaming2.2的一下午（奇葩错误一堆）

利用intellij idea 搭建spark开发环境（windows）

Spark2.3.0 Standalone Mode

CDH5.11.1 升级spark2.x

CDH集群 Spark1.6 升级到 Spark2.2 全纪录

Spark 2.x 性能调优-IBM

关于spark2.x后的SparkSession

Spark2.1命令工具类CommandUtils的源码分析

BigDL 运行 LeNet5 on MNIST 发现的 BUG

大数据框架资源汇集

Spark2.3.0之pyspark实现原理分析

Spark 2.3.0支持ORC Vectorized矢量化源码分析

Spark 2.3.0+Kubernetes应用程序部署

[Spark版本更新]--2.3.0发行说明

Apache Spark 2.3 重要特性介绍

Spark 2.2.1 处理HDFS文件数据源的案例与解读

Spark 2.2.1 SQL UDAF用户自定义函数案例

SPARK 2.2.1 基于HIVEQL的人力资源系统的数据处理的案例与解读

Spark 2.2.1 集成Hive数据仓库的案例与解读