Spark2 第15页

【pyspark】三 TypeError: Can not infer schema for type: type 'str' 问题

环境spark2.3.1zeppelin中%pysparkpython2.7TypeError:Cannotinferschemafortype:多个rddunion之后，toDF().write.csv

百物易用是苏生·2020-08-09 17:05

第四篇|Spark Streaming编程指南(1)

在2016年7月，Spark2.0版本中引入了StructuredStreaming，并在Spark2.2版本中达到了生产级别，StructuredStreaming

西贝木土·2020-08-09 13:20

spark-shell启动命令详细解析1

环境：spark2.3.3scala2.11.8Java1.8.0_141执行spark-shell命令后，会启动spark-shell交互命令行窗口：那么spark-shell命令的启动流程是怎样的呢

ustbxyls·2020-08-09 13:32

Spark中RDD 持久化操作 cache与persist区别

Spark中RDD持久化操作cache与persist区别原创小鹅鹅最后发布于2018-07-0215:33:13阅读数1712收藏展开环境/背景Spark2.3.0Scala2.11Java1.8在进行

tim.wei·2020-08-09 13:29

基于xmpp openfire smack开发之openfire介绍和部署[1]

即时通信客户端可使用spark2.6.3,这个版本是目前最新的release版本，经过测试发现上一版本在视频支持,msn网关支持上可

西伯利亚鹰·2020-08-09 12:47

Spark的那些事(一)一文了解spark

一Spark生态：支持SparkSql用于sql和结构化数据查询处理；支持MLlib用于机器学习；支持GraphX用于图形处理；支持SparkStreaming和StructuredSql(spark2.1.1

小流_跬步·2020-08-09 04:54

pycharm利用pyspark远程连接spark集群

1方法1.1软件配置spark2.3.3,hadoop2.6,python31.2spark配置Spark集群的每个节点的Python版

Great1414·2020-08-09 01:11

一个简单的Spark ML的例子

文章目录1-配置2-流程3-注意4-project1-配置首先，我在虚拟上，搭建了一个单机spark2.4.1(无hadoop)。然后在本地的IDEA中远程运行spark，操作一个svm的小例子。

Great1414·2020-08-09 01:11

centos7 (阿里云、linux) 单机spark的安装与配置详解(jdk安装与配置,scala安装与配置,hadoop安装与配置,spark安装与配置)

spark的安装与配置详解文章目录1.yum进行更新2.jdk安装与配置3.scala安装与配置4.spark安装与配置1.yum进行更新yumupgradesaprk的安装需要安装jdk、scala、spark2

luqin_·2020-08-08 12:39

spark获取数据解读（部分）

本系列文章是下载的是spark2.2.1版本的源码进行相关分析和学习。

爱数星星的小H·2020-08-08 01:41

Spark2.x RDD, Dataframe Dataset API操作

zhangjunli·2020-08-07 22:08

Spark ：2.0三种API的传说：RDD，DataFrame和Dataset[译]

ApacheSpark对开发人员的吸引力在于它对大量数据集操作十分简易，并且跨语言（Scala，Java，Python和R）.本文主要讲解ApacheSpark2.0中RDD，DataFrame和Dataset

花和尚也有春天·2020-08-07 20:40

spark环境搭建(独立集群模式)

参考文章SparkStandaloneMode单机版Spark在Mac上简装笔记［0］大数据利器：Spark的单机部署与测试笔记spark2.0.0下载最新版本2.0.0解压后进入目录解释standalone

Q博士·2020-08-07 16:40

大数据技术Spark RDD、DataFrame和Dataset 怎么选择才好?

在本文中，我将深入讲讲ApacheSpark2.2以及以上版本提供的三种API——RDD、DataFrame和Dataset，

chouxi9424·2020-08-07 13:48

Spark编译

前提在这里我们编译的是Spark2.2.0,Hadoop版本为hadoop-2.6.0-cdh5.7.0，Scala版本为2.11.8更多关于编译Spark2.2.0参见Spark编译官方文档环境要求TheMaven-basedbuildisthebuildofreferenceforApacheSpark.BuildingSparkusingMavenrequiresMaven3.3.9orne

NULL·2020-08-07 07:15

安装R和RStudio-server

1,集群配置情况：spark版本：spark2-2.1.0.clouderal-1.cdhCDH版本：CDH-5.13.0-12，安装R解压软件包以及进行相关配置将R3.1.2压缩包放在/home/packages

po_int·2020-08-06 12:09

spark自定义函数之——UDF使用详解及代码示例

前言本文介绍如何在SparkSql和DataFrame中使用UDF，如何利用UDF给一个表或者一个DataFrame根据需求添加几列，并给出了旧版（Spark1.x）和新版（Spark2.x）完整的代码示例

weixin_30892889·2020-08-05 20:36

Spark2.2源码分析:Spark-Submit提交任务

Spark2.2源码阅读顺序1.Spark2.2源码分析:Spark-Submit提交任务2.Spark2.2源码分析:Driver的注册与启动客户端通过spark-submit命令提交作业后，会在spark-submit

Destiny_Greet·2020-08-05 19:01

CentOS7搭建Geotrellis开发环境

版本选项基于和团队协作，和方便管理等因素，Geotrellis相关版本选项如下：Scala:scala2.11.8Spark:spark2.2.0Java:java1.8.0_181Geotr

风碎峰·2020-08-05 13:01

Spark作业运行时，报错java.io.IOException: Mkdirs failed to create directory file:/home/tmp/catalog/example/

今天在公司集群上将自己打好的jar扔上去，以spark2-submit脚本提交作业，等到接近中午时候，回头去看，发现报错：Jobabortedduetostagefailure:Task10instage6.0failed4times

风碎峰·2020-08-05 13:01

spark2-shell启动spark2报错

1、spark2-shell命令启动spark2后，抛出异常，关键错误信息如下图：仔细查看错误信息之后发现，原来是yarn配置的内存不够，spark启动需要1024+384MB的内存，但是我的yarn配置仅有

风碎峰·2020-08-05 13:01

使用kundera jpa操作hbase

kundera支持的数据库有:Cassandra,MongoDB,HBase,Redis,OracleNoSQL,Neo4j,CouchDB,Dudu,Relationaldatabases,ApacheSpark2

zxzLife·2020-08-04 20:32

hadoop大数据集群搭建详细教程

1.集群结构(hadoop3.1.1+zookeeper3.5.5+hbase2.0.0+spark2.3.4+phoenix5.0.0)类型zookeeperHbaseSparkPhoenixmasterNameNode

mythsc·2020-08-04 20:51

若泽大数据--玩转大数据之Spark入门到实战--专题视频课程

玩转大数据之Spark入门到实战—376人已学习课程介绍1.以Spark2.2版本讲解；2.全程剖析官网，杜绝读PPT，动手操作；3.讲解Spark在企业中的生产实战，迅速提升。

ruozedata·2020-08-04 17:24

Windows系统搭建Hadoop，Spark开发环境

目录下的文件2.Hadoop3.13.spark-2.3.14.JDK1.8工具下载：下载2.解压配置2.1将下载好的Hadoop和Spark进行解压，并重命名，此处我重名为：hadoop-3.1.0和spark2.2

潇潇雨歇_·2020-08-04 15:10

Ambari Spark 集成 Hive 失败。spark sql创建的表hive看不到，hive创建的表 spark看不到

1）Advancedspark2-defaults的spark.sql.warehouse.dir值/apps/spark/warehouse改为/warehouse/tablespace/managed

rookie_bigdata·2020-08-04 12:33

Spark+Hadoop环境搭建

PRIMEZPY·2020-08-04 10:46

pyspark源码之SparkContext学习（context.py）

本系列文章是下载的是spark2.2.1版本的源码进行相关分析和学习。

爱数星星的小H·2020-08-04 08:58

ERROR SparkContext: Error initializing SparkContext.java.lang.IllegalArgumentException: System memor

这是spark2.0之上的版本，也就是sparksql,创建配置的是时候使用SparkSession,。

码出一片蓝天白云·2020-08-04 06:49

50-100G大文件的处理办法

文章目录1.使用分布式框架处理，如上次介绍的spark2.使用pandaschunk,不比单机版的spark慢3.使用daskpandas,分布式的pandas1.使用分布式框架处理，如上次介绍的spark

萤火虫之暮·2020-08-04 06:14

Spark之StructuredStreaming

StructuredStreaming相关学习：简介StructuredStreaming是Spark2.0版本提出的新的实时流框架，是一种基于SparkSQL引擎的可扩展且容错的流处理引擎。

清风笑丶·2020-08-04 06:55

深入理解Spark 2.1 Core （十）：Shuffle Map 端的原理与源码分析

http://blog.csdn.net/u011239443/article/details/55044862在上一篇《深入理解Spark2.1Core（九）：迭代计算和Shuffle的原理与源码分析

卓寿杰_SoulJoy·2020-08-04 02:33

04 graphx 从源节点到其他节点的路径 scala & java 版本

蓝风9·2020-08-04 02:48

Windows安装Pyspark

又重新装一遍真开心，装的版本太新了spark2.4.0版本，具体原因请看https://blog.csdn.net/dylan_me/article/details/85120131我装完之后运行程序一直报这个错参考链接

江西师范大学-20届-吴悠·2020-08-03 22:06

实战-Spark单机环境安装教程

Spark的单机安装方法很简单,这里我已spark2.4.5为例演示，最后启动的是cdh安装的spark2.4.0.下载http://spark.apache.org/downloads.html解压tar-zxvfspark

再难也要坚持·2020-08-03 22:08

Ubuntu+Hadoop+Mysql+Hive+Sqoop

VirtualBox6.1Ubuntu16.04Hadoop2.7.7MySql5.7.29MySql驱动5.1.46Hive2.3.6sqoop1.4.7一、hadoop集群配置以及HDFS命令学习参考依据：《python+spark2.0

weixin_43931044·2020-08-03 11:24

Spark的java开发环境实战

研究了Spark的支持方面，我发现Spark2.2和mongodb3.4这两个家伙已经宣布了互相支持。这下子狼狈为奸，一脚踢开复杂难用的Hadoop了。废话不多说，直接安

阿星777·2020-08-03 11:54

spark.SparkContext: Error initializing SparkContext.

spark.SparkContext:ErrorinitializingSparkContext.报错：(base)[bigdata@worker01~]$spark2-shellSettingdefaultloglevelto"WARN

DraGon_HooRay·2020-08-03 10:50

spark2原理分析-广播变量(Broadcast Variables)的实现原理

概述本文介绍spark中BroadcastVariables的实现原理。基本概念在spark中广播变量属于共享变量的一种,spark对共享变量的介绍如下：通常，当在远程集群节点上执行传递给Spark操作（例如map或reduce）的函数时，它将在函数中使用的所有变量的单独副本上工作。这些变量将复制到每台计算机，而且远程机器上的变量的更新不会同步给驱动程序(driver)端。这种情况下，跨任务读写共

一铭·2020-08-03 09:09

Spark2 Dataset实现原理分析-Dataset实现原理概要

概述本文讲述sparksql中的dataset的组成部分，并对其创建过程进行分析。Dataset要点我们可以总结出dataset的一些要点，如下：和关系型数据表一样，Dataset是强类型的。数据集的行的集合，被称为Dataframe。和RDD一样，Dataset的操作分为两类：转换(transformations)和行动(action)。和RDD一样，Dataset是lazy的，也就是说当执行a

一铭·2020-08-03 09:09

spark中的Dataset和DataFrame

利用DataFrame进行分析创建DataFrame从spark2.0及更高版本开始，SparkSession成为了关系型功能的入口点。

YangJianShuai·2020-08-03 09:17

Spark与Flink对比

虽然在Spark2

苝花向暖丨楠枝向寒·2020-08-03 07:33

Spark2.2（三十三）：Spark Streaming和Spark Structured Streaming更新broadcast总结

背景：需要在spark2.2.0更新broadcast中的内容，网上也搜索了不少文章，都在讲解sparkstreaming中如何更新，但没有sparkstructuredstreaming更新broadcast

weixin_34255793·2020-08-03 07:04

Spark DataFrame 的 groupBy vs groupByKey

所用spark版本：spark2.1.0先从使用的角度来说，groupBy：groupBy类

weixin_33709219·2020-08-03 06:35

Spark2.3（四十二）：Spark Streaming和Spark Structured Streaming更新broadcast总结（二）

本次此时是在SPARK2,3structuredstreaming下测试，不过这种方案，在spark2.2structuredstreaming下应该也可行（请自行测试）。

weixin_30568591·2020-08-03 06:01

初识Spark2.0之Spark SQL

内存计算平台spark在今年6月份的时候正式发布了spark2.0，相比上一版本的spark1.6版本，在内存优化，数据组织，流计算等方面都做出了较大的改变，同时更加注重基于DataFrame数据组织的

weixin_30512043·2020-08-03 06:25

Spark SQL表达式解析器-Scala Parser与Antlr4

ScalaParser在Spark2.0之前，SparkSQL使用ScalaPa

海角Q·2020-08-03 06:05

Apache Spark 2.0三种API的传说：RDD、DataFrame和Dataset

本文主要讲解ApacheSpark2.0中RDD，DataFrame和Dataset三种API；它们各自适合的使用场景；它们的性能和优化；列举使用DataFrame和DataSet代替RDD的场景。

universe_ant·2020-08-03 06:28

【spark】五 RDD、DataFrame.write 存储API的使用与区别

主要翻译自官网pyspark2.3.1文档https://spark.apache.org/docs/2.3.1/api/python/pyspark.html#pyspark.RDD一pyspark.RDD

百物易用是苏生·2020-08-03 05:00

推荐频道

Spark2

推荐BIG DATA Spark 的7本学习电子书籍（大牛专区）

【pyspark】三 TypeError: Can not infer schema for type: type 'str' 问题

第四篇|Spark Streaming编程指南(1)

spark-shell启动命令详细解析1

Spark中RDD 持久化操作 cache与persist区别

基于xmpp openfire smack开发之openfire介绍和部署[1]

Spark的那些事(一)一文了解spark

pycharm利用pyspark远程连接spark集群

一个简单的Spark ML的例子

centos7 (阿里云、linux) 单机spark的安装与配置详解(jdk安装与配置,scala安装与配置,hadoop安装与配置,spark安装与配置)

spark获取数据解读（部分）

Spark2.x RDD, Dataframe Dataset API操作

Spark ：2.0三种API的传说：RDD，DataFrame和Dataset[译]

spark环境搭建(独立集群模式)

大数据技术Spark RDD、DataFrame和Dataset 怎么选择才好?

Spark编译

安装R和RStudio-server

spark自定义函数之——UDF使用详解及代码示例

Spark2.2源码分析:Spark-Submit提交任务

CentOS7搭建Geotrellis开发环境

Spark作业运行时，报错java.io.IOException: Mkdirs failed to create directory file:/home/tmp/catalog/example/

spark2-shell启动spark2报错

使用kundera jpa操作hbase

hadoop大数据集群搭建详细教程

若泽大数据--玩转大数据之Spark入门到实战--专题视频课程

Windows系统搭建Hadoop，Spark开发环境

Ambari Spark 集成 Hive 失败。spark sql创建的表hive看不到，hive创建的表 spark看不到

Spark+Hadoop环境搭建

pyspark源码之SparkContext学习（context.py）

ERROR SparkContext: Error initializing SparkContext.java.lang.IllegalArgumentException: System memor

50-100G大文件的处理办法

Spark之StructuredStreaming

深入理解Spark 2.1 Core （十）：Shuffle Map 端的原理与源码分析

04 graphx 从源节点到其他节点的路径 scala & java 版本

Windows安装Pyspark

实战-Spark单机环境安装教程

Ubuntu+Hadoop+Mysql+Hive+Sqoop

Spark的java开发环境实战

spark.SparkContext: Error initializing SparkContext.

spark2原理分析-广播变量(Broadcast Variables)的实现原理

Spark2 Dataset实现原理分析-Dataset实现原理概要

spark中的Dataset和DataFrame

Spark与Flink对比

Spark2.2（三十三）：Spark Streaming和Spark Structured Streaming更新broadcast总结

Spark DataFrame 的 groupBy vs groupByKey

Spark2.3（四十二）：Spark Streaming和Spark Structured Streaming更新broadcast总结（二）

初识Spark2.0之Spark SQL

Spark SQL表达式解析器-Scala Parser与Antlr4

Apache Spark 2.0三种API的传说：RDD、DataFrame和Dataset

【spark】五 RDD、DataFrame.write 存储API的使用与区别