sparkshell 第2页

Apache Hudi - 1 - quick-start-guide 快速入门

quick-start-guide前言sparkshell配置启动pyspark的hudi环境报错成功启动带hudi的pysparkIDEA代码方式插入数据（表不存在则新建表，upsert）查询数据（查询当前版本的数据

木鱼Gavin·2023-04-11 07:01

Spark基础学习笔记：创建RDD

目录一、RDD为何物（一）RDD概念（二）RDD示例（三）RDD主要特征二、做好准备工作（一）准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS（二）启动SparkShell1、启动

tooolik·2023-04-06 14:05

spark系列之spark-shell详解

SparkShell简单介绍SparkShell是一个交互式的命令行，提供了一种学习API的简单方式，以及一个能够进行交互式分析数据的强大工具，他也是一个客户端，可以使用scala编写（scala运行与

空~自由·2023-04-02 14:57

hudi spark avro兼容性问题

在学习hudi过程中，参考了：https://hudi.apache.org/docs/quick-start-guide.html，在使用sparkshell执行用例：进入sparkshell:spark-shell

AIgeeksu·2023-03-31 23:27

Spark基础

Spark基础架构二：Spark内置模块三SparkShell1.yarnapplication-listdefflatMap[U](f:String=>TraversableOnce[U])(implicitevidence

weixin_43003792·2023-03-31 00:51

分布式易扩展的可视化工作流任务调度系统，yyds

）支持工作流（运行甘特图、任务状态、流程状态等统计）支持Zookeeper实现Master集群支持集群去中心化支持在线查看任务日志支持各种资源文件的上传下载支持工作流任务调度支持工作流优先级支持MR、SparkShell

程序员小美·2023-03-23 19:50

大数据系列：Spark的工作原理及架构

介绍本ApacheSpark教程将说明ApacheSpark的运行时架构以及主要的Spark术语，例如ApacheSparkContext，Sparkshell，ApacheSpark应用程序，Spark

BAO7988·2023-02-26 07:45

Spark：创建RDD

如何生成可参考右边的帮助文档文章目录一、RDD为何物（一）RDD概念（二）RDD示例（三）RDD主要特征二、做好准备工作（一）准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS（二）启动SparkShell1

mu_kui·2023-02-03 12:27

Spark基础：创建RDD

文章目录一、RDD讲述（一）RDD概念二、RDD例题（一）创建文件1、准备本地系统文件2.启动集群3、上传文件到HDFS（二）启动SparkShell三、创建RDD（一）从对象集合创建RDD1、利用parallelize

兮若耶·2023-02-03 12:27

Spark学习笔记10:创建RDD

目录一、什么是RDD（一）RDD概念（二）RDD示例（三）RDD主要特征二、做好准备工作（一）准备文件1、准备本地系统文件2、启动HDFS服务3、准备HDFS系统文件（二）启动SparkShell1、启动

balabalalibala·2023-02-03 12:54

002 Spark shell 是怎么一回事

所有脚本和代码以Spark3.0.1为准，Scala版本为2.12~（作为一个强迫症患者，为什么不选3.0.0，因为3.0.1是稳定版本）Sparkshell是怎么一回事前文探究了spark-submit

Whaatfor·2023-01-30 15:28

学习笔记Spark（四）—— Spark编程基础（创建RDD、RDD算子、文件读取与存储）

文章目录一、创建RDD1.1、启动Sparkshell1.2、创建RDD1.2.1、从集合中创建RDD1.2.2、从外部存储中创建RDD任务1：二、RDD算子2.1、map与flatMap算子应用2.1.1

别呀·2022-12-29 10:33

pySpark数据分析（一）

一、驱动器SparkSession初始化驱动器程序通过对象SparkContext（即sc）连接spark集群，在sparkshell中会自动初始化sc，但python和scala编写的spark程序中需要自定义一个

风凭借力·2022-12-17 12:19

spark api之一：Spark官方文档 - 中文翻译

http://www.cnblogs.com/BYRans/1概述(Overview)2引入Spark(LinkingwithSpark)3初始化Spark(InitializingSpark)3.1使用SparkShell

weixin_34375251·2022-12-15 11:31

spark之获取时间（导java包、Sql）以及时间之间的转换

{Calendar,Date}以及java.text.SimpleDateFormat来对时间输出格式作规范可以进入sparkshell界面测试：spark-shell首先先导入包importjava.text.SimpleDateFormatimportjava.util

大数据翻身·2022-12-15 00:10

spark 写代码的三种方式、spark 整合 Hive

目录spark写代码的方式1、在IDEA中将代码编写好然后打包上传到集群中运行(使用最多)2、sparkshell(REPL--交互式的命令行)3、spark-sql(spark的SQL命令行)在进入spark-sql

赤兔胭脂小吕布·2022-11-20 10:08

Linux 下Spark on Yarn 部署

若没有看过Spark本地部署与Sparkstandalone部署，可以参考之前的文章Linux下Spark的Local部署（本地Sparkshell和本地伪分布式集群）Linux下SparkStandalone

Code_HS·2022-03-25 07:19

Spark整合Hive

spark-sql写代码方式1、idea里面将代码编写好打包上传到集群中运行，上线使用spark-submit提交2、sparkshell(repl)里面使用sqlContext测试使用，简单任务使用spark-shell

糟糟张·2021-11-13 22:00

Spark系列

Spark-分布式高可用集群安装Spark-SparkShell使用Spark-SparkSubmit使用Spark-RDD使用Spark-各个组件的RPC是怎么通信的Spark-Master和WorkerSpark-Application

·2021-08-30 10:08

Spark - Spark Submit使用

SparkSubmit用于启动集群中的应用程序，他的运行命令跟SparkShell差不多。.

·2021-07-27 19:46

Spark - Spark Shell使用

NSparkShell是Spark提供的一个强大的交互分析数据的工具，我们直接用$SPARK_HOME/bin/spark-shell命令来SparkShell启动，如果在bin目录下，可以直接用spark-shell

·2021-07-27 19:14

Spark核心技术与应用第三章

Spark核心技术与应用第三章3.1使用Sparkshell编写程序3.1.1启动SparkShelll3.1.2加载text文件sc.textFile("file://")sc.textFile("d

小小少年Boy·2021-06-07 02:56

Spark编程快速入门

（注意，实际情况可能因为版本不同等原因有所不同）如果对本文中的一些名词感到疑惑，可以看另外一篇入门文章：五分钟大数据：Spark入门关键字：使用SparkShell进行交互式分析启动Spark提供了一个学习

追寻者的小憩书铺·2021-05-09 17:42

大数据Spark入门以及集群搭建

Spark组件1.4.Spark和Hadoop的异同2.Spark集群搭建2.1.Spark集群结构2.2.Spark集群搭建2.3.Spark集群高可用搭建2.4.第一个应用的运行3.Spark入门3.1.Sparkshell

赵广陆·2021-05-04 16:17

Spark Streaming 快速入门（实操）

教程目录0x00教程内容0x01SparkStreaming编程1.启动SparkShell2.创建StreamingContext对象3.创建DStream对象4.对DStream进行操作5.输出数据

邵奈一·2020-09-17 05:33

Spark跟hive整合之后,启动spark shell失败的解决办法

Spark跟hive整合之后,启动sparkshell失败解决方法:向spark安装目录下的jars目录里拷贝mysql的jar包mysql-connector-java-5.1.27-bin.jar想给大家上传

cmj_971218·2020-09-16 06:38

阿里云1G服务器玩转Spark——Swap与Memory

博主前一段时间买了1G的阿里云服务器，然后各种折腾下，Hadoop相关生态圈基本给搭建完毕，但用到Spark时候却遇到了重大问题，进程启动一切正常，但进入sparkshell客户端时候一直报OOM，到这怎么办

抽烟无火·2020-09-14 15:59

Spark

三.实验原理SparkSQL用于以交互式方式编写并执行SparkSQL，且书写语法为类SQL，同SparkShell一样，启

甜粽子蘸酱油·2020-09-14 01:42

spark-shell查看parquet文件内容

1、进入sparkshell.

cuiwenxu1·2020-09-13 19:58

Spark知识点总结导航

Spark知识点总结导航-Spark基础-----第一章spark概述-----第二章spark集群安装-SparkCore-----第一章SparkShell-----第二章执行spark程序----

落落free·2020-09-11 22:04

使用spark-redis组件访问云数据库Redis

本文演示了在SparkShell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成，Redis使用阿里云数据库Redis。

GOD_WAR·2020-09-11 12:35

Spark之wordcount小案例

在虚拟机里1、编辑需要词频计算的文件（用空格隔开）2、在hdfs里新建文件夹WordCount，并把刚刚的words.txt文件上传上去3、在spark的目录中启动：bin/spark-shell进入sparkshell

忌颓废·2020-09-11 11:30

Spark—WordCount实例

前提：启动Spark集群和SparkShell1.启动Spark集群cdspark目录sbin/start-all.sh2.启动SparkShellcdspark目录bin/spark-shell--masterspark

如初⁰·2020-09-11 09:16

黑猴子的家：Spark 在 IDEA 中编写 WordCount 程序

sparkshell仅在测试和验证我们的程序时使用的较多，在生产环境中，通常会在IDE中编制程序，然后打成jar包，然后提交到集群，最常用的是创建一个Maven项目，利用Maven来管理jar包的依赖1

黑猴子的家·2020-09-11 09:17

在IDEA中编写Spark的WordCount程序

1：sparkshell仅在测试和验证我们的程序时使用的较多，在生产环境中，通常会在IDE中编制程序，然后打成jar包，然后提交到集群，最常用的是创建一个Maven项目，利用Maven来管理jar包的依赖

weixin_34129145·2020-09-11 07:13

Spark----在 IDEA 中编写 WordCount 程序

SparkShell仅在测试和验证我们的程序时使用的较多，在生产环境中，通常会在IDEA中编写程序，然后打成jar包，然后提交到集群，最常用的是创建一个Maven项目，利用Maven来管理jar包的依赖

XiaodunLP·2020-09-11 07:26

如何在IDEA中编写Spark的WordCount程序

1：sparkshell仅在测试和验证我们的程序时使用的较多，在生产环境中，通常会在IDE中编制程序，然后打成jar包，然后提交到集群，最常用的是创建一个Maven项目，利用Maven来管理jar包的依赖

LAllenKing·2020-09-11 06:48

Spark Local模式安装

tar-zxvfspark.tar.gz-C/export/servers4-配置环境变量当前local环境下仅仅需要配置conf/spark-env.shcpspark-env.sh.templatespark-env.sh5-使用sparkshell

时光带不走丶年少轻狂·2020-08-24 14:17

Spark英中对照翻译(PySpark中文版新手快速入门-Quick Start)-中文指南,教程(Python版)-20161115

spark.apache.org/docs/latest/quick-start.html][译：李文]QuickStart快速入门InteractiveAnalysiswiththeSparkShell通过SparkShell

Levin__NLP_MT_KG·2020-08-23 12:28

spark矩阵向量-矩阵矩阵相乘

_valparamatrix1=sc.parallelize(List(Vector(2,2,4),Vector(3,2,1),Vector(1,3,2)))//首先，在sparkshell中将一个矩阵按照行进行并行化

果然好吃·2020-08-22 22:09

[spark学习]之spark shell 入门

sparkshell是spark自带的一个快速原型开发的工具，在spark目录下面的bin目录下面，1.进入sparkshell：[hadoop@localhostbin]$MASTER=spark:/

JokerCao·2020-08-20 18:07

Spark基础解析

SparkHA【Standalone】【Yarn】配置Spark【Yarn】执行Spark程序执行第一个spark程序（standalone）执行第一个spark程序（yarn）Spark应用提交启动SparkShell

靛蓝忆·2020-08-18 12:43

SparkSQL操作Hive数据源

然后启动SparkShell，运行:spark.sql("showtables").show()spark.sql("showdatabases").show()前者为元数据，后者为hive中的库，现在在命令行中已经可以直接操作

寒暄·2020-08-18 11:01

大数据系列之Spark基础解析（一）

2.3下载Spark安装包2.4配置Spark2.5配置JobHistoryServer2.6配置SparkHA第3章执行Spark程序3.1执行第一个spark程序3.2Spark应用提交3.3启动SparkShell3.3.1

开封程序员阿强·2020-08-18 10:33

Spark Shell简单使用

/bin/spark-shell在SparkShell中，有一个专有的SparkContext已经为您创建好了，变量名叫做sc。自己创建的SparkContext将无法工作

universe_ant·2020-08-14 08:22

Apache Spark源码走读之16 -- spark repl实现详解

概要之所以对sparkshell的内部实现产生兴趣全部缘于好奇代码的编译加载过程，scala是需要编译才能执行的语言，但提供的scalarepl可以实现代码的实时交互式执行，这是为什么呢？

weixin_33757609·2020-08-14 05:14

spark笔记之编写Spark SQL程序实现RDD转换成Da...

前面我们学习了如何在SparkShell中使用SQL完成查询，现在我们通过IDEA编写SparkSQL查询程序。

我是楠楠·2020-08-11 05:22

spark core、spark sql、spark streaming 联系与区别

sparkcore是做离线批处理sparksql是做sql高级查询sparkshell是做交互式查询sparkstreaming是做流式处理区别：SparkCore：Spark的基础，底层的最小数据单位是

lipviolet·2020-08-09 22:33

scala里SparkContext 设置spark master url

如果选择的部署模式是standalone且部署到你配置的这个集群上，可以指定MASTER=spark://ubuntu:7070下面解答spark在那里指定masterURL的问题：1.通过sparkshell

yangbosos·2020-08-09 03:43

大数据总结【第九章：Spark】

：支持使用Scala、Java、Python和R语言进行编程，可以通过SparkShell进行交互式编程通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件运行模式多样

计忆芳华·2020-08-08 20:44

推荐频道

sparkshell