spark2 第3页

spark2.4.5计算框架中各模块的常用实例

本项目是使用scala语言给出了spark2.4.5计算框架中各模块的常用实例。温馨提醒：spark的版本与scala的版本号有严格的对应关系，安装请注意。

编程方法论·2023-10-09 00:10

windows运行pyspark问题之return sc._jvm.SimplePythonFunction(TypeError: ‘JavaPackage‘ object is not callab

details/79458528#:~:text=%E8%A7%A3%E5%86%B3%E5%8A%9E%E6%B3%95%EF%BC%9A%201%E3%80%81%E5%8D%B8%E8%BD%BDpyspark2.2%

ML&DLee·2023-10-05 17:37

Python大数据之PySpark(二)PySpark安装

PySpark安装环境搭建-Standalone环境搭建StandaloneHA后记PySpark安装1-明确PyPi库，PythonPackageIndex所有的Python包都从这里下载，包括pyspark2

Maynor996·2023-10-04 08:12

Apache Spark 动态分区 OverWrite 问题

2、解决方案：从Spark2.3开始，Spark给我们提供了名为spark.sql.sources.p

团团饱饱·2023-10-02 23:06

Hudi第二章：集成Spark

系列文章目录Hudi第一章：编译安装Hudi第二章：集成Spark文章目录系列文章目录前言一、安装Spark1、安装Spark2.安装hive二、spark-shell1.启动命令2.插入数据3.查询数据

超哥--·2023-09-30 20:39

别再人云亦云了！！！你真的搞懂了RDD、DF、DS的区别吗？

不过，从Spark2.2开始，DataFrame和DataSe

Jimmy2019·2023-09-30 13:28

Pyspark实现KMeans机器学习聚类算法（一）

Pyspark实现KMeans机器学习聚类算法（一）环境配置：spark2.1.1python3.5.2IPython5.1.0这里配置了pyspark默认以ipython模式启动。

数据之禅·2023-09-28 14:03

Windows下Pycharm的Spark、Hadoop、Scala安装及常见报错（graphframes避坑、jupyter的文件位置更换、conda环境建立）

py4j2、安装pyspark接下来是新建python项目1、项目配置2、使用graphframes库项目环境jdk1.8.0_333python3.7.13scala2.11.8hadoop2.7.1spark2.4.3

soberld·2023-09-21 02:21

Spark-Shell的启动与运行

Spark-Shell的启动与运行一、启动spark2.启动hadoop3.启动spark二、SparkRdd的简单操作1.从文件系统加载数据创建ADD（１）从Linux本地文件系统加载数据创建RDD—

LMY~~·2023-09-18 08:40

HDP服务器上spark-sql联通hive元数据库

spark-sql执行的脚本没有执行，提示没有找到数据库；新打session窗口测试，通过spark-sql连接yarn后showdatabases;发现数据库与hive元数据库不一致；解决方法：修改spark2

NightFall丶·2023-09-17 23:44

Apache Spark 2.2.0 官方文档中文版

htmlApacheSpark™是一个快速的,用于海量数据处理的通用引擎.官方网址:http://spark.apache.org中文文档:http://spark.apachecn.org花了大概两周左右的时间，在原来Spark2.0.2

boonya·2023-09-17 10:40

1.spark读取数据与scala编程

以下是idea中用到的maven仓库版本说明：spark2.3.1scala2.11hadoop3.1.14.0.0com.attest.bigdataspark-2003291.0org.apache.sparkspark-core

一杭oneline·2023-09-16 10:59

Spark

Spark2.4.6Spark介绍什么是Spark？ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。

HikZ.919·2023-09-14 23:29

Spark-通信架构

Spark2.x版本使用Netty通讯框架作为内部通讯组间。Spark基于Netty新的RPC框架借鉴了Akka中的设计，基于Actor模型。

布莱安托·2023-09-12 15:06

spark-windows本地环境搭建

bin目录）github找https://github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/binscala-SDK-2.12.10,spark2.4.3

堂哥000·2023-09-11 11:11

Spark 【Spark SQL（一）DataFrame的创建、保存与基本操作】

Spark2.0出现的SparkSession接口替代了Spark1.6版本中的SQLContext和HiveCont

让线程再跑一会·2023-09-10 23:52

Spark【Spark SQL（三）DataSet】

在Spark2.0中，DataFrame和DataSet被合并为DataSet。DataSet包含

让线程再跑一会·2023-09-10 23:20

Spark String Decimal类型引起的问题

问题背景从Spark2到Spark3这期间，Spark对于String和Decimal类型的比较会自动转换为Double类型。

wankunde·2023-09-09 04:33

Ambari HDP 下 SPARK2 与 Phoenix 整合

1、环境说明操作系统CentOSLinuxrelease7.4.1708(Core)Ambari2.6.xHDP2.6.3.0Spark2.xPhoenix4.10.0-HBase-1.22、条件HBase

跟着大数据和AI去旅行·2023-09-08 23:21

Spark2x原理剖析（二）

一、概述基于社区已有的JDBCServer基础上，采用多主实例模式实现了其高可用性方案。集群中支持同时共存多个JDBCServer服务，通过客户端可以随机连接其中的任意一个服务进行业务操作。即使集群中一个或多个JDBCServer服务停止工作，也不影响用户通过同一个客户端接口连接其他正常的JDBCServer服务。多主实例模式相比主备模式的HA方案，优势主要体现在对以下两种场景的改进。主备模式下，

Hello.Reader·2023-09-06 07:08

Spark SQL常用函数函数分类及其简介

SparkSQL函数一、概述1、来源：本文总结自spark2.3.1API文档org.apache.spark.sql：objectfunctions；2、使用：org.apache.spark.sql.functions

vitrovitro·2023-09-03 01:43

CDK &CDS 安装

一、下载安装包http://archive.cloudera.com/kafka/parcels/4.1.0/http://archive.cloudera.com/spark2/csd/SPARK2_

吃货大米饭·2023-09-02 15:28

Spark_Spark中的几种Shuffle 以及工作原理，含HashShuffle

BaseSpark2.0+参考文章1.spark基础之shuffle机制和原理分析https://blog.csdn.net/zhanglh046/article/details/783607622.SparkShuffle

高达一号·2023-09-01 07:52

Spark2.3整合bubbo问题总结

1.在java代码中写scala代码image.png编译后会出现scala代码找不到，需要在pom.xml添加net.alchim31.mavenscala-maven-plugin3.2.0scala-compile-firstprocess-resourcesadd-sourcecompiletest-compile-scalatest-compileadd-sourcetestCompil

LancerLin_LX·2023-08-29 07:55

hive3.1.4源码编译兼容spark3.0.0 hive on spark hadoop3.x修改源码依赖步骤详细

使用hive3.1.2和spark3.0.0配置hiveonspark的时候，发现官方下载的hive3.1.2和spark3.0.0不兼容，hive3.1.2对应的版本是spark2.3.0，而spark3.0.0

薛定谔的猫不吃猫粮·2023-08-26 09:49

分布式计算框架：Spark、Dask、Ray

目录什么是分布式计算分布式计算哪家强：Spark、Dask、Ray2选择正确的框架2.1Spark2.2Dask2.3Ray什么是分布式计算分布式计算是一种计算方法，和集中式计算是相对的。

ZhangJiQun&MXP·2023-08-26 08:41

【Spark】用scala2.11编译打包构建镜像

而如果还在用Spark2.x版本的，至少在2.4.5的版本中，已经是将Scala2.12作为默认的Scala版本了，如果用户的程序是用Scala2.11写的，也需要将Spark

runzhliu·2023-08-24 21:38

Spark2x on yarn日志配置详解

概述SparkonYarn的日志配置分为两类：SparkonYarnclient模式SparkonYarncluster模式接下为大家逐一介绍。SparkonYarnclient模式下的日志配置在client模式下，Spark分为三部分，分别是driver，applicationmaster以及executor，这种模式通常使用在测试环境中。driver：可以认为是sparkapplication

super_wing·2023-08-24 18:09

【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )

文章目录一、安装PySpark1、使用pip安装PySpark2、国内代理镜像3、PyCharm中安装PySpark二、PySpark数据处理步骤三、构建PySpark执行环境入口对象四、代码示例一、安装

韩曙亮·2023-08-23 08:09

hibench 对CDH5.13.1进行基准测试（测试项目hadoop\spark\)HDFS作HA高可靠性

因为是全量安装，其中有SPARK的测试（SPARK2.0）。安装位置在SPARK服务所在的节点上面。

weixin_30262255·2023-08-23 00:44

PySpark安装及WordCount实现（基于Ubuntu）

先盘点一下要安装哪些东西：VMwareubuntu14.04（64位）Java环境（JDK1.8）Hadoop2.7.1Spark2.4.0（Local模式）Pycharm（一）UbuntuVMware

如何原谅奋力过但无声·2023-08-22 13:37

Spark 为什么比 MapReduce 快100倍？

文章目录1.内存计算与磁盘刷写1.1MapReduce的Shuffle需要频繁IO1.2Spark计算走IO少2.进程和线程2.1基于进程的MapReduce2.2基于线程的Spark2.3基于进程VS

程序终结者·2023-08-20 02:43

Spark 图计算ONEID 进阶版

0、环境信息本文采用阿里云maxcompute的spark环境为基础进行的，搭建本地spark环境参考搭建Windows开发环境_云原生大数据计算服务MaxCompute-阿里云帮助中心版本spark2.4.5

大数据00·2023-08-19 05:09

使用FIFO的文件控制shell的线程数

/bin/bashdate+'%Y/%m/%d%H:%M:%S'HADOOP_CONF_DIR=/opt/cloudera/parcels/SPARK2-2.1.0.cloudera1-1.cdh5.7.0

飞天大漠·2023-08-17 12:17

使用SparkSQL操作Elasticsearch - Spark入门教程

从5.0版本开始，elasticsearch-hadoop就支持Spark2.0。

DreamsonMa·2023-08-17 10:56

Spark Structured Streaming 项目实战

google搜索一下就能找到SparkStreaming项目实战简单架构图原项目中用的是Sparkstreaming，目前spark官网推荐实用SparkStructuredStreaming，也就是对应spark2.0

maozicb·2023-08-16 06:25

Standalone模式下_taskScheduler和executor运行原理解密

环境：spark2.3.3scala2.11.8Java1.8.0_141_taskScheduler和executor运行的代码调用流程，如下图所示：将上述过程，整理简图如下：下面进行具体说明：一：SparkExecutor

ustbxyls·2023-08-12 16:34

Spark2.2出现异常：ERROR SparkUI: Failed to bind SparkUI

详细错误信息如下：复制代码19/03/1911:04:18INFOutil.log:Logginginitialized@5402ms19/03/1911:04:18INFOserver.Server:jetty-9.3.z-SNAPSHOT19/03/1911:04:18INFOserver.Server:Started@5604ms19/03/1911:04:18WARNutil.Utils:

行走荷尔蒙·2023-08-12 09:11

安装spark时输入spark-shell报错 “系统找不到指定的路径“

安装spark时输入spark-shell报错“系统找不到指定的路径“1、检查是不是已经安装了pyspark2、用spark-shell.cmd命令这个问题在网上大部分人都是说Java_Home配置的有问题

幸福右手牵·2023-08-12 05:18

第一次scala课程

一、选择Scala版本我们在master虚拟机上安装的是Spark2.4.4，为了后续操作不出现任何匹配方面的问题，建议采用跟Spark版本匹配的Scala三、Windows上安装Scala（一）到Scala

snow323H·2023-08-11 19:08

Spark2.x精通：Master端循环消息处理源码剖析（二）

问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读上一篇文章Spark2.x精通：Master端循环消息处理源码剖析

大数据开发运维架构·2023-08-11 02:05

解决python3和jupyter-notebook中的报错No module named pyspark和No module named ‘py4j’

背景描述：在centos7–CDH6下配置了spark2.4和hive2.3，在linux-shell中输入pyspark可以正常启动，执行下列语句可正常显示frompyspark.sqlimportSparkSessionspark

Nancy_张·2023-08-10 20:16

Spark 3.1.1 遇到的 from_json regexp_replace组合表达式慢问题的解决

背景目前公司在从spark2.4.x升级到3.1.1的时候，遇到了一类SQL极慢的情况，该SQL的如下(只列举了关键的)：selectdevice_personas.

鸿乃江边鸟·2023-08-06 19:47

Spark3-AQE-数据倾斜Join优化

AdaptiveQueryExection(自适应查询计划)简称AQE，在最早在spark1.6版本就已经有了AQE;到了spark2.x版本，intel大数据团队进行了相应的原型开发和实践；到了spark3.0

蠟筆小噺没有烦恼·2023-08-06 13:34

2 Scala的基础知识

变量值不可修改，一旦分配不能重新指向别的值val：分配后，可以指向类型相同的值vallines=sc.textFile("helloSpark.txt")lines=sc.textFile("hellSpark2

Achaichai·2023-08-03 17:45

Spark2.x精通：Master端循环消息处理源码剖析（一）

问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读上篇文章:Spark2.x精通：Standalone模式Master

大数据开发运维架构·2023-08-03 12:57

Centos 7 环境 Storm 2.0.0 完全分布式集群的搭建过程

系列博客地址Centos7环境hadoop3.2.0完全分布式集群搭建Centos7环境hive3.1.1搭建Centos7环境Spark2.4.3完全分布式集群的搭建过程Centos7环境HBase2.1.5

小不强·2023-08-03 09:51

spark2.x--7. 内存管理之StaticMemoryManage

1.MemoryManagerSpark的内存主要分为管理储存(Storage)和执行(Execution)，ExecutionMemory是指Shuffles，joins，sorts和aggregation的操作；而StorageMemory是缓存和广播数据相关的，每一个JVM会产生一个MemoryManager来负责管理内存。MemoryManager主要有几个功能：•记录用了多少Storag

shuitai·2023-08-02 15:20

Python---pyspark的安装，执行入口，编程模型、RDD对象、数据输入

命令提示符程序内，输入：pipinstallpyspark或使用国内代理镜像网站（清华大学源）pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn/simplepyspark2

三月七（爱看动漫的程序员）·2023-08-02 05:51

Spark Sql日志分析项目实战

项目简介统计主站最受欢迎的课程TopN访问次数按地市统计主站最受欢迎的TopN课程按流量统计主站最受欢迎的TopN课程环境安装CDH相关软件下载地址Spark环境搭建Spark源码编译（以spark2.1.0

kangapp·2023-07-24 06:17

推荐频道

spark2