spark2 第5页

Spark 2.4.0编程指南--Spark DataSources

Spark2.4.0编程指南–SparkDataSources更多资源github:https://github.com/opensourceteams/spark-scala-maven-2.4.0视频

thinktothings·2023-04-09 02:32

SparkMLib 数据类型 - Data sources

文章目录图数据源spark2.4.8介绍怎样在ML中使用数据源来加载数据.除此之外一些常用的数据源像Parquet,CSV,JSON和JDBC,提供了一些专用的数据源.图数据源图数据源被用来加载目录中图文件

大怀特·2023-04-09 02:01

spark 发送数据到 kafka 报错:Cannot Perform operation after producer has been closed

报错原因总结:spark发送到kafka是有生产者线程池的.这个支持的过期策略在spark2.4.4之前的策略是:你taskaccess该producer开始计时.如果10min内没有新的access则

健忘主义·2023-04-07 00:20

Java-Spark系列3-RDD介绍

文章目录一.RDD概念1.1RDD的特点1.2RDD的核心属性二.RDD概述2.1准备工作2.2初始化spark2.3RDD数据集2.3.1并行集合2.3.2外部数据集三.操作RDD3.1基础知识3.2

只是甲·2023-04-06 14:49

搭载英伟达Jetson Orin的Allspark 2全新亮相，算力高达100TOPS！

Allspark2系列AI边缘计算机Allspark2经过设计优化的铝合金外壳，内置静音涡轮风扇，散热优秀。尺寸102.5X62.5X31mm，整机重量188g。

阿木实验室·2023-04-04 18:22

Spark中内存模型管理

本文中阐述的原理基于Spark2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念

Perkinl·2023-04-03 11:26

PySpark:DataFrame及其常用列操作

为了解决上述问题，从Spark2.x开始，RDD被降级为

Sun_Sherry·2023-04-03 08:27

工作中的一些错误解决记录

-19CDHOOZIEUI页面打不开：解决：把下载好的ext-2.2.zip拷贝到Oozie主机的/var/lib/oozie目录下运行命令unzipext-2.2.zip解压（没有包就下载）2)运行spark2

抱抱抱抱·2023-04-03 07:08

使用sbt编译打包，spark-submit命令提交的详细步骤

Spark2.1.0入门：Spark的安装和使用使用sbt打包Scala程序该程序依赖SparkAPI，因此我们需要通过sbt进行编译打包。请在.

GloomyHarbor·2023-04-02 10:45

Spark简介及运行架构

Spark学习网站建议从学习Spark官方文档开始：QuickStart-Spark2.1.1DocumentationSparkProgrammingGuide这里有对应的中译版：Spark官方文档－

一碗竹叶青·2023-04-02 02:28

「Spark 从精通到重新入门(一)」Spark 中不可不知的动态优化

我们Erda的FDP平台（FastDataPlatform）也从Spark2.4升级到Spark3.0

尔达 Erda·2023-03-31 09:54

spark读取elasticsearch数据报scala.collectino.GenTraversableOnce$class错解决办法

scala.collectino.GenTraversableOnce$class错解决办法spark读取elasticsearch数据报scala.collection.GenTraversableOnce$class错解决办法spark2.3

土哥呀·2023-03-31 01:09

Spark3每个job之间任务间隔过长

Spark3比CDH的hiveonspark2.4.0要快不少。AQE和CBO真的挺强的。但是使用中发现了一个很奇怪的事情。这个问题在网上搜过，并没有实际解决。

黑眼圈@~@·2023-03-30 02:28

iceberg-Spark3.0SQL 测试案例

点击下载spark2.4和spark3的驱动包。

黑眼圈@~@·2023-03-30 02:57

spark 内存管理机制与相关参数调优

spark内存管理文章目录spark内存管理spark1.6内存管理机制spark2.0内存管理机制spark3.3.1官方文档spark内存相关参数调优spark1.6内存管理机制https://0x0fff.com

nefu-ljw·2023-03-29 15:39

spark读取Jdbc数据

testorg.example1.0-SNAPSHOT4.0.0spark2.3.32.11.122.11org.scala-langscala-library${scala.version}org.apache.sparkspark-sql

qzWsong·2023-03-29 15:35

Spark2：运行架构

Spark2：运行架构一、运行架构1.概念2.运行流程整体流程注意事项二、Spark集群模式三、执行组件1.RDD2.Scheduler3.Storage4.Shuffle5.与Hadoop的区别参考一

是Yu欸·2023-03-29 00:42

spark消费kafka(cdh启用kerberos)

不生产博客，只是别人博客的裁缝一入kerberos深似海，从此节操是个玩意儿之前写过一篇spark消费kafka问题记录(cdh5.16.2)，主要记录了安装spark2后，spark的问题，和本地可以执行

hadoop程序猿·2023-03-28 22:10

【大数据基础】2020年美国新冠肺炎疫情数据分析

https://dblab.xmu.edu.cn/blog/2738https://dblab.xmu.edu.cn/blog/2636/spark安装安装Spark2.4.0sudotar-zxf~/

仿生程序员会梦见电子羊吗·2023-03-28 18:24

spark dataframe 如何保存到本地

在Spark2.x里面，可以直接使用以下命令df.write.format("csv").save(filepath)

zy_now·2023-03-28 06:00

Spark的部署脚本解读

ApacheSparkisafastandgeneral-purposeclustercomputingsystem.以下分析的是Spark2.3.0版本。

一ke大白菜·2023-03-25 18:13

springboot mybatis和spark-sql、SDB对接

spark-sql的整合，通过hive-sql实现spark的鉴权和权限控制，并能够通过springboot、mybatis访问spark查询SequoiaDB中的数据，具体部署环境为下：jdk1.8spark2.1

YauChungYin·2023-03-22 12:02

Spark2.11 + Scala2.11.8环境搭建

标题虽然说是搭建，实际只是想记录下搭建过程中遇到的两个问题。首先在本地创建Scala项目。环境搭建：首先通过IntelliJIDEA建立Scala项目（前提是已经安装了Scala），NewProject->Maven->Createfromarchtype->org.scala-tools.archetypes-archetype-simpleimage.png这是需要选择Scala的版本，我使用

橋声·2023-03-21 06:54

spark2-submit参数及调优

[1]本文以spark2.3.0版本(onYARN)为主，可以移步spark2.3.0官方了解更多。你可以通过：spark2-submit--help来查看详细的参数配置说明。

南宋临安府·2023-03-20 00:39

Spark2.x精通：TaskScheduler的Task任务提交源码剖析

问题或建议，请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助，欢迎转发朋友圈从微信公众号拷贝过来，格式有些错乱，建议直接去公众号阅读接上篇文章:Spark2.x精通:Job触发流程源码深度剖析（

大数据开发运维架构·2023-03-19 18:04

Spark介绍

Spark是2009年诞生，2014年成为Apache项目，2016年发布了Spark2.0，2019年10月Spark3.0预览版，2020年6月18日Spark3.0正式版发布Spark是一个大数据领域的统一分析引擎

ssttIsme·2023-03-18 04:20

pyspark系列3-spark核心之RDD介绍

文章目录一.RDD概念1.1RDD的特点1.2RDD的核心属性二.操作RDD2.1PySpark介绍2.2PySpark环境配置2.3PySpark使用2.3.1初始化Spark2.3.2初始化RDD2.3.3RDD

只是甲·2023-03-15 12:42

pyspark--报错java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CALLBACK_HOST解决

环境Python3.5.2Pyspark2.4.2hadoop-2.6.0spark-2.2.0-bin-hadoop2.6.tgz运行spark本地报错：解决安装对应版本pysparkpipintsallpyspark

我心依依旧·2023-03-15 12:33

Spark2.1和2.2 SQL物理执行策略关键源码分析

1.文章开始之前先附上一句SQL，使用tpc-ds的表结构，我们围绕这句SQL讲。SQL：SQL>selectavg(cs_ext_discount_amt)fromcatalog_sales,date_dimwhered_datebetween'1999-02-22'andcast('1999-05-22'asdate)andd_date_sk=cs_sold_date_skgroupbycs_

orisonchan·2023-03-15 08:15

hadoop2.9.1+spark2.3字数统计java实例集群运行（idea）

一搭环境Hadoop2.9.2+spark2.3参考https://blog.csdn.net/qazwsxpcm/article/details/78937820二实例运行1打开idea,file-new-project

葡萄超好吃·2023-03-15 07:50

Spark3.0分布，Structured Streaming UI登场

imageSpark3.0主要的新特性如下：相比于Spark2.4，性能提升了2倍，主要体现在自适应查询执行，动态分区修剪

大数据流动·2023-03-14 10:19

Hadoop - SparkSQL

image.pngDataFrame->DataSetSpark2.0Codes:exportSPARK_MAJOR_VERSION=2frompyspark.sqlimportSparkSessionfrompyspark.sqlimportRowfrompyspark.sqlimportfunctionsdefloadMovieNames

Xiangyuan_Ren·2023-03-13 17:24

ImportError: No module named bson.int64问题排查

背景在基于hadoop集群的spark2环境中，使用python编写任务。groupByKeys后，对value进行处理的时候，处理函数fun需要一个参数。

slowrabbit·2023-03-12 14:24

Spark2.4.4安装配置

spark2.4.4分布式高可用HA配置conf/slaves配置node1node2node3node4conf/spark-env.sh配置#配置JDK安装位置JAVA_HOME=/usr/lib/

陈文瑜·2023-03-11 20:58

Apache Spark 统一内存管理模型详解（转）

一、前言本文将对Spark的内存管理模型进行分析，下面的分析全部是基于ApacheSpark2.2.1进行的。为了让下面的文章看起来不枯燥，不打算贴出代码层面的东西。

愤怒的谜团·2023-03-10 12:57

Carbondata1.3.1+Spark2.1.0+Hadoop2.7.3集成问题记录（持续更新）

一、版本问题目前官方虽说支持了spark2.2.1，下载git代码后编译完全是可以通过的，但是在使用过程会出现问题。

Jonathan丶Wei·2023-03-09 11:09

Spark相关的依赖冲突，后期持续更新总结

岁月的眸·2023-02-18 20:31

Delta Lake 平台化实践（离线篇)

本文是在DeltaLake0.4与Spark2.4集成、平台化过程中的一些实践与思考SQL支持DML背景deltalake0.4只支持以api的方式使用Delete/Update/MergeInto等DML

breeze_lsw·2023-02-07 12:07

sparkstreaming线程数小于2时出错！

当运行一个spark2.2.0官方文档的实例时，sparkstreaing出现如下错误：2019-04-1019:40:00WARNRandomBlockReplicationPolicy:66-Expecting1replicaswithonly0peer

时光如水_fe87·2023-02-06 13:18

spark 2.1 sort-based shuffle

所以在spark2.0之后remove了HashShuffle，开始只使用on-heap或off-heap的sort-based

Gilegamesh·2023-02-05 14:31

spark python 上传代码包_hue通过livy提交spark jar包python文件到spark

背景：集群中有hive、spark2，没有impala需求：通过hue访问hive以及提交spark任务现状：hue以及通过sentry实现了对hive的权限管理CDH5.15.1centos7.4livy

weixin_39927408·2023-02-02 14:58

Spark2.0机器学习系列之4：随机森林介绍、关键参数分析

概述随机森林是决策树的组合算法，基础是决策树，关于决策树和Spark2.0中的代码设计可以参考本人另外一篇博客：http://blog.csdn.net/qq_34531825/article/details

千寻千梦·2023-02-02 09:58

Spark-机器学习模型持久化

在即将发布的ApacheSpark2.0中将会提供机器学习模型持久化能力。

二当家的掌柜·2023-02-02 09:26

解决spark UI界面在虚拟机中可以访问，在主机无法访问

Date:2020/09/24Version:CentOS7，Spark2.2关闭虚拟机中的防火墙即可systemctlstopfirewalld.service避免下次开机再次出现这种情况，可以执行以下命令

pluo1717·2023-02-01 08:40

CDH 升级SPARK2 与问题

否则会发生你意想不到的惊喜你懂的开始：以下操作基于主节点：也就是CHDSERVER节点1，关闭集群，关闭CMS，关闭CDHAGENT与SERVER2，下载文件下载仓库：http://archive.cloudera.com/spark2

会长大的幸福_8bf9·2023-01-31 00:02

Kyuubi 解锁 Spark SQL on CDH 6

背景CDH最后一个免费版6.3.2发布一年有余，离线计算核心组件版本停在了Hadoop3.0.0，Hive2.1.1，Spark2.4.0。

517001e7cb6e·2023-01-28 19:10

Spark学习笔记

Date:2019/9/18Version:Spark2.1Source:网易云课堂-厦门大学林子雨老师主讲的《Spark编程基础(Scala版)》窄依赖宽依赖

pluo1717·2023-01-27 12:16

大数据--spark

在Spark1.x中，RDD是主要的应用程序编程接口(API)，但从Spark2.x开始，鼓励使用数据集API[3]，即使RDDAPI没有被弃用。[4][5]RDD技术仍然是Da

像影子追着光梦游_·2023-01-24 20:56

Spark2.2.0 + Scala2.13.0集群搭建

Spark使用了Hadoop的HDFS作为持久化存储层，因此安装Spark时，应先安装与Spark版本相对应的Hadoop。Spark计算框架以Scala语言开发，因此部署Spark首先需要安装Scala及JDK。Hadoop集群参考：ubuntu16+Hadoop2.7.3环境搭建（伪分布式），改为分布式集群JDK版本：1.8.0Scala版本：scala-2.13.0-M1spark版本：2.

sinat_34022298·2023-01-21 16:58

『pyspark』〇：spark的安装、配置和使用

1、PySpark安装配置操作系统：Ubuntu18.04,64位所需软件：Java8+,Python3.6.5,Scala2.13.1,spark2.4.8安装步骤：1.1安装Java8sudoapt-getupdatesudoapt-getinstallopenjdk

简之·2023-01-21 16:47

推荐频道

spark2