Spark安装部署第16页

spark 内核源码剖析七：Work工作原理

driverDesc)=>{logInfo(s"Askedtolaunchdriver$driverId")valdriver=newDriverRunner(conf,driverId,workDir,sparkHome

雪飘千里·2024-01-28 18:08

Centos/RHEL 7 安装部署openGauss 5.0 企业版一主二备一级联操作指南

前言：写此文章的目的主要是感觉openGauss官网对企业版集群安装部署描述有些冗杂，对于初次接触openGauss的朋友可能会有点复杂，所以希望能编写一篇5.0的安装部署文档，希望对openGuass

openGauss社区·2024-01-28 18:19

极简pyspark

PySpark简要介绍PySpark是一个基于Spark的Python接口，它允许你在Python中使用Spark的强大功能，如大数据处理、实时数据处理等。

吉小雨·2024-01-28 18:13

MySQL安装部署-集群版

MySQL支持主从复制策略，本文主要描述读写分离集群的安装部署。

wangys2006·2024-01-28 18:08

centos，rocky安装部署guacamole

安装部署guacamole部署的环境是Rocky9.3版本，部署的guacamole的版本是1.5.4一、Rocky下载对应的工具安装对应的开发环境建议一条一条命令执行sudoyuminstallepel-release-ysudorpm

By Error·2024-01-28 17:49

pyspark在windows下java.net.SocketException: Connection reset by peer 错误

pyspark在windows加载数据集训练模型出现以下错误java.net.SocketException:Connectionresetbypeer:socketwriteerroratjava.net.SocketOutputStream.socketWrite0

walk walk·2024-01-28 15:49

spark-streaming与kafka的整合

1.概述在2.x中，spark有两个用来与kafka整合的代码，版本代号为0.8和0.10，由于在0.8，kafka有两套消费者api，根据高级api得到了Receiver-basedApproach，

王大为学习笔记·2024-01-28 14:47

[SparkSQL] Rdd转化DataFrame 通过StructType为字段添加Schema

1、开发环境spark-2.1.0-bin-hadoop2.62、Rdd转换成DataFrame，为字段添加列信息参数nullable说明：Indicatesifvaluesofthisfieldcanbenullvaluesvalschema

林沐之森·2024-01-28 13:51

[AIGC大数据基础] Spark 入门

其中，Spark作为一个快速、通用的大数据处理引擎备受关注。本文将从“是什么、怎么用、为什么用”三个角度来介绍Spark。

程序员三木·2024-01-28 12:32

Impala-shell卡顿分析——记一次曲折的Debug经历

Impala-shell卡顿分析——记一次曲折的Debug经历问题发现最近准备在Impala中增加对UTF-8的支持，以修正跟Hive、Spark等基于Java的系统在UTF-8字符串上的不兼容表现（如

stiga-huang·2024-01-28 12:06

Impala元数据简介

Impala元数据简介背景Impala是一个高性能的OLAP查询引擎，与其它SQL-on-Hadoop的ROLAP解决方案如Presto、SparkSQL等不同的是，Impala对元数据（Metadata

stiga-huang·2024-01-28 12:05

Spark:Task Locality参考

DatalocalitycanhaveamajorimpactontheperformanceofSparkjobs.Ifdataandthecodethatoperatesonitaretogetherthencomputationtendstobefast.Butifcodeanddataareseparated

liuzx32·2024-01-28 12:38

Spark 的宽依赖和窄依赖

ApacheSpark中的依赖关系指的是转换操作（transformations）之间的依赖类型。这些依赖关系决定了任务是如何在集群上分布执行的。

小湘西·2024-01-28 08:52

Spark——Spark SQL逻辑计划（Logical Plan）、物理计划（Physical Plan）和Catalyst优化器（Catalyst Optimizer）

文章目录TreesRulesSparkSQL中使用CatalystAnalysis逻辑优化（LogicalOptimizations）物理计划（PhysicalPlanning）代码生成（CodeGeneration

Southwest-·2024-01-28 08:18

Spark——Spark覆盖分区表中指定的分区

问题描述Spark中向分区表写数据的时候，如果写入模式为“overwrite”，那会将整个表覆盖掉；如果写入模式为“ap

Southwest-·2024-01-28 08:18

Spark——Spark OOM Error问题汇总分析

.广播了大变量Executor端OOMError1.低效的查询2.不合适的Driver端和Executor端内存3.不合适的YARNContainer内存4.内存中缓存大量数据5.不合适任务并行度参考Spark

Southwest-·2024-01-28 08:17

Spark——Spark写MySQL太慢、很慢、非常慢的原因分析及优化方法

文章目录问题背景原因分析解决方法参考问题背景有这样一个业务场景：需要将通过Spark处理之后的数据写入MySQL，并在在网页端进行可视化输出。

Southwest-·2024-01-28 08:17

Spark——Spark/Hive向量化查询执行原理分析（Vectorization Query Execution）

文章目录什么是向量化查询执行列式存储Spark向量化查询执行Hive向量化查询执行参考什么是向量化查询执行在标准的查询执行系统中，每次只处理一行数据，每次处理都要走过较长的代码路径和元数据解释，从而导致

Southwest-·2024-01-28 08:47

Spark——Spark缓存临时视图（View）

文章目录RDD/Dataset缓存复用纯SQL结果缓存复用RDD/Dataset缓存复用我们知道在使用RDD和DatasetAPI开发Spark应用程序的时候，如果要缓存某个RDD或Dataset来进行复用

Southwest-·2024-01-28 08:47

Spark——Spark DataFrame导出为Excel文件

文章目录问题背景实现1.Maven依赖2.代码实现3.参数详解1.'sheet_name'!B3:C35。2.sheet_name[#All]参考问题背景有时候我们在进行一些表的计算之后，会生成一些指标，需要导出来给其它同事用，虽说可以将DataFrame直接写成表，然后通过工具(比如Hue)导出为Excel，但是步骤就多了，而且如果要导出的表比较多的话，就更浪费时间了，那么这时候调用第三方插件就

Southwest-·2024-01-28 08:17

Spark —— JSON对象/数组转成Spark Dataset/DataFrame

JSON转DataFrame在日常使用Spark处理数据时,半结构化的JSON数据(JSONObject,JSONArray)可能是最常见的一种数据结构，那么能熟练并快速地处理JSON格式数据应该是数据开发人员的必备技能

Southwest-·2024-01-28 08:16

Spark——Spark读写MongoDB

文章目录Spark直连MongoDB1.通过SparkConf2.通过ReadConfig3.通过DataFrameReaderHive中创建映射表mongoexport导出文件参考如果我们要想通过Spark

Southwest-·2024-01-28 08:46

Spark——Spark读写Greenplum/Greenplum-Spark Connector高速写Greenplum

文章目录问题背景解决方式代码实现Spark写GreenplumSpark读Greenplum参考问题背景通过数据平台上的DataX把Hive表数据同步至Greenplum（因为DataX原生不支持GreenplumWriter

Southwest-·2024-01-28 08:42

debian aptget php7,Debian7使用apt-get源安装LNMP

Debian7官方源添加了php-fpm软件包，现可通过apt-get快速安装部署LNMP环境了。

祁了个画·2024-01-28 07:40

Hive之set参数大全-18

指定在执行Spark上的动态分区裁剪时，用于评估分区数据大小的最大限制在Hive中，hive.spark.dynamic.partition.pruning.max.data.size是一个配置参数，用于指定在执行

OnePandas·2024-01-28 07:33

hive面试题

本质上是将SQL转换为MapReduce或者spark来进行计算，数据是存储在hdfs上，简单理解来说hive就是MapReduce的一个客户端工具。补充1：你可以说一下HQL转换为MR的任务流程吗？

韩顺平的小迷弟·2024-01-28 07:29

大数据——Flink 知识点整理

目录1.Flink的特点2.Flink和SparkStreaming的对比3.Flink和Blink、Alink之间的关系4.JobManager和TaskManager的职责5.Flink集群部署有哪些模式

Vicky_Tang·2024-01-28 06:17

Kafka的安装部署、基本操作、集群环境

1、Kafka的安装部署下载kafkakafka_2.11-2.0.0.tgz安装过程安装过程非常简单，只需要解压就行，因为这个是编译好之后的可执行程序tar-zxvfkafka_2.11-2.0.0.

有梦想的虫子_2018·2024-01-28 01:46

部署LNMP、Nginx+FastCGI、Nginx地址重写语法，地址重写应用案例

1案例1：部署LNMP环境1.1问题安装部署LNMP环境实现动态网站解析静态网站在不同环境下访问，网站内容不会变化动态网站在不同环境下访问，网站内容有可能发生变化安装部署Nginx、MariaDB、PHP

Mick方·2024-01-28 01:58

Apache Spark架构与特点

1.背景介绍ApacheSpark是一个开源的大数据处理框架，由AMLLabs公司开发，后被Apache软件基金会所支持。

OpenChat·2024-01-27 23:35

Spark-core

什么是SparkSpark是基于内存的快速，通用，可扩展的大数据分析引擎Spark的内置模块SparkCore是Spark可以离线处理的部分，实现了spark的基本功能，包含任务调度，错误恢复，与存储系统交互等模块

luckboy0000·2024-01-27 23:12

独家解读 | 滴滴机器学习平台架构演进之路

所谓大同是指大家所要处理的问题都相似，技术架构和选型也差不太多，比如都会使用GPU集群、采用Spark或K8s平台等。

csdn产品小助手·2024-01-27 19:18

小程序如何安装部署SSL证书

小程序安装部署SSL证书的必要性，对于小程序而言目前已经是强制安装部署SSL证书了，从2017年年底开始，对于小程序的审核步骤添加了一个服务器端必须部署SSL证书，即实现服务器加密传输https。

JoySSL-云诏·2024-01-27 17:00

apache 前30个开源项目

高性能Web服务器提供HTTP服务支持非常活跃2ApacheTomcatJava应用服务器部署JavaWeb应用程序非常活跃3ApacheHadoop分布式存储和计算框架大数据处理非常活跃4ApacheSpark

临水逸·2024-01-27 17:35

【云原生进阶之PaaS中间件】第三章Kafka-2-安装部署

1安装部署1.1kafka的分布式kafka是依靠zookeeper来实现分布式的，所以再启动前需要先启动zookeeper，如下图1.2集群部署官方下载地址：ApacheKafka（1）安装和Hadoop

江中散人·2024-01-27 16:16

Spring Cloud组件

NamingandConfigurationService）：服务发现、管理、配置2.Springcloud常用组件2.1注册中心nacos注册中心分为客户端和服务端，它们之间存在心跳，客户端停止，服务端会报错客户端：可直接在docker中安装部署服务端

一路向北看星晴·2024-01-27 16:59

ansible自动化运维安装部署实践-部署、搭建、模块、playbook

运维⾃动化平台介绍运维⾃动化平台是由管理机器和业务机器组成的。管理机器：任务定制及发布；业务机器：接收任务并执⾏任务。运维⾃动化平台的优势：1、⼀次性任务定制：任务⼀次性发布给所有机器2、节省任务执⾏时间：任务主机并发完成任务，节省部署时间3、错误率低：避免重复，保证⼀次任务定制准确即可1、ansible特性1.noagents：不需要在被管控主机上安装任何客户端；2.noserver：⽆服务器端

情绪零碎碎·2024-01-27 15:31

如何使用irsa将火花提交给亚马逊eks集群

Inpreviousarticle,IhaveintroducedhowwesubmitaSparkjobtoanEKScluster.Aslongaswe’reusingotherAWScomponentsforourpipelinestointeract

weixin_26755331·2024-01-27 15:26

EKS【k8s】集群使用helm部署 jumpServer

、环境要求Kubernetes1.20+Helm3.0redis>=6.2mysql>=5.7【也可以使用MariaDB但是版本必须>=10.6】jumpserver版本:v3.10.1【社区版】二、安装部署

干运维小白·2024-01-27 15:24

K8s 安装部署-Master和Minion(Node)文档

K8s安装部署-Master和Minion(Node)文档操作系统版本：CentOS7.4Master：172.20.26.167Minion-1：172.20.26.198Minion-2：172.20.26.210

lqcbj_IT老混混·2024-01-27 15:17

Pyspark分类--LogisticRegression

LogisticRegression：逻辑回归分类classpyspark.ml.classification.LogisticRegression(featuresCol=‘features’,labelCol

Gadaite·2024-01-27 14:53

搭建大数据平台常用的端口号

journalnode默认的端口号9000：非高可用访问数rpc端口8020：高可用访问数据rpc8088：yarn的webUI的端口号8080：master的webUI，Tomcat的端口号7077：spark

修勾勾L·2024-01-27 13:51

Spark连接Hive的两种方式

一、使用hive-site.xml第一步：将集群中的hive-site.xml的内容复制出来，并放在idea项目的resources下，要求文件命名为：hive-site.xmldatanucleus.schema.autoCreateAlltruejavax.jdo.option.ConnectionURLjdbc:mysql://192.168.38.160:3306/hive_db?crea

修勾勾L·2024-01-27 13:50

项目中常用的utils

importcryptofrom'crypto'importSparkMD5from'spark-md5'importCryptoJsfrom'crypto-js'importJSEncryptfrom'jsencrypt'importstoragefrom

乐夫天命兮·2024-01-27 13:05

flume+kafka+SparkStreaming+mysql+ssm+高德地图热力图项目

第一步、编写python脚本，产生模拟数据#coding=UTF-8importrandomimporttimephone=["13869555210","18542360152","15422556663","18852487210","13993584664","18754366522","15222436542","13369568452","13893556666","1536669855

printf200·2024-01-27 12:24

GitBook在Linux下安装部署，安装nodejs、Gitbook使用

gitbook安装升级步骤先安装nodjs下载nodejswgethttp://cdn.npm.taobao.org/dist/node/v10.16.0/node-v10.16.0-linux-x64.tar.xz如果提示-bash:wget:commandnotfound说明没有wget没有wget的下载wgetyum-yinstallwget解压tar-xvfnode-v10.16.0-li

EraJieZhang·2024-01-27 11:15

【Scala-spark.mlib】分布式矩阵——分布式计算的基石与利器

分布式矩阵1.mlib.linalg.distributed包2.DistributedMatrix特质3.BlockMatrix类4.CoordinateMatrix类5.IndexedRowMatrix类6.RowMatrix类7.小结1.mlib.linalg.distributed包矩阵计算是很多科学计算的重要步骤，而分布式矩阵存储则是分布式计算的基础。根据不同的计算需求，需要将用于计

JimmyShis·2024-01-27 10:12

Linux之堡垒机的安装部署

目录一、Linux安装启动1.上传安装包到/opt下2.解压缩3.在解压的目录下运用脚本自动安装#默认回车就行4.安装完成5.启动二、堡垒机页面部署1.浏览器访问//初始化用户：admin密码：admin修改密码admin123重新登陆2.初始化用户：admin密码：admin修改密码admin123重新登陆3.初始化界面4.先创建一个组，写一个组名即可5.设置邮件6.添加一个用户7.堡垒机添加一

Atmj·2024-01-27 10:41

Zabbix5.0安装部署

目录一、zabbix-server安装部署1、准备工作2、安装mysql3、mysql部署4、导入数据5、启动服务二、zabbix-agent安装部署1、准备客户机2、关联客户机3、给客户机设置监控项4

Atmj·2024-01-27 10:41

Hadoop 原理及架构详解

bilibili一、基础概念1、版本架构变迁2、集群简介主要包括两个集群：HDFS、YARN（MapReduce是计算框架，是代码层面的）这两个集群逻辑上分离，物理上在一起这两个集群都是标准的主从架构二、安装部署

Should·L·2024-01-27 09:25

推荐频道

Spark安装部署

spark 内核源码剖析七：Work工作原理

Centos/RHEL 7 安装部署openGauss 5.0 企业版 一主二备一级联操作指南

极简pyspark

MySQL安装部署-集群版

centos，rocky安装部署guacamole

pyspark在windows下java.net.SocketException: Connection reset by peer 错误

spark-streaming与kafka的整合

[SparkSQL] Rdd转化DataFrame 通过StructType为字段添加Schema

[AIGC大数据基础] Spark 入门

Impala-shell卡顿分析——记一次曲折的Debug经历

Impala元数据简介

Spark:Task Locality参考

Spark 的宽依赖和窄依赖

Spark——Spark SQL逻辑计划（Logical Plan）、物理计划（Physical Plan）和Catalyst优化器（Catalyst Optimizer）

Spark——Spark覆盖分区表中指定的分区

Spark——Spark OOM Error问题汇总分析

Spark——Spark写MySQL太慢、很慢、非常慢的原因分析及优化方法

Spark——Spark/Hive向量化查询执行原理分析（Vectorization Query Execution）

Spark——Spark缓存临时视图（View）

Spark——Spark DataFrame导出为Excel文件

Spark —— JSON对象/数组转成Spark Dataset/DataFrame

Spark——Spark读写MongoDB

Spark——Spark读写Greenplum/Greenplum-Spark Connector高速写Greenplum

debian aptget php7,Debian7使用apt-get源安装LNMP

Hive之set参数大全-18

hive面试题

大数据——Flink 知识点整理

Kafka的安装部署、基本操作、集群环境

部署LNMP、Nginx+FastCGI、Nginx地址重写语法，地址重写应用案例

Apache Spark架构与特点

Spark-core

独家解读 | 滴滴机器学习平台架构演进之路

小程序如何安装部署SSL证书

apache 前30个开源项目

【云原生进阶之PaaS中间件】第三章Kafka-2-安装部署

Spring Cloud组件

ansible自动化运维安装部署实践-部署、搭建、模块、playbook

如何使用irsa将火花提交给亚马逊eks集群

EKS【k8s】集群使用helm部署 jumpServer

K8s 安装部署-Master和Minion(Node)文档

Pyspark分类--LogisticRegression

搭建大数据平台常用的端口号

Spark连接Hive的两种方式

项目中常用的utils

flume+kafka+SparkStreaming+mysql+ssm+高德地图热力图项目

GitBook在Linux下安装部署，安装nodejs、Gitbook使用

【Scala-spark.mlib】分布式矩阵——分布式计算的基石与利器

Linux之堡垒机的安装部署

Zabbix5.0安装部署

Hadoop 原理及架构详解

Centos/RHEL 7 安装部署openGauss 5.0 企业版一主二备一级联操作指南