——Spark 第68页

Big Data Tools完整攻略，一键连接Hadoop

BigDataTools完整攻略安装BigDataTools连HDFS连Hadoop连Spark写HDFS程序安装BigDataTools打开idea选择插件在Marketplace里面输入BigDataTools

轻夏·2023-10-14 02:50

Hadoop-HA-Hive-on-Spark 4台虚拟机安装配置文件

Hadoop-HA-Hive-on-Spark4台虚拟机安装配置文件版本号步骤hadoopcore-site.xmlhdfs-site.xmlmapred-site.xmlslavesworkersyarn-site.xmlhivehive-site.xmlspark-defaults.confsparkhdfs-site.xmlhive-site.xmlslavesyarn-site.xmlsp

轻夏·2023-10-14 02:13

走进Spark

什么是Spark是一个基于内存的，用于大规模数据处理（离线计算、实时计算、快速查询（交互式查询））的统一分析引擎，因为是基于内存的所以可以更快的完成任务离线计算:离线计算一般存储在HDFS中使用MapReduce

、小H·2023-10-14 01:52

Flink笔记02——单词计数wc和集群部署

第一个Flink代码相信学过MRSpark的同学编写的第一个程序都是单词计数wordcount，同理这里南国也是以单词计数作为开始。

提灯寻梦在南国·2023-10-14 00:54

Flink on K8s 在京东的持续优化实践

在2017年左右，我们实时计算是多个引擎并存的，包括Storm、SparkStreaming以及正在引入的新一代计算引擎Flink，其中St

pucheung·2023-10-14 00:53

大数据 | Spark on K8S 在有赞的实践

转载自公众号：有赞Coder；原文链接：https://mp.weixin.qq.com/s/dcymNAco7P4IzuXA4pHezg一、前言随着近几年业务快速发展与迭代，大数据的成本也水涨船高，如何优化成本，建设低成本高效率的底层服务成为了有赞数据基础平台2020年的主旋律。本文主要介绍了随着云原生时代的到来，经历7年发展的有赞离线计算平台如何拥抱云原生，通过容器化改造、弹性伸缩、大数据组件

xyzhang2018·2023-10-14 00:21

flink的架构原理常用代码实现

文章目录1.1什么是flink1.2flink特点1.3编程API二flink架构2.1架构图2.2含义三flink和其他框架对比3.1与spark角色对比3.2三大实时计算框架整体对比四flink环境搭建

清风竹雨·2023-10-14 00:49

Spark 名词解释

程序外名词Application：应用程序应用程序就是用户编写的代码打包之后的jar包和相关的依赖Application=Driver+Executor(分布在集群中多个节点)Driver部分的代码:SparkConf

他与理想国·2023-10-14 00:07

pycharm配置远程调试_重点

20221122打开服务器文件浏览器20220826经过堡垒机，也可以ide远程调试只需要管理员把ssh的新增一个端口，不用被堡垒机管控的端口20220718idea连接spark和hive20210923pycharm

weixin_ry5219775·2023-10-13 23:02

pip使用阿里云源加快安装

global]trusted-host=mirrors.aliyun.comindex-url=https://mirrors.aliyun.com/pypi/simple测试pipinstallpyspark

行走于无形之中·2023-10-13 22:18

Spark sql analyzer 过程解析

sparksql为何要进行analyzer？

莱布尼茨不会求导·2023-10-13 16:13

pyspark常用算子总结

jp_666·2023-10-13 16:13

SparkStreaming

大纲1.SparkStreaming介绍2.SparkStreaming原理与架构3.DStream介绍4.DStream相关操作5.DStream操作实战6.DStream操作实战7.DStreams

c062197eecd2·2023-10-13 15:30

sparkSQL1.1入门

http://blog.csdn.net/book_mmicky/article/details/392887152014年9月11日，Spark1.1.0忽然之间发布。

laiwenqiang·2023-10-13 15:36

基于CentOS7、Hadoop2.7.7搭建Spark2.4.7、Zookeeper3.6.3并开启spark高可用模式

一.概述1.spark的三种部署模式1.1SparkonYARNSparkonYarn模式就是将Spark应用程序跑在Yarn集群之上，通过Yarn资源调度将executor启动在container中，

sirLateautumn·2023-10-13 15:56

spark参数调优

Spark在生成执行计划时会进行谓词下推的优化，对于内连接而言，过滤条件写在join中或者join后并没

wuli玉shell·2023-10-13 14:53

spark中的shuffle简述那些会导致shuffle的算子

shuffle操作说白了就是重分区操作在ApacheSpark中，任务之间的依赖关系主要分为两类：宽依赖（WideDependency）和窄依赖（NarrowDependency）。

电光火石尔·2023-10-13 14:19

spark中使用flatmap报错：TypeError: ‘int‘ object is not subscriptable

1、背景描述菜鸟笔者在运行下面代码时发生了报错：frompysparkimportSparkContextsc=SparkContext("local","apple1012")rdd=sc.parallelize

电光火石尔·2023-10-13 14:19

Spark工作流程

Spark的整个工作流程可以概括为以下步骤：创建SparkSession：应用程序首先需要创建一个SparkSession对象，它是与Spark的交互入口。

Young_IT·2023-10-13 14:46

Spark RDD简记

RDD概述1.什么是RDDRDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。

Young_IT·2023-10-13 14:45

spark读取hive表字段，区分大小写问题

背景spark任务读取hive表，查询字段为小写，但Hive表字段为大写，无法读取数据问题错误:如何解决呢？

MrZhangBaby·2023-10-13 14:44

Spark 的主要组件及任务分工

Spark是一个开源的分布式计算框架，旨在处理大规模数据集的快速计算和分析。

Young_IT·2023-10-13 14:12

PySpark 概述

PySpark是ApacheSpark的PythonAPI。它使您能够使用Python在分布式环境中执行实时、大规模的数据处理。它还提供了一个PySpar

菜鸟Octopus·2023-10-13 11:03

计算机毕业设计之Python+Spark疫情大屏可视化疫情爬虫可视化疫情数据分析大数据毕业设计

开发技术前端：vue.jsechartswebsocket后端API：springboot+spark+mybatis数据库：mysql爬虫：pythonchrome_driver创新点Spark大屏Python

计算机毕业设计大神·2023-10-13 11:08

Spark性能优化-资源调优

Spark性能优化分为四个方面：1、开发调优2、资源调优3、数据倾斜调优4、shuffle调优资源调优num-executors参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行

Edison_Tu·2023-10-13 10:44

8.Spark Sql

定义SparkSql是ApacheSpark大数据框架的一部分，主要用于处理结构化数据和对Spark数据执行类sql的查询，Spark为其提供了一个称为DataFrame的编程抽象，充当分布式sql查询引擎功能集成

山间浓雾有路灯·2023-10-13 09:46

Spark Hive 小文件合并

对于下游流程下游流程，不论是MR、Hive还是Spark，在划分分片（getSplits）的时候，都要从NN获取文件信息。这个过程的耗时与文件数成正比，同时受NN压力的影响。

longlovefilm·2023-10-13 08:26

Spark大数据平台

ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。

Hi~晴天大圣·2023-10-13 05:16

spark history网络流量占用高问题记录

生产环境遇到一台机器网络流量占用高告警由于监控只有机器总的网络流量，没有具体进程的于是只能登陆服务器，安装nethogs：yuminstallnethogs然后执行nethogs命令查看进程流量观察到主要是sparkhistoryserver

Java小田·2023-10-13 05:46

spark 读取hive事务表

参考链接：spark通过JDBC读取hive事务表https://github.com/Gowthamsb12/BigData-Blogs/blob/master/Spark_ACIDimportorg.apache.spark.sql.jdbc.JdbcDialectobjectHiveDialectextendsJdbcDialect

Java小田·2023-10-13 05:44

AllSpark火种链测评：不是Steem，高于Steem 原创内容确权，传播，价值变现的未来世界？

火种链官网：www.allsparkchain.com火种链项目简介：AllSpark火种链是一个基于Wanchain底层独立开发的一条行业公链，目的是打造“一个开放的内容网络”（引号

AllSpark社区·2023-10-13 03:28

spark sql parse 过程

sparksqlparse引擎ANTLR(ANotherToolforLanguageRecognition)，kudu、presto、hive都是用ANTLR解析sql语句。

莱布尼茨不会求导·2023-10-13 03:57

centos spark单机版伪分布式模式

Spark的部署方式包括Standalone、YARN、Mesos，在我们学习Spark编程的过程中，往往机器资源有限，于是可以采用伪分布式部署。

printf200·2023-10-13 03:32

zeppelin-0.7.3与spark2.3, hive, hbase配置

1.安装1.1下载页面会提供两种二进制包：zeppelin-0.7.3-bin-netinst.tgz默认只会提供Spark的Interpreterzeppelin-0.7.3-bin-all.tgz会提供各种各样的

尼小摩·2023-10-13 01:33

spark2.4.3源码分析-Master、Worker启动

image.png1.Master源码分析1.查看${SPARK_HOME}/sbin/start-master.sh启动脚本启动的是org.apache.spark.deploy.maste

LancerLin_LX·2023-10-13 00:29

CoT 的方式使用 LLM 设计测试用例实践

前期准备importSparkApiimportosfromdotenvimportload_dotenv,find_dotenv#以下密钥信息从控制台获取_=load_dotenv(find_dotenv

CrissChan·2023-10-13 00:45

一文理清Apache Spark内存管理脉络

Spark作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理，有助于更好地开发Spark应用程序和进行性能调优。

weixin_34228387·2023-10-12 23:07

一文带你理清Spark Core调优的方方面面

前言本文的注意事项观看本文前，可以先百度搜索一下Spark程序的十大开发原则看看哦文章虽然很长，可并不是什么枯燥乏味的内容，而且都是面试时的干货（我觉得）可以结合PC端的目录食用，可以直接跳转到你想要的那部分内容图非常的重要

ZYQZXF·2023-10-12 23:58

PythonRDD[1] at RDD at PythonRDD.scala:53

运行spark程序时出现以下错误PythonRDD[1]atRDDatPythonRDD.scala:53解决方法原程序代码:frompysparkimportSparkConf,SparkContextconf

阿龙的代码在报错·2023-10-12 21:07

RDD编程初级实践（基于python）

RDD编程初级实践（基于python）1.实验目的2.实验环境3.实验数据3.1pyspark交互式编程（实验描述）3.2编写独立应用程序实现数据去重（实验描述）3.3编写独立应用程序实现求平均值问题（

不想掉头发啊！！·2023-10-12 21:36

RDD（python

RDD创建从文件系统加载.textFile()支持本地文件系统分布式文件系统HDFS云端文件>>lines=sc.textFile("file:///usr/local/spark/mycode/rdd

KwokWyman·2023-10-12 21:01

spark driver 的功能是什么

1）一个Spark作业运行时包括一个Driver进程，也是作业的主进程，具有main函数，并且有SparkContext的实例，是程序的人口点；2）功能：负责向集群申请资源，向master注册信息，负责了作业的调度

浪漫の土狗·2023-10-12 20:22

Spark的Driver和Executor端代码划分

1.Driver、Executor端区分packagesparkStreamimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.streaming.dstream.ReceiverInputDStreamimportorg.apache.spark.streaming

qwerdf@QAQ·2023-10-12 20:52

Spark中的Driver

转自:http://www.jobplus.com.cn/article/getArticleDetail/30566spark的四种分布式运行模式如图所示，上方为spark的架构图，spark的组件可以分为四个部分

风是外衣衣衣·2023-10-12 20:21

Spark中Driver和Executor的个人理解

最近在学习spark，里面存在很多的概念，比较抽象。在这里说下个人对Spark中Driver和Executor的理解。

ShinonBo·2023-10-12 20:21

对Spark中Driver的小研究

先说结论：1.Standalone模式中：client模式下，driver是spark-submit进程中开启的一个线程，然后通过反射执行driver代码的main方法。

程研板·2023-10-12 20:17

Spark 源码（6） - 任务提交之 Driver 启动流程

一、Master处理Driver注册消息上次阅读到客户端发送了一个RequestSubmitDriver消息给Master，Master收到消息后开始处理。在Master类中搜索caseRequestSubmitDriver，可以看到具体的处理逻辑：首先创建了一个DriverInfo:valdriver=createDriver(description)newDriverInfo(now,newD

KK架构·2023-10-12 20:46

Spark的driver理解和executor理解

Driver:Driver即运行Application的main()函数，并且创建SparkContext，创建SparkContext的目的是为了准备Spark应用程序的运行环境，在Spark中由SparkContext

一个大数据小菜鸟·2023-10-12 20:16

Spark的Driver节点和Executor节点

1．驱动器节点(Driver)Spark的驱动器是执行开发程序中的main方法的进程。它负责开发人员编写的用来创建SparkContext、创建RDD，以及进行RDD的转化操作和行动操作代码的执行。

郎er·2023-10-12 20:44

推荐频道

——Spark