——Spark 第80页

Python快捷处理大数据：掌握PySpark的基本原理和应用

在众多分布式计算框架中，ApacheSpark是最受欢迎的之一，并且其Python版本——PySpark也备受青睐。

ZP1008yy·2023-09-20 05:47

Python中统计单词出现的次数，包含（PySpark方法）

'''思路：定义一个函数，使用open函数，将文本内容打开。定义一个空字典和空列表，进行循环及条件判断操作'''defcount_word(file_path):dict_data={}#定义一个空字典f=open(file_path,"r",encoding="UTF-8")list_data=f.read()list_data=list_data.split()#默认是空格为分隔符foriin

Jeff657·2023-09-20 05:16

spark3 spark-sql explain 命令的执行过程

1.SparkSQLDriver对于每个SQL语句，除了CommandFactory定义的，如dfs之外，都创建一个SparkSQLDriver对象，然后调用他的init方法和run方法。

houzhizhen·2023-09-20 05:45

[hive]搭建hive3.1.2hiveserver2高可用可hive metastore高可用

参考:Apachehive3.1.2从单机到高可用部署HiveServer2高可用Metastore高可用hiveonsparkhiveserver2webUI高可用集群启动脚本_薛定谔的猫不吃猫粮的博客

胖胖学编程·2023-09-20 05:34

简述sparkSQL中RDD、DataFrame、DataSet三者的区别与联系

1.RDD优点：编译时类型安全；编译时就能检查出类型错误；面向对象的编程风格；直接通过类名点的方式来操作数据缺点：序列化和反序列化的性能开销；无论是集群间的通信，还是IO操作都需要对对象的结构和数据进行序列化和反序列化；GC的性能开销，频繁的创建和销毁对象，势必会增加GC2.DataFrameDataFrame引入了schema和off-heapschema：RDD每一行的数据结构都是一样的，这个

scott_alpha·2023-09-20 04:32

Spark 常用算子详解（转换算子、行动算子、控制算子）

Spark简介Spark是专为大规模数据处理而设计的快速通用的计算引擎；Spark拥有HadoopMapReduce所具有的优点，但是运行速度却比MapReduce有很大的提升，特别是在数据挖掘、机器学习等需要迭代的领域可提升

SUSUR_28f6·2023-09-20 03:33

pyspark.sql.dataframe.DataFrame 怎么转pandas DataFrame

pyspark.sql.dataframe.DataFrame怎么转pandasDataFrame要将PySpark的pyspark.sql.dataframe.DataFrame转换为PandasDataFrame

jp_666·2023-09-20 00:25

基于Spark的K-means快速聚类算法的优化

Wzideng·2023-09-19 22:40

INFO org.apache.spark.scheduler.DAGScheduler: Missing parents: List(ShuffleMapStage 1)

Spark调度器（DAGScheduler）在提交任务之前，主动解决了这个问题，并提交了具有没有缺失父阶段的ShuffleMapStage1。

墨卿风竹·2023-09-19 20:24

spark的资源调整参数

–基础资源setspark.driver.memory=15g;setspark.driver.cores=3;setspark.driver.memoryOverhead=4096;setspark.executor.memory

墨卿风竹·2023-09-19 20:22

大数据-Spark-Spark开发高频面试题

一、spark的内存分布堆内内存：在这使用堆内内存的时候，如果我们设置了堆内内存2个g的话，读取的数据也是两个g，此时又来两个g的数据，这样就会产生OOM溢出，因为处理完两个g的数据，并不会马上进行GC

zhou_hao_yan·2023-09-19 19:46

Loki 日志系统分布式部署实践四 minio

Spark、TensorFlow都可以使用对象存储，它也可以作为HDFS的代替者。minio出品自一个有着多年网络文件系统开发经验的团队

kong62·2023-09-19 18:49

spark.read.option参数

参数解释sep默认是,指定单个字符分割字段和值encoding默认是uft-8通过给定的编码类型进行解码quote默认是“，其中分隔符可以是值的一部分，设置用于转义带引号的值的单个字符。如果您想关闭引号，则需要设置一个空字符串，而不是null。escape默认(\)设置单个字符用于在引号里面转义引号charToEscapeQuoteEscaping默认是转义字符（上面的escape）或者\0，当转

SYSU_BOND·2023-09-19 15:03

spark-sql sql on yarn --deploy-mode cluster 改造

前言众所周知，spark-sql不能提交到远端并且使用cluster进行部署：huangyichun@bigdata130023:~#spark-sql--masteryarn--deploy-modeclusterExceptioninthread"main"org.apache.spark.SparkException

青冬·2023-09-19 12:09

【Spark】PySpark DataFrame

1SparkSession执行环境入口2构建DataFrame2.1由rdd构建(StructType、StructField)2.2由pandas.DataFrame构建2.3由外部数据构建2.3.1text

rejudge·2023-09-19 12:09

【Spark】win10配置IDEA、saprk、hadoop和scala

我对这个效率不太满意，希望能快一点再快一点，这是学习Spark的前提。安装过程见：spark出pyspark了，可直接用python调用。但是我想接触下scala。所以先装scala试试。

请给我一脚·2023-09-19 12:07

实训笔记——Spark计算框架

实训笔记——Spark计算框架Spark计算框架一、Spark的概述二、Spark的特点三、Spark的安装部署（安装部署Spark的ClusterManager-资源调度管理器的）3.1本地安装--无资源管理器

cai-4·2023-09-19 10:19

AGV、RGV、四向车openTCS调度系统（五）openTCS WEB接口及扩展

接口使用spark-core包实现，

要这头发有何用··2023-09-19 08:41

Flink相关

墨滴社区用Flink取代SparkStreaming！

丢雷劳谋·2023-09-19 07:24

Hadoop+zookeeper+Flume+Spark+Kafka+Hbase大数据集群搭建

HadoopzookeeperFlumeSparkKafkaHbase大数据集群搭建教程集群搭建流程一、环境的准备和必要软件的下载下载并安装vmvare虚拟机软件下载centos7系统镜像文件，下载链接下载

jjjkkkhhhggg·2023-09-19 07:42

开源项目观察8月报

hue1月19:4.11https://docs.gethue.com/releases/release-notes-4.11.0/支持iceberg数据源通过缓存Livysession中的信息来加速SparkSQL

xiaoliizi·2023-09-19 07:59

Linux 的scp 指令提示：not a regular file

centos7下scp传文件时错误scp:/usr/local/spark/*:notaregularfile不能成功传送解决方案1：有可能没权限chmod7772:在使用scp时加上-r参数scp-

在奋斗的大道·2023-09-19 06:04

Spark 共享变量底层实现

Spark一个非常重要的特性就是共享变量。默认情况下，如果在一个算子的函数中使用到了某个外部的变量，那么这个变量的值会被拷贝到每个task中，此时每个task只能操作自己的那份变量副本。

Map_Reduce·2023-09-19 01:08

Flink与Spark的区别

三、Flink与Spark的区别3.1设计理念1、Spark的技术理念是使用微批来模拟流的计算,基于Micro-batch,数据流以时间为单位被切分为一个个批次,通过分布式数据集RDD进行批量处理,是一种伪实时

Coding路人王·2023-09-18 16:48

spark->es快速导入数据

elasticsearch-spark提供了saveToEsapi以支持快速导入数据。但es集群线程池有限，在大量写入数据的同时，对cpu的压力非常大，影响线上es的查询服务。

Entry_1·2023-09-18 15:56

Netty（二）NIO-入门

Netty入门1.概述1.1NettyNetty是一个异步的，基于事件驱动的网络应用框架，用于快速开发可维护，高性能的网络服务器和客户端Cassandra，Spark，Hadoop，RocketMQ，ElasticSearch

xy294636185·2023-09-18 11:43

Spark-Shell的启动与运行

Spark-Shell的启动与运行一、启动spark2.启动hadoop3.启动spark二、SparkRdd的简单操作1.从文件系统加载数据创建ADD（１）从Linux本地文件系统加载数据创建RDD—

LMY~~·2023-09-18 08:40

spark 数据倾斜优化总结

一、数据倾斜产生原因数据倾斜就是部分task承担了过多的计算任务，导致整个stage都被卡。可能产生数据倾斜的场景如下操作场景join其中一个表比较小，但key值少join大表与大表，但key值中存在过多的特殊值，如0或nulljoinon条件包含key值过滤逻辑，导致部分数据被保留，部分被过滤，最终节点分布不均join多对多关系表join导致数据膨胀groupby某个组合数量特别多countdi

BugAngel233·2023-09-18 08:37

spark源码阅读之executor模块③

本文基于Spark1.6.3源码，采用一步一步深入的方式来展开阅读，本文是为了纪录自己在阅读源码时候的思路，看完一遍真的很容易忘记，写一篇文章梳理一遍可以加深印象。

invincine·2023-09-18 06:21

【DAY11 思考题】开头拆解：北航404名在校生被退学，博士痛失50万年薪，教育部：学生对自己不负责，就要付出代价

【我的昵称】Spark/火花君【爆款文链接】https://mp.weixin.qq.com/s?

最终抚慰·2023-09-18 04:58

基于Spark环境对比Python和Scala语言利弊

在数据挖掘中，Python和Scala语言都是极受欢迎的，本文总结两种语言在Spark环境各自特点。

A尚学堂Nancy老师·2023-09-18 01:13

calcite适配器

calcite是一个动态数据管理框架，它提供了SQL解析与校验，SQL优化，jdbc接口等能力，并且能够支持对不同数据源的适配以及对SQL语法的扩展等，目前被广泛用于Spark,Flink等大数据引擎中

无醉_1866·2023-09-18 01:15

HDP服务器上spark-sql联通hive元数据库

问题描述：金山云大数据平台(基于HDP)服务器上跑批数据加工脚本时，发现当中通过spark-sql执行的脚本没有执行，提示没有找到数据库；新打session窗口测试，通过spark-sql连接yarn后

NightFall丶·2023-09-17 23:44

IDEA Windows下SPARK连接Hive

IDEAWindows下SPARK连接Hive文章目录IDEAWindows下SPARK连接Hive一、本地Windows环境配置二、IDEA项目配置1.POM配置2.资源文件配置3.测试验证一、本地Windows

NightFall丶·2023-09-17 23:44

基于hadoop生态圈的数据仓库实践 —— OLAP与数据可视化（二）

二、Hive、SparkSQL、Impala比较Hive、SparkSQL和Impala三种分布式SQL查询引擎都是SQL-on-Hadoop解决方案，但又各有特点。

xuzhichao1231·2023-09-17 19:33

Spark - SQL查询文件数据

那么我们可以利用spark-sql直接操作文件的特性处理这类的需求，姐姐再也不用担心我不会spark了，因为我就只会sql。使用方法csvspark.sql("select*fromcsv.

大猪大猪·2023-09-17 19:17

Spark对比MapReduce究竟提高了多少效率？

后起之秀Spark得益于其在迭代计算和内存计算上的优势，可以自动调度复杂的计算任务，避免中间结果的磁盘读写和资源申请过程，非常适合数据挖掘算法。腾讯TDWSpark平台基于社区最

丨程序之道丨·2023-09-17 19:28

【Flink实战系列】Flink如何提交任务到远程的集群

spark在本地提交到远程的yarn集群上可以看这篇文章https://mp.weixin.qq.com/s/Rwz5uAI-TfnTBpppsMTfBgFlink提供了远程提交的环境createRemoteEnvironment

JasonLee实时计算·2023-09-17 17:39

任务流调度工具AirFlow

知识点01：课程目标AirFlow介绍【了解】功能、特点架构角色、安装部署AirFlow使用【掌握】核心：调度脚本【Python|Shell】定时调度：LinuxCrontab表达式邮件告警：配置回顾Spark

黑马程序员官方·2023-09-17 17:23

11.Spark Core-Spark运行原理

本文主要分以下章节：一、Spark专业术语定义二、Spark的任务提交机制一、Spark专业术语定义1、Application：Spark应用程序指的是用户编写的Spark应用程序，包含了Driver功能代码和分布在集群中多个节点上运行的

__元昊__·2023-09-17 16:24

2020-03-17

spark学习笔记centos安装OracleVirtualBox:$sudoyuminstallkernel-develkernel-headersmakepatchgcc$sudowgethttps

陆寒晨·2023-09-17 16:12

Iceberg实战踩坑指南

目录第1章介绍第2章构建Iceberg第3章Spark操作3.1.配置参数和jar包3.2Sparksql操作3.2.1overwrite操作3.2.2动态覆盖3.2.3静态覆盖3.2.4删除数据3.2.5

数据与后端架构提升之路·2023-09-17 14:35

Day69 Kafka 设计原理详解

Storm/Spark流式处理引擎web/nginx，访问日志消息服务开放统一接口给consumerhadoop,hbase等.装载到hadoop,数仓etl做离线分析和数据挖掘.ScreenShot2022

小周爱吃瓜·2023-09-17 12:39

安装Python第三方库

numpy库，科学计算领域Django库，web开发领域pandas库，数据分析领域pyspark库，大数据领域等等…形成了Python的强大“生态

java1234_小锋·2023-09-17 11:17

Apache Spark 的基本概念和在大数据分析中的应用

ApacheSpark是一个基于内存的分布式计算系统，可用于大规模数据处理、数据分析和机器学习。

指引拟态没·2023-09-17 10:42

Spark - 直接操作数据源 MySQL

答案就是使用spark的计算能力的，我们可以将mysql数据源接入到spark中。

大猪大猪·2023-09-17 10:16

（三十一）大数据实战——一键式DolphinScheduler高可用工作流任务调度系统部署安装

DolphinScheduler支持多种任务类型，包括Shell、SQL、Spark、Python、Sub-Process、HTTP、Flink等，同时也支持用户自定义任务类型。本节内容我

北溟溟·2023-09-17 10:12

推荐频道

——Spark