——Spark 第65页

Spark on Hive 和 Hive on Spark的区别与实现

1）SparkonHiveSparkonHive是Hive只作为存储角色，Spark负责sql解析优化，执行。

Alex_81D·2023-10-19 02:53

Hive引擎MR、Tez、Spark

Hive引擎包括：默认MR、Tez、Spark不更换引擎hive默认的就是MR。MapReduce：是一种编程模型，用于大规模数据集（大于1TB）的并行运算。

西奥斯·2023-10-19 02:23

hadoop+spark 整合

zookeeper安装zookeeper3.4.6安装spark高可用安装完成spark高可用安装hadoop安装hadoop安装整合hadoop+spark配置spark+hadoopHADOOP_CONF_DIR

葡小萄家的猫·2023-10-19 01:46

pyspark 对xgboost操作记录（待续）

1、连接pyspark，配置xgboostpyspark版的xgboost下载链接链接:https://pan.baidu.com/s/15_4Fr6lZCVzxqp9eZ239LA提取码:9gs8里面的三个文件都放在此脚本的同级目录下

平原2018·2023-10-19 00:33

星火大模型简单 http api 服务端搭建

使用nginx搭建星火认知大模型http服务：https://github.com/xukeawsl/Spark_Http_Service

不太聪明的样子·2023-10-18 23:33

spark在window上运行出现:java.io.IOException: (null) entry in command string: null chmod 0644

window上运行spark程序出现java.io.IOException:(null)entryincommandstring:nullchmod0644解决方法：下载hadoop.dll文件，拷贝到

仔仔H·2023-10-18 23:45

三、Flink常用的转换算子

Flink常用转换算子常用转换算子类型一、基本转换算子1、map2、filter3、flatMap二、键控流转换算子1、keyBy：分组聚合，类似spark的groupByKey算子，将相同的key存到同一个分区中

末名赶上·2023-10-18 21:20

windows 中 tree 命令的使用

.├─4BI│└─data├─4Cassandra│└─data├─4MySQL│└─data├─4Spark│└─data├─4Tomcat│├─data│└─scripts│├─scripts

GZMetrics·2023-10-18 21:45

spark application job自定义日志输出

前言spark默认采用log4j作为日志框架，并且采用${SPARK_HOME}/conf/log4j.properties作为默认的日志配置，默认如下：log4j.rootLogger=${root.logger

凡尔Issac·2023-10-18 18:30

Python利用boto3以及Pyspark操作AWS S3

文章目录一、需求背景二、PysparkS3的读写1.Pyspark读取hive表数据写入s3:2.Pyspark读取s3数据写入hive表:三、Boto3读写s3上的文件1.Boto3读写2.其他用法Reference

建微知筑·2023-10-18 17:56

Flink SQL 时区

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料95篇原创内容公众号TIMESTAMPvsTIMESTAMP_LTZTIMESTAMP类型TIMESTAMP

hyunbar·2023-10-18 17:38

数据分析小结：使用流计算 Oceanus(Flink) SQL 作业进行数据类型转换

将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程（即ETL过程），则需要开发人员则需要掌握Spark、Flink等技能，使用的技术语言则是Java、Sc

腾讯云大数据·2023-10-18 17:38

Spark集群运行xgboost4j-spark总结

最近搞了2个周的xgboost4j-spark，整个人都不好了！太难了！下面说说自己遇到的主要问题吧，希望对刚开始使用xgboost4j-spark的朋友有一定的帮助。

泉水豆花儿·2023-10-18 16:16

2021-10-02

今天是国庆的第二天，按照昨天的计划做了很多事，如下：1.安装hadoop环境2.安装spark环境，并使用sparkcontxt的readFile读取文件，使用了dataset的filter，map，count

Sophie12138·2023-10-18 14:23

SparkStreaming 如何整合 Kafka

Kafka回顾核心概念图解Broker：安装Kafka服务的机器就是一个brokerimageProducer：消息的生产者，负责将数据写入到broker中(push)Consumer：消息的消费者，负责从kafka中拉取数据(pull)，老版本的消费者需要依赖zk，新版本的不需要Topic:主题，相当于是数据的一个分类，不同topic存放不同业务的数据–主题:区分业务Replication：副本

染墨安然·2023-10-18 14:20

ubuntu16.04 spark连接hadoop配置

1.spark配置historyserver2.hadoop配置yarn3.hadoop添加配置cd/usr/share/hadoop/hadoop-2.7.7/etc/hadoop配置yarn-site.xmlsudovimyarn-site.xmlyarn.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-service

WJXZ·2023-10-18 13:05

Hive 中级练习题（40题待更新）

前言最近快一周没更了，主要原因是最近在忙另一件事情（关于JavaFX桌面软件开发），眼看大三上一半时间就要过去了，抓紧先学Hive，完了把Spark剩下的补了，还有Kafka、Flume，任务还是不少的

让线程再跑一会·2023-10-18 11:04

基于内存的分布式NoSQL数据库Redis(五)数据存储与RDB设计

Spark的RDD数据怎么保证安全性？解决磁盘存储：数据存储在硬盘上特点：容量大、安全性高、读写速度上相对不如内存解决：副本备份内存存储

大模型Maynor·2023-10-18 10:24

关于SparkRdd和SparkSql的几个指标统计，scala语言，打包上传到spark集群，yarn模式运行

需求：❖要求:分别用SparkRDD,SparkSQL两种编程方式完成下列数据分析,结合webUI监控比较性能优劣并给出结果的合理化解释.1、分别统计用户，性别，职业的个数：2、查看统计年龄分布情况（按照年龄分段为

宇文智·2023-10-18 09:58

SparkSql中多个Stage的并发执行

写一篇水水的技术文，总结一下sparksql中不同stage的并行执行相关，也是来自于一位群友的提问：我们群里有很多技术很棒并且很热心的大佬，哈哈~Hive中Job并发执行hive中，同一sql里，如果涉及到多个

小萝卜算子·2023-10-18 07:59

【Spark】RDD执行原理

目录什么是RDD执行原理1)启动Yarn集群环境2)Spark通过申请资源创建调度节点和计算节点3)Spark框架根据需求将计算逻辑根据分区划分成不同的任务4)调度节点将任务根据计算节点状态发送到对应的计算节点进行计算什么是

sdbhewfoqi·2023-10-18 07:58

Spark核心概念（一）

1.什么是分布式计算分布式程序：Mapreduce，Spark程序1）多进程：一个程序由多个进程共同实现，不同进程可以运行在不同的机器上2）每个进程负责计算的数据是不一样的，都是整体数据的某一部分分布式资源

在上树的路上·2023-10-18 07:57

Spark 核心原理

文章目录1.Spark核心原理2.消息通信原理2.1.Spark运行时消息通信2.2.作业执行原理2.2.1.总述2.2.2.提交Job2.2.3.划分stage2.2.4.提交stage2.2.5.提交

SunnyZ-L·2023-10-18 07:56

[ Spark ] Spark核心概念

Spark概述1.SparkorHadoop?Hadoop的MapReduce和Spark同为计算框架,使用时如何选择?

bone_ds·2023-10-18 07:25

Spark核心理解(一)

一基本术语Application:基于Spark的用用户程序,包含了Driver程序和集群上的Executor.DriverProgram:运行行main函数并且新建SparkContext的程序.ClusterManager

远方yf·2023-10-18 07:54

Spark工作原理及基础概念（超详细！）

目录一、Spark概述（1）概述（2）Spark整体架构（3）Spark特性（4）Spark与MR（5）SparkStreaming与Storm（6）SparkSQL与Hive二、Spark基本原理（1

bhegi_seg·2023-10-18 07:21

关于Spark中的多任务并发处理(Concurrency)

文章目录Spark中的多任务处理一个顺序作业的例子一个有缺陷的并发作业的例子一个优化过的并发作业的例子参考资料Spark中的多任务处理Spark的一个非常常见的用例是并行运行许多作业。

abc33880238·2023-10-18 07:21

【Spark基础】Spark核心模块组成与功能概述

Spark基于SparkCore开发了多种组件。开发人员可以基于这些组件，轻松完成多种不同场景的计算任务。

小强不吃菜·2023-10-18 07:20

Spark学习(二)---Spark运行架构和核心概念

1.Spark运行架构Spark框架的核心是一个计算引擎，它采用了master-slave的结构。图形中的Driver表示master，负责管理整个集群中的作业任务调度。

肥大毛·2023-10-18 07:50

pyspark读取hdfs文件并导入到hive中

01.创建对象,设定日志级别frompyspark.sqlimportSparkSessionspark=SparkSession.builder.config("spark.driver.host",

Gadaite·2023-10-18 07:31

java 从 HDFS 读取数据到本地文件

场景描述算法模型是java代码使用spark-submityarncluster运行的，输出结果存储在了HDFS上，可能因为数据结构比较复杂吧，所以没有选择将结果存储在hive表中。

骑着蜗牛向前跑·2023-10-18 07:31

Spark SQL连接获取MySQL、Hive、HDFS上的数据

本篇所有操作在Idea上完成SparkToMySQL首先要在pom.xml中添加依赖包(根据的自己的使用的版本修改，不清楚的可以去maven官网查找自己对应版本的代码)，对项目创建不清楚的可以：点击这里

菜鸟也学大数据·2023-10-18 07:58

CDH5.15 安装spark2 ，启动报错，求解

[root@hadoop1csd]#spark2-shellExceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop

秦记·2023-10-18 05:37

Spark多维分析去重计数场景优化案例【BitMap精确去重的应用与踩坑】

关注交流微信公众号：小满锅场景前几天遇到一个任务，从前也没太注意过这个任务，但是经常破9点了，执行时长正常也就2个小时。看逻辑并不复杂，基本是几段SQL的JOIN操作，其中一个最耗时间的就是要根据底表数据Lateralviewexplode(array(字段,‘all’))，一共lateral了4个字段，相当于数据量要扩大16倍。并且可怕的场景，lateralview之后还对11个字段进行了去重。

小满锅lock·2023-10-18 04:05

海豚调度器初次使用 .......

二，先说说调用spark运行wordcount案例流程1，编写代码packagecom.sjb.exampleimportorg.apache.log4j.Loggerimportorg.apache.spark.rdd.RDDimportorg.apache.spark

黄瓜炖啤酒鸭·2023-10-18 01:45

Seatunnel源码解析(4) - 启动Spark/Flink程序

Seatunnel源码解析(4)-启动Spark/Flink程序需求公司在使用Seatunnel的过程中，规划将Seatunnel集成在平台中，提供可视化操作。

張不惑·2023-10-18 01:13

Seatunnel

Seatunnel源码解析(6)-Web接口启动Seatunnel2022-04-1309:07:15【張不惑】Seatunnel源码解析(6)-SparkLauncher启动SeatunnelSpark

moooooze·2023-10-18 01:12

Spark

1.Spark概述1.1什么是Spark回顾：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

不吃香菜lw·2023-10-18 01:28

Hadoop on docker

一、这只是一个步骤说明，旨在教大家怎么在docker上搭建hadoop集群以及附着于hadoop的其他环境（hive,pig,hbase,spark……）。

帅哥家的猫·2023-10-18 00:39

安装centOS7报未知错误

U盘安装由于鼓捣Hadoop和Spark，使用U盘刻录方式安装CentOS7.1，但是发现安装初始化时候发生错误，本以为是U盘刻录或者是镜像的问题，但是反复刻录多遍仍然出错。

半度、·2023-10-17 19:00

Spark常用算子

转换算子value类型算子名称作用Map映射a->bflatMap扁平化[[a,b],[c,d]]->[a,b,c,d]，二维变一维groupBy分组[1,2,3,4]->[[1,3],[2,4]]，一维变二维filter过滤[1,2,3,4]->[2,4]符合条件进入，不符合去掉distinct去重[1,1,2,2]->[1,2]去重过程中存在shufflesortBy排序[1,3，2]->[1

十七✧ᐦ̤·2023-10-17 19:46

Apache Spark 的基本概念和在大数据分析中的应用

ApacheSpark是一种快速、分布式的计算引擎，具有高度的可扩展性，能够以高效的方式处理大规模数据集。它是基于内存的计算框架，比传统的基于磁盘的HadoopMapReduce框架要快得多。

Roc-xb·2023-10-17 19:38

记录一次hdfs存储异常

bash_operator.py:123}INFO-22/03/0209:54:52INFOstorage.BlockManagerInfo:Addedbroadcast_1_piece0inmemoryonhadoop-spark2

叫兽吃橙子·2023-10-17 17:15

SpringBoot整合IOTDB 基于SessionPool实现CRUD

它具有体量轻、性能高、易使用的特点，完美对接Hadoop与Spark生态，适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。

宁漂打工仔·2023-10-17 15:47

2023_Spark_实验十六：编写LoggerLevel方法及getLocalSparkSession方法

一、搭建Spark项目结构在SparkProject模块的pom.xml文件中增加一下依赖，并等待依赖包下载完毕，如上图。

pblh123·2023-10-17 13:36

【12】opencv图形绘制

参考：opencv——绘制图像（直线、矩形、椭圆、圆、填充）与文字_Spark！

MrMKG·2023-10-17 13:32

测试PySpark

这篇文章旨在帮你写出健壮的pyspark代码。在这里，通过它写pyspark单元测试，看这个代码通过PySparkbuilt，下载该目录代码，查看JIRA

菜鸟Octopus·2023-10-17 13:53

Spark+smile项目（一）：各种初探，包括文件读写，Bug解决等。

在IDEA构建了一个spark+smile的maven项目，用起来还是有各种bug。继续记录。

bensonrachel·2023-10-17 12:32

Spark SQL访问Hive表数据

前提：Hive的元数据保存在MySQL中Hive配置文件hive-site.xml内容如下：javax.jdo.option.ConnectionURLjdbc:mysql://hadoop000:3306/hadoop_hive?createDatabaseIfNotExist=truejavax.jdo.option.ConnectionDriverNamecom.mysql.jdbc.Dri

温文尔雅的流氓·2023-10-17 10:24

sparklinux服务器日志信息,启动 Spark 历史记录服务器 - AWS Glue

启动Spark历史记录服务器您可以使用在EC2实例上托管服务器的AWSCloudFormation模板启动Spark历史记录服务器，也可以使用Docker在本地启动Spark历史记录服务器。

苗舰舰·2023-10-17 10:20

推荐频道

——Spark