spark生态圈第22页

【scala】编译build报错 “xxx is not an enclosing class“

private[sources]valcreationTimeMs:Long={valsession=SparkSession.getActiveSession.orElse(SparkSession.getDefaultSession

lisacumt·2024-01-12 09:07

Spark避坑系列（三）（Spark Core-RDD 依赖关系&持久化&共享变量）

garagong·2024-01-12 09:13

Black Hole Alliance发展蓝图：从数字化到生态建设

以强大的技术及社区为依托，确立了"区块链+生态产业+AI与Web3融合"的底层架构，将区块链技术与全球生态产业有机融合，以价值交换网络为切入点及立足点，链接金融、未来科技、链游等诸多应用场景，构建全球万亿级智能产业链共赢生态圈

Joker时代·2024-01-12 08:04

Spark - 直接操作数据源 MySQL

答案就是使用spark的计算能力的，我们可以将mysql数据源接入到spark中。

kikiki2·2024-01-12 07:49

ESG投资系列之三：全球监管与信息披露概览

从早期的责任投资到现在的ESG投资，ESG所倡导的可持续发展的投资理念早已经从欧美走向全球，并形成了完整的ESG生态圈。

Libby博士的职场理想·2024-01-12 07:47

Spark指令参数，RDD--学习笔记

1，Spark的指令参数参数对spark所有指令都有效Spark指令参数#表示引用运行的模式，要么是本地local要么是集群（Standalone、YARN、Mesos）了--masterMASTER_URL

祈愿lucky·2024-01-12 07:05

Spark基础

Spark基础建库一定要指定字符集，错了好多次了pip卸载某个模块pipuninstallpandas--下载其它的改掉pandas即可pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn

中长跑路上crush·2024-01-12 07:33

Spark on Hive及 Spark SQL的运行机制

SparkonHive集成原理HiveServer2的主要作用:接收SQL语句，进行语法检查；解析SQL语句；优化；将SQL转变成MapReduce程序，提交到Yarn集群上运行SparkSQL与Hive

小希 fighting·2024-01-12 07:56

Spark SQL基础

SparkSQL基本介绍什么是SparkSQLSparkSQL是Spark多种组件中其中一个,主要是用于处理大规模的结构化数据什么是结构化数据:一份数据,每一行都有固定的列,每一列的类型都是一致的我们将这样的数据称为结构化的数据例如

小希 fighting·2024-01-12 07:55

Spark六：Spark 底层执行原理SparkContext、DAG、TaskScheduler

Spark底层执行原理学习Spark运行流程学习链接：https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ一、Spark运行流程流程：SparkContext

eight_Jessen·2024-01-12 07:19

Spark九：Spark调优之Shuffle调优

Sparkshuffle调优方法map端和reduce端缓存大小设置，reduce端重试次数和等待时间间隔，以及bypass设置学习资料：https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ

eight_Jessen·2024-01-12 07:19

pyspark 使用udf 进行预测，发现只起了一个计算节点

PySparkUDF只使用一个计算节点的问题原因分析默认的并行度设置PySpark在执行UDF（用户定义函数）时，默认可能不会利用所有可用的计算节点。

samoyan·2024-01-12 07:18

Spark: 检查数据倾斜的方法以及解决方法总结

1.使用SparkUISparkUI提供了一个可视化的方式来监控和调试Spark作业。你可以通过检查各个Stage的任务执行时间和数据大小来判断是否存在数据倾斜。

samoyan·2024-01-12 07:18

Spark SQL进阶

小希 fighting·2024-01-12 07:44

Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive

说明Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive完全分布式高可用集群搭建下载https://archive.apache.org/dist/我最终选择Zookeeper3.7.1

nsa65223·2024-01-12 06:08

Structured Streaming 官方例子

packageohmysummerimportjava.sql.Timestampimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.streaming

焉知非鱼·2024-01-12 02:08

错位竞争：与其更好不如不同

一、模型定义：错位竞争指的是一是找到自己的生态圈，确定自己的位置，这个位置是相对圈内头部腰部而言的，也就是要先了解在位企业，要从各个环节拆分它；二是竞争。

飘皓宇·2024-01-12 01:30

Spark完全分布式集群搭建

环境准备服务器集群我用的CentOS-6.6版本的4个虚拟机，主机名为hadoop01、hadoop02、hadoop03、hadoop04，另外我会使用hadoop用户搭建集群(生产环境中root用户不是可以任意使用的)spark

小猪Harry·2024-01-12 00:41

pyspark config设置、增加配置、限制_success文件生成；spark-submit 集群提交参数

1、pyspark增加config设置javaheap错误增加内存spark=(SparkSession.builder.config("spark.hadoop.hive.exec.dynamic.partition

loong_XL·2024-01-11 18:00

香港Web3：Web3的新热土

香港的金融科技生态圈为Web3项目提供了丰

TechubNews·2024-01-11 17:50

《PySpark大数据分析实战》-27.数据可视化图表Pyecharts介绍

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2024-01-11 16:21

AI绘画Midjourney绘画提示词Prompt大全，各种风格大全

一、Midjourney绘画工具SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统，支持OpenAI-GPT全模型+国内AI全模型。

白云如幻·2024-01-11 10:48

Spark---RDD序列化

文章目录1什么是序列化2.RDD中的闭包检查3.Kryo序列化框架1什么是序列化序列化是指将对象的状态信息转换为可以存储或传输的形式的过程。在序列化期间，对象将其当前状态写入到临时或持久性存储区。以后，可以通过从存储区中读取或反序列化对象的状态，重新创建该对象。2.RDD中的闭包检查从计算的角度,算子以外的代码都是在Driver端执行，算子里面的代码都是在Executor端执行。那么在scala的

肥大毛·2024-01-11 07:33

Spark---行动算子RDD

1.1reduce1.2collect1.3first1.4count1.5take1.6takeOrdered1.7aggregate1.8fold1.9countByKey1.10countByValue1.11save相关算子1.12foreach1.行动算子Spark

肥大毛·2024-01-11 07:03

晴山ぺ·2024-01-11 07:29

Spark SQL基础

一.Pandas简介1、基本介绍Pandas是Python的一个第三方包，也是商业和工程领域最流行的结构化数据工具集，用于数据清洗、处理以及分析Pandas和SparkSQL中很多功能都类似，甚至使用方法都是相同的

MSJ3917·2024-01-11 07:29

Spark八：Spark性能优化

Spark性能调优Spark调优的方法，包括RDD使用、文件读取，partition学习资料：https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ一、Spark

eight_Jessen·2024-01-11 07:29

spark基础--学习笔记

1spark介绍1.1spark概念ApacheSpark是专为大规模数据处理而设计的快速通用的分布式计算引擎，是开源的类HadoopMapReduce的通用分布式计算框架。

祈愿lucky·2024-01-11 07:58

Python 与 PySpark数据分析实战指南：解锁数据洞见

Python和PySpark作为强大的工具，提供了丰富的库和功能，使得数据分析变得更加高效和灵活。

海拥✘·2024-01-11 07:58

新格局：区块链行业冰点新生态应运而生

No.1货币兑换在整个生态圈中，Netc可以与其他法币兑换实现内部功能性流通。No.2交易场所钱包只托管私钥与钱包地址，用户数字资产所有交易记录均在链上完成。No.3分

一度传媒·2024-01-11 07:29

hive sql 和 spark sql的区别

HiveSQL和SparkSQL都是用于在大数据环境中处理结构化数据的工具，但它们有一些关键的区别：底层计算引擎：HiveSQL：Hive是建立在Hadoop生态系统之上的，使用MapReduce作为底层计算引擎

深度学习研究员·2024-01-11 07:08

2024.1.10 SparkSQL ,函数分类, Spark on HIVE,底层执行流程

目录一.开窗函数二.SparkSQL函数定义1.HIVE_SQL用户自定义函数2.Spark原生UDF3.pandasUDF4.pandasUDAF三.SparkonHIVE四.SparkSQL的执行流程一

白白的wj·2024-01-11 07:08

spark分布式解压工具

spark分布式解压工具文章目录spark分布式解压工具一、目标二、详细设计三、操作说明1.提交模式2.压缩输出路径支持2种方式3.操作命令及说明3.1操作命令3.2命令说明四、操作案例4.1案例1一、

侠客刀·2024-01-11 06:56

初探Spark SQL catalog缓存机制

先说结论：SparkSQLcatalog中对表结构的缓存一般不会自动更新。实验如下：在pg中新建一张表t1，其中只有一列c1int在SparkSQL中注册这张表，并从中查询数据.

archimekai·2024-01-11 06:54

【Kafka-3.x-教程】-【六】Kafka 外部系统集成【Flume、Flink、SpringBoot、Spark】

【Kafka-3.x-教程】专栏：【Kafka-3.x-教程】-【一】Kafka概述、Kafka快速入门【Kafka-3.x-教程】-【二】Kafka-生产者-Producer【Kafka-3.x-教程】-【三】Kafka-Broker、Kafka-Kraft【Kafka-3.x-教程】-【四】Kafka-消费者-Consumer【Kafka-3.x-教程】-【五】Kafka-监控-Eagle【K

bmyyyyyy·2024-01-11 06:50

使用Springboot+websocket+kafka模拟实时数据传输

Springboot+websocket+kafka模拟实时数据传输环境准备数据源读取WebSocket服务器网页启动使用Springboot+websocket+kafka模拟实时数据传输环境准备环境：本地Spark

叶梦璃愁·2024-01-11 06:36

AI股票崩盘预测模型(企业建模_论文科研)ML model for stock crash prediction

对齐颗粒度，打通股票崩盘底层逻辑，形成一套组合拳，形成信用评级机制良性生态圈，重振股市信心！--中国股市新展望！ByToby！

python机器学习建模·2024-01-11 04:26

Hadoop与Spark：大数据处理框架的比较与选择

Hadoop与Spark：大数据处理框架的比较与选择在大数据的时代背景下，数据处理和分析的需求日益增长。

乌龙饼干·2024-01-11 01:14

Phoenix基本使用

1.2Phoenix特点容易集成：如Spark，Hive，Pig，Flume和MapReduce。

有语忆语·2024-01-10 22:30

81、Spark Streaming之DStream以及基本工作原理

SparkStreaming简介SparkStreaming是SparkCoreAPI的一种扩展，它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。

ZFH__ZJ·2024-01-10 20:43

第三章 Sharding-JDBC入门

1、ShardingSphere生态简介ApacheShardingSphere是一套开源的分布式数据库解决方案组成的生态圈，核心由：JDBC、Proxy和Sidecar（规划中）这3款既能够独立部署，

敲代码的翠花·2024-01-10 20:37

讯飞版大模型来了，现场发布四大行业应用成果

文章目录人工智能福利文章前言SparkDesk讯飞星火认知大模型简介语言理解知识问答逻辑推理数学题解答代码理解与编写亲自体验写在最后✍创作者：全栈弄潮儿个人主页：全栈弄潮儿的个人主页️个人社区，欢迎你的加入

全栈弄潮儿²⁰²⁴·2024-01-10 19:10

Spark - 升级版数据源JDBC2

>在spark的数据源中，只支持Append,Overwrite,ErrorIfExists,Ignore,这几种模式，但是我们在线上的业务几乎全是需要upsert功能的，就是已存在的数据肯定不能覆盖，

kikiki5·2024-01-10 17:53

基于JavaWeb+BS架构+SpringBoot+Vue+Spark的共享单车数据存储系统的设计和实现

基于JavaWeb+BS架构+SpringBoot+Vue+Spark的共享单车数据存储系统的设计和实现文末获取源码Lun文目录前言主要技术系统设计功能截图订阅经典源码专栏Java项目精品实战案例《500

FREE技术·2024-01-10 16:56

SparkCore阶段练习

阶段练习查看数据集格式明确需求明确步骤读取文件抽取需要的列以年月为基础，进行reduceByKey统计Dongsi地区的PM排序获取结果编码拷贝数据集data.rar（已上传资源——SparkCore阶段练习数据集

我像影子一样·2024-01-10 16:44

RDD算子——概念及部分操作

RDD的算子分类特点Spark中所有的Transformations是Lazy(惰性)的，它们不会立即执行获得结果，相反，它们只会记录在数据集上要应用的操作.只有当需要返回结果给Driver时，才会执行这些操作

我像影子一样·2024-01-10 15:06

《PySpark大数据分析实战》-26.数据可视化图表Seaborn介绍

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2024-01-10 14:58

Spark Core--加强

主要作用:提升Spark程序的计算效率注意事项:RDD的缓存可以存储在内存或者是磁盘上，甚至可以存储在Executor进程的堆外内存中。主要是放在内存中，因此缓存的数据是不太稳定可靠。

小希 fighting·2024-01-10 14:06

Apache Doris (六十三）： Spark Doris Connector - (3)-配置型及列映射关系

个人主页：IT贫道-CSDN博客私聊博主：私聊博主加WX好友，获取更多资料哦~博主个人B栈地址：豹哥教你学编程的个人空间-豹哥教你学编程个人主页-哔哩哔哩视频目录1.Spark操作Doris配置项

IT贫道·2024-01-10 14:35

Spark避坑系列一（基础知识）

garagong·2024-01-10 14:04

推荐频道

spark生态圈

【scala】编译build报错 “xxx is not an enclosing class“

Spark避坑系列（三）（Spark Core-RDD 依赖关系&持久化&共享变量）

Black Hole Alliance发展蓝图：从数字化到生态建设

Spark - 直接操作数据源 MySQL

ESG投资系列之三：全球监管与信息披露概览

Spark指令参数，RDD--学习笔记

Spark基础

Spark on Hive及 Spark SQL的运行机制

Spark SQL基础

Spark六：Spark 底层执行原理SparkContext、DAG、TaskScheduler

Spark九：Spark调优之Shuffle调优

pyspark 使用udf 进行预测，发现只起了一个计算节点

Spark: 检查数据倾斜的方法以及解决方法总结

Spark SQL进阶

Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive

Structured Streaming 官方例子

错位竞争：与其更好不如不同

Spark完全分布式集群搭建

pyspark config设置、增加配置、限制_success文件生成；spark-submit 集群提交参数

香港Web3：Web3的新热土

《PySpark大数据分析实战》-27.数据可视化图表Pyecharts介绍

AI绘画Midjourney绘画提示词Prompt大全，各种风格大全

Spark---RDD序列化

Spark---行动算子RDD

spark相关

Spark SQL基础

Spark八：Spark性能优化

spark基础--学习笔记

Python 与 PySpark数据分析实战指南：解锁数据洞见

新格局：区块链行业冰点 新生态应运而生

hive sql 和 spark sql的区别

2024.1.10 SparkSQL ,函数分类, Spark on HIVE,底层执行流程

spark分布式解压工具

初探Spark SQL catalog缓存机制

【Kafka-3.x-教程】-【六】Kafka 外部系统集成 【Flume、Flink、SpringBoot、Spark】

使用Springboot+websocket+kafka模拟实时数据传输

AI股票崩盘预测模型(企业建模_论文科研)ML model for stock crash prediction

Hadoop与Spark：大数据处理框架的比较与选择

Phoenix基本使用

81、Spark Streaming之DStream以及基本工作原理

第三章 Sharding-JDBC入门

讯飞版大模型来了，现场发布四大行业应用成果

Spark - 升级版数据源JDBC2

基于JavaWeb+BS架构+SpringBoot+Vue+Spark的共享单车数据存储系统的设计和实现

SparkCore阶段练习

RDD算子——概念及部分操作

《PySpark大数据分析实战》-26.数据可视化图表Seaborn介绍

Spark Core--加强

Apache Doris (六十三）： Spark Doris Connector - (3)-配置型及列映射关系

Spark避坑系列一（基础知识）

新格局：区块链行业冰点新生态应运而生

【Kafka-3.x-教程】-【六】Kafka 外部系统集成【Flume、Flink、SpringBoot、Spark】