spark生态圈第20页

PySpark Structured Streaming kafka示例

PySparkStructuredStreamingkafka示例直接上代码：#!

张行之·2024-01-16 07:52

Structured Streaming配置Kafka参数

overridedefstream():DataFrame={valkafkaConf=newKafkaConfigurationvalspark=GxSparkSession().session()valdf

sunyang098·2024-01-16 07:18

Structured_Streaming和Kafka整合

结构化编程模型输出终端/位置默认情况下，Spark的结构化流支持多种输出方案：1-consolesink:将结果数据输出到控制台。

小希 fighting·2024-01-16 06:14

seatunnel 消费kafka数据写入clickhouse

SeaTunnel是一个非常易用、高性能、支持实时流式和离线批处理的海量数据集成平台，架构于ApacheSpark和ApacheFlink之上，支持海量数据的实时同步与转换。

冰帆<·2024-01-16 05:41

大数据技术原理与应用第三版林子雨期末复习（五）第十章 SPARK

大数据技术原理与应用第三版林子雨期末复习（五）第十章SPARK简介spark特点spark与Hadoop对比Hadoop缺点spark优点RDDRDD概念RDD间存在依赖关系分为宽依赖与窄依赖RDD的两种常用操作简介

头发多多，肆意生长·2024-01-16 05:22

Spark - 资源动态释放

>通过spark-submit会固定占用一占的资源，有什么办法，在任务不运作的时候将资源释放，让其它任务使用呢，yarn新版本默认已经支持了，我们使用的是HDP。##版本如下!

kikiki4·2024-01-16 03:58

Spark MLlib ----- ALS算法

补充在谈ALS（AlternatingLeastSquares）之前首先来谈谈LS，即最小二乘法。LS算法是ALS的基础，是一种数优化技术，也是一种常用的机器学习算法，他通过最小化误差平方和寻找数据的最佳匹配，利用最小二乘法寻找最优的未知数据，保证求的数据与已知的数据误差最小。LS也被用于拟合曲线，比如所熟悉的线性模型。下面以简单的线性一元线性回归模型说明最小二乘法。假设我们有一组数据{(x1,y

创作者mateo·2024-01-16 02:54

ClickHouse - 01

与其特性在大数据处理场景中，流处理和批处理使用到的技术大致如下：大数据处理场景流程.png批处理会将源业务系统中的数据通过数据抽取工具（例如Sqoop）将数据抽取到HDFS中，这个过程可以使用MapReduce、Spark

ArthurHC·2024-01-16 02:17

Python语法进阶学习--进程和线程

后续很快就要进入Spark的学习，在学习之前也是要铺垫一个知识点：进程是什么？线程是什么？两者有什么区别？又有什么关系？

Yan_bigdata·2024-01-15 23:34

Day 8 我与宇宙公民的不解之缘

宇宙公民这个生态圈里，除了玩遍世界游乐场的世界级精英Mei和她“100%对自己负责的人生态度”以及“人人潜能无限的信念”，这里不

紫泡泡_d71a·2024-01-15 17:15

【Spark】Spark原理简述

发现一篇很好的文章，适合对Spark有一定了解的小伙伴阅读主要介绍下自己在学习spark当中的一些理解和学习过程中踩到的坑，对spark时间效率优化的点做个总结，各位大佬轻拍。

turboSniper·2024-01-15 14:57

2018-10-15 关于钱包数字资产生态圈，你需要了解的二三事

区块链就像一股龙卷风，袭击到了世界各地。各路的牛鬼蛇神挤的头破血流，都想进来玩一玩，看一看。第一波上车的以太坊拥护者，现在依然还是imtoken钱包的忠实用户。俗话说的好：“币圈一天，人间十年”，同样的，这个圈子的技术发展，更新换代也是十分的迅速。区块链都4.0时代了，你还在玩imtoken钱包，你还能留在这个圈子吗？和大风口赛跑的你们，还是输给了行业发展速度。Imtoken一成不变的页面，就像连

一度传媒·2024-01-15 13:44

一言、一格和一念，百度的生成内容生态圈

文心一言、文心一格和百度智能云一念都是百度推出的以人工智能技术为基础的创意辅助平台，它们共同的特点是致力于为用户提供更智能、更多样化的内容创作工具。三者均整合了百度先进的人工智能技术，包括自然语言处理、图像生成等领域，以提供更智能的创意生成服务，旨在辅助用户进行创意性的内容生成，包括文字、图像、视频等多个方面，使创作过程更加高效和灵活。文心一言在前沿数字技术创新与安全论坛和人工智能赋能产业发展论坛

AI生成未来·2024-01-15 13:43

streaming 101

看之前就知道这是两篇能够提升你对流处理理解的文章，不是一般的提升，可以说是一种升华，因为他谈的不是一个具体的工具（sparkstreaming，flink等），而是谈流处理应该是怎么样的，流处理要打败批处理一统天下的话需要有什么特性

Bitson·2024-01-15 12:31

Spark原理——Shuffle 过程

Shuffle过程Shuffle过程的组件结构从整体视角上来看,Shuffle发生在两个Stage之间,一个Stage把数据计算好,整理好,等待另外一个Stage来拉取放大视角,会发现,其实Shuffle发生在Task之间,一个Task把数据整理好,等待Reducer端的Task来拉取如果更细化一下,Task之间如何进行数据拷贝的呢?其实就是一方Task把文件生成好,然后另一方Task来拉取现在是

我像影子一样·2024-01-15 09:47

Spark高级特性 (难)

Spark高级特性(难)闭包/**编写一个高阶函数，在这个函数要有一个变量，返回一个函数，通过这个变量完成一个计算**/@Testdeftest():Unit={//valf:Int=>Double=closure

我像影子一样·2024-01-15 09:11

sparkStreaming 连接kafka的方式

sparkStreaming消费kafak有两种方式1：receiver方式2：direct方式receiver方式：1：sparkStreaming将kafka之中的数据读取到spark内存之中，然后对

流砂月歌·2024-01-15 06:59

Spring

https://spring.io/https://spring.io/projects/spring-boot#learnhttps://postman.org.cn/Spring形成了一种开发的生态圈

.:::.·2024-01-15 05:29

大数据问答汇总

ApacheSpark有哪些常见的稳定版本，Spark1.6.0的数字分别代表什么意思？

Sql强·2024-01-15 03:28

Java 与 Scala 使用Maven混合编译打包

在SpringBoot上使用spark的时候会遇到的混合编译问题，在java代码中打包会找不到scala定义的包，即可参考使用如下配置。

kikiki4·2024-01-15 02:07

架构设计：远程调用服务架构设计及zookeeper技术详解

Hadoop是一个技术生态圈，zookeeper是hadoop生态圈里一个非常重要的技术。

Java圈子·2024-01-15 01:15

centos spark单机版伪分布式模式

Spark的部署方式包括Standalone、YARN、Mesos，在我们学习Spark编程的过程中，往往机器资源有限，于是可以采用伪分布式部署。

piziyang12138·2024-01-15 00:05

Rokid完成近五亿元C+轮融资，将在合肥落地三大中心丨36氪首发

资金将用于提升B端服务和产研能力，于合肥打造XR生态圈。Rokid成立于2014年，是国内专注于新一代人机交互技术的产品平台公司。值得注意的是，此次融资也是合肥市首次布局AR眼镜行业，

m0_54050778·2024-01-14 23:32

FLINK学习笔记（一）-- Word Count

defmain(args:Array[String]):Unit={/***flink的运行模型*1.DataSource*2.Transformation*3.DataSink*///获取环境，类似于sparkcontextvalenv

k_wzzc·2024-01-14 22:15

Building online HBase cluster of Zhihu based on Kubernetes

utm_campaign=profiletracking&utm_medium=sssite&utm_source=ssslideview同样对spark或者yarnr

mtj66·2024-01-14 21:24

深入理解 Spark（二）SparkApplication 提交和运行源码分析

spark核心流程yarn-clientyarn-clusterspark任务调度sparkstage级别调度sparktask级别调度失败重试和白名单对于运行失败的Task，TaskSetManager

我很ruo·2024-01-14 21:19

深入理解 Spark（三）SparkTask 执行与 shuffle 详解

SparkTask的分发部署与启动流程分析SparkAction算子触发job提交Spark当中Stage切分源码详解Task的提交与执行SparkShuffle机制详解MapReduceShuﬄe全流程深度剖析

我很ruo·2024-01-14 21:19

深入理解 Spark（四）Spark 内存管理模型

Spark中的内存管理和资源管理模型Executor进程作为一个JVM进程，其内存管理建立在JVM的内存管理之上，整个大致包含两种方式：堆内内存和堆外内存。

我很ruo·2024-01-14 21:16

SparkSQL函数定义——UDF函数，窗口函数

目录1定义UDF函数1.1返回值是数组类型的UDF定义1.2返回字典类型的UDF定义2窗口函数1定义UDF函数目前python仅支持UDF两种定义方式：1.sparksession.udf.register

油豆皮·2024-01-14 20:03

spark | scala | 线性代数库Breeze学习

最近在学习spark，对线性代数库Breeze做了学习，介绍下常用的函数前提，使用Breeze库，必须导入相关的包importbreeze.linalg._importbreeze.numerics.

茁壮小草·2024-01-14 18:55

Spark线性代数,绘图工具入门;scala, java下的Breeze线性代数以及数据绘图工具breeze-viz入门

//官方地址,https://github.com/scalanlp/breeze/wiki/Quickstar//由于编辑器的格式原因,自行拷贝到集成开发环境中调试格式,代码都可以正确运行defbreezeTest:Unit={//Vector支持访问和更新,DenseVector是列向量valx=DenseVector.zeros[Double](5);//构建一个5维的稠密向量SparseV

stableMusic·2024-01-14 18:23

利用 Azure Data Bricks的免费资源学习云上大数据

AzureDatabricks是一个基于ApacheSpark的分析平台，专为大数据处理和机器学习而设计。它结合了Data

AI普惠大师·2024-01-14 16:42

科大讯飞星火大模型接入API js 部分接口安装注意事项

下载以下链接例子运行程序https://xfyun-doc.xfyun.cn/static%2F16968175055332330%2Fspark_js_demo.zip官网给的说明准备1.在demo中填写

guoruijun_2012_4·2024-01-14 15:37

RDD转换为DataFrame

SparkSQL它支持两种不同的方式转换已经存在的RDD到DataFrame1.反射（Java中的概念，scala是隐式转换）2.运行编程接口用反射去推倒出来RDD里面的schema。

起个什么呢称呢·2024-01-14 14:42

2022-03-01 回春的三月——交学期费

昨天2月的最后一天，也是交学期票的最后一天，超期的话要多付费，可我的SPARKASSE卡长时间没使用，账户被锁了。

keivenbear·2024-01-14 11:40

深入理解 Spark（一）spark 运行模式简介与启动流程源码分析

spark的运行模式standalone模式以standalone-client为例，运行过程如下：SparkContext连接到Master，向Master注册并申请资源（CPUCore和Memory

我很ruo·2024-01-14 10:56

pyspark

pysparkversion输出spark的版本print("pysparkversion"+str(sc.version))mapsc=sparkcontext,parallelizecreatesanRDDfromthepassedobjectx

Tim在路上·2024-01-14 10:43

计算机毕业设计吊炸天spark+hive+nlp慕课在线教育课程数据分析可视化大屏知识图谱课程推荐系统课程爬虫文本分类 LSTM情感分析大数据毕业设计

将.csv上传到hdfs中，并使用hive建表后导入.csv数据；9个指标，一半使用spark/scala去做实时计算分析。一半使用hive_sql进行分层离线处

计算机毕业设计大神·2024-01-14 09:48

使用 spark-submit 部署应用、自定义分区器、checkpoint、共享变量

文章目录spark-submit部署应用附加的参数：spark-env.sh具体的属性配置信息配置资源分配参数调优案例分析自定义分区器检查点checkpointSpark共享变量spark-submit

Geek白先生·2024-01-14 09:31

spark--累加器-★★★

累加器现象比较难理解,但是代码很简单packagecn.hanjiaxiaozhi.coreimportorg.apache.spark.rdd.RDDimportorg.apache.spark.util.LongAccumulatorimportorg.apache.spark

韩家小志·2024-01-14 09:01

Spark-之自定义wordCount累加器

Spark-之自定义wordCount累加器SparkCore中的3种数据类型：累加器（只写）RDD广播变量（只读）累加器在多个action算子触发的job中重复累加，且需要action算子才能触发累加器操作

稳哥的哥·2024-01-14 09:01

Spark-累加器

Spark-累加器第一张图和java中的引用传递,和值传递很像你能改变内容,内存地址无法改变.你传你的,我传我的,没有把值给返回去双端对列当发送错误的时候要放回到要来头部对列一般是先进先出,要是发送错误

疯子@123·2024-01-14 09:00

Java操作spark-自定义累加器

Java操作spark-自定义累加器spark的累加器自定义累加器实现wordCountspark的累加器背景：如果我们在Driver端定义一个变量，然后将该变量发送Executor端进行累加赋值操作，

卡卡东~·2024-01-14 09:00

Spark-自定义分区器以及累加器

自定义分区器：valrdd=sc.makeRDD(List(("nba","xxxx"),("cba","xxxx"),("cba","xxxx"),("cba","xxxx"),("nba","xxxx"),("wnba","xxxx"),),3)valrdd1:RDD[(String,String)]=rdd.partitionBy(newMyPartitioner())rdd1.saveAs

_Ordinary丶·2024-01-14 09:00

spark-submit 与 spark-shell 介绍

一、spark-submit介绍1、spark-submit介绍程序一旦打包好，就可以使用bin/spark-submit脚本启动应用了。

火成哥哥·2024-01-14 09:59

Spark入门-累加器和广播变量

累加器Spark中累加器用来解决一些特殊的需求。

汪巡·2024-01-14 09:59

Spark--累加器

累加器累加器1.实现原理2.系统累加器3.自定义累加器累加器Spark计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。

小陈菜奈-·2024-01-14 09:59

Spark-core----累加器

一、原理累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量，在Executor端的每个Task都会得到这个变量的一份新的副本，每个task更新这些副本的值后，传回Driver端进行merge。二、基础编程2.1系统累加器valrdd=sc.makeRDD(List(1,2,3,4,5))//声明累加器varsum=sc.longAccumulator("su

梦痕长情·2024-01-14 09:28

Spark -- 累加器和广播变量

Spark–累加器和广播变量文章目录Spark--累加器和广播变量一.累加器1.系统累加器2.自定义累加器二.广播变量spark有三大数据结构：RDD：分布式弹性数据集累加器：分布式只写数据集广播变量：

Keep hunger·2024-01-14 09:58

Spark---累加器

//建立与Spark框架的连接valwordCount=newSparkConf().setMaster("local").setAppName("WordC

肥大毛·2024-01-14 09:27

推荐频道

spark生态圈