大数据处理Spark 第33页

SparkStreaming和Kafka

0.一些问题SparkStreaming如何消费KafkaKafka的offset如何维护如何获取Kafka的offsetKafka获取offset的时候会不会消费kafka的记录Kafka的分区和sparktask

天之見證·2023-12-23 16:25

Spark Core

SparkCore介绍SparkCore是Spark的核心计算引擎。它有着速度快和通用的特点，并且实现了Spark的基本功能，包含任务调度，内存管理，错误恢复，与存储交互等模块。

hipeer·2023-12-23 15:35

MINIO在java中的使用

对象存储可以充当主存储层，以处理Spark、Presto、TensorFlow、H2O.ai等各种复杂工作负载以及成为HadoopHDFS的替代品--------引自官网的话。

IT小学僧·2023-12-23 14:48

Hago 的 Spark on ACK 实践

作者：华相Hago于2018年4月上线，是欢聚集团旗下的一款多人互动社交明星产品。Hago融合优质的匹配能力和多样化的垂类场景，提供互动游戏、多人语音、视频直播、3D虚拟形象互动等多种社交玩法，致力于为用户打造高效、多样、最具沉浸式的社交娱乐体验，在东南亚、中东和南美等地区拥有广泛的用户群。在技术层面，Hago提供优秀的自研音视频技术，实现更加稳定、高效和优质的数字人服务。包括3D超写实模型、真人

阿里云云原生·2023-12-23 13:59

Spark Shell的简单使用

简介Sparkshell是一个特别适合快速开发Spark原型程序的工具，可以帮助我们熟悉Scala语言。即使你对Scala不熟悉，仍然可以使用这个工具。

necessary653·2023-12-23 11:12

Spark Machine Learning进行数据挖掘的简单应用（兴趣预测问题）

数据挖掘的过程数据挖掘任务主要分为以下六个步骤：1.数据预处理2.特征转换3.特征选择4.训练模型5.模型预测6.评估预测结果数据准备这里准备了20条关于不同地区、不同性别、不同身高、体重…的人的兴趣数据集（命名为hobby.csv)：id,hobby,sex,address,age,height,weight1,football,male,dalian,12,168,552,pingpang,f

冲鸭嘟嘟可·2023-12-23 10:28

【分布式技术专题】「OSS中间件系列」Minio的文件服务的存储模型及整合Java客户端访问的实战指南

此特性对于机器学习与大数据处理非常重要。数据管理元数据与数据一起存放在磁盘上：数据部分纠删分片以后存储在磁盘上，元数据以明文形式存放在元数据文件里（xl.json）。

洛神灬殇·2023-12-23 08:39

多臂老虎机算法步骤

异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据PySpark

数据科学知识库·2023-12-23 08:57

Apache Flink 进阶教程（七）：网络流控及反压剖析

目录前言网络流控的概念与背景为什么需要网络流控网络流控的实现：静态限速网络流控的实现：动态反馈/自动反压案例一：Storm反压实现案例二：SparkStreaming反压实现疑问：为什么Flink（beforeV1.5

话数Science·2023-12-23 08:10

SparkStreaming学习记录

版本：Spark2.4.01.OverviewSparkingStreaming是对SparkAPI的一种扩展，用于处理实时数据流。

Jorvi·2023-12-23 08:49

CVE-2023-49898 Apache incubator-streampark 远程命令执行漏洞

项目介绍ApacheFlink和ApacheSpark被广泛用作下一代大数据流计算引擎。基于大量优秀经验结合最佳实践，我们将任务部署和运行时参数提取到配置文件中。

棱镜七彩·2023-12-23 07:51

PID算法

异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据PySpark

数据科学知识库·2023-12-23 07:21

【hadoop|报错】Cannot modify tez.queue.name at runtime. It is not in list of params that are allowed ...

*|spark.*|tez*hive.security.authorization.sqlstd.confwhitelist.appe

维运·2023-12-23 06:10

真正解决spark local模式的日志级别输出问题

真正解决sparklocal模式的日志级别输出问题在IDEA中开发Spark程序，程序一执行密密麻麻的Info日志一大堆，这让人很恶心，如下图：image很早以前就解决过一次，不过谷歌百度都没有真正的解决这个问题

小狼星I·2023-12-23 05:14

【Spark源码分析】Spark的RPC通信二-初稿

Spark的RPC通信二-初稿SparkRPC的传输层传输层主要还是借助netty框架进行实现。

顧棟·2023-12-23 05:25

【Spark源码分析】Spark的RPC通信一-初稿

Spark的RPC通信一-初稿文章目录Spark的RPC通信一-初稿Spark的RPC顶层设计核心类`NettyRpcEnv`核心类`RpcEndpoint`核心类`RpcEndpointRef`SparkRPC

顧棟·2023-12-23 05:53

PySpark 日志治理方法

无论是PySpark程序、还是Scala编写的Spark程序，对于运行中的日志写入与查看的现状都是类似的，大体有两点痛点：1.特别是一直在线运行的Streaming项目，通过print打印的日志直接进入了

AGERA_0429·2023-12-23 03:37

毕业设计项目：基于Django2.2+MySQL+spark的在线电影智能推荐系统的设计与实现

项目源码地址：https://download.csdn.net/download/lijunhcn/88463157本项目实现在线电影推荐系统的前后端开发，使用Django2.2+MySQL+spark

辣椒种子·2023-12-23 02:44

Hive-分区与分桶详解（超详细）

在大数据处理场景下，通过合理地使用分区和分桶可以提高查询性能、管理灵活性以及支持

大数据魔法师·2023-12-22 18:25

Spark(二十二）Shuffle调优之调节Map端内存缓冲与Reduce端内存占比

一、背景spark.shuffle.file.buffer，默认32kspark.shuffle.memoryFraction，0.2Map端内存缓冲，Reduce端内存占比；很多资料、网上视频，都会说

文子轩·2023-12-22 17:57

Learning Spark——client mode和cluster mode的区别

在使用spark-submit提交Spark任务一般有以下参数：./bin/spark-submit\--class\--master\--deploy-mode\--conf=\...

达微·2023-12-22 16:48

Spark 性能优化：资源分配

提交spark作业时，用的spark-

stone_zhu·2023-12-22 16:00

Spark中使用scala完成数据抽取任务 -- 总结

如题任务二：离线数据处理，校赛题目需要使用spark框架将mysql数据库中ds_db01数据库的user_info表的内容抽取到Hive库的user_info表中，并且添加一个字段设置字段的格式第二个任务和第一个的内容几乎一样

冲鸭嘟嘟可·2023-12-22 12:23

工具系列：PyCaret介绍_Fugue 集成_Spark、Dask分布式训练

工具系列：PyCaret介绍_Fugue集成_Spark、Dask分布式训练Fugue是一个低代码的统一接口，用于不同的计算框架，如Spark、Dask。

愤斗的橘子·2023-12-22 12:22

[Spark] 读取项目下resources/的文件

背景这个spark程序要读取项目下的一些文件,当我把这个项目打成jar包后,spark-submit到集群后执行将文件作为资源文件打包到JAR中可以通过Maven或sbt这样的构建工具完成。

言之。·2023-12-22 12:22

Spark系列之：使用spark合并hive数据库多个分区的数据到一个分区中

Spark系列之：使用spark合并hive数据库多个分区的数据到一个分区中把两个分区的数据合并到同一个分区下把其中一个分区的数据通过append方式添加到另一个分区即可%sparkvaldf=spark.sql

最笨的羊羊·2023-12-22 11:37

SQL---数据抽样

异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据PySpark

数据科学知识库·2023-12-22 11:01

Apache Spark 的基本概念和在大数据分析中的应用。

SHOW科技·2023-12-22 10:41

Spark SQL 教程

一、什么是SparkSQLSparkSQL是Spark用来处理结构化数据的一个模块，它提供了两个编程抽象分别叫做DataFrame和DataSet，它们用于作为分布式SQL查询引擎。

数据萌新·2023-12-22 10:06

PYTHON的一维转二维

那么在大数据处理过程中，通过PYTHON怎么实现？PYTHON有一个专门的命令，pivot_table。今天就介

lzl8101·2023-12-22 07:32

centos spark单机版伪分布式模式

Spark的部署方式包括Standalone、YARN、Mesos，在我们学习Spark编程的过程中，往往机器资源有限，于是可以采用伪分布式部署。

数据萌新·2023-12-22 07:17

spark-thrift-server 报错 Wrong FS

文章目录@[toc]具体报错实际原因查看hive元数据修改spark-thrift-server配置修改hive元数据具体报错spark-thrift-server执行删表语句，出现如下报错Error:

月巴左耳东·2023-12-22 07:47

hive报metadata.HiveException: Hive Runtime Error while processing row (tag=0)错误

个人觉得报出这样的异常是由于sparksql转化成物理计划时会

weixin_42412645·2023-12-22 07:45

org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session

问题描述Logginginitializedusingconfigurationinjar:file:/opt/module/hive/lib/hive-common-3.1.2.jar!/hive-log4j2.propertiesAsync:trueHiveSessionID=0c953008-3c72-4e36-bcaf-47e92a5b9759FAILED:SemanticExceptio

qq_41504585·2023-12-22 07:13

Spark在云原生时代的发展

在这个云原生的时代拥抱云变成了不二之选，那么对于Spark[1]来说它是如何在云原生时代积极拥抱云的呢？背景1

Apache Spark中国社区·2023-12-22 07:18

SQL---Zeppeline前驱记录与后驱记录查询

异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据PySpark

数据科学知识库·2023-12-22 07:17

spark广播变量，累加器和SparkShuffle

文章目录广播变量累加器Sparkshufflesparkshuffle演进的历史1、未经优化的HashShuffleManager2、优化后的HashShuffleManager3、SortShuffle4

落幕7·2023-12-22 07:16

LAS Spark+云原生：数据分析全新解决方案

文章主要介绍了火山引擎湖仓一体分析服务LAS（下文以LAS指代）基于Spark的云原生湖仓分析实践，利用Spar

字节数据平台·2023-12-22 07:15

字节跳动 Spark Shuffle 大规模云原生化演进实践

Spark是字节跳动内部使用广泛的计算引擎，已广泛应用于各种大规模数据处理、机器学习和大数据场景。目前中国区域内每天的任务数已经超过150万，每天的Shuffle读写数据量超过500PB。

字节跳动云原生计算·2023-12-22 07:09

深度学习库 SynapseML for .NET 发布0.1 版本

2021年11月微软开源一款简单的、多语言的、大规模并行的机器学习库SynapseML（以前称为MMLSpark），以帮助开发人员简化机器学习管道的创建。

dotNET跨平台·2023-12-22 06:08

Spark的stage源码解析

https://zhuanlan.zhihu.com/p/535000671?utm_id=0stage创建划分的过程就是一个深度优先遍历rdd依赖树的过程，通过不断的循环递归形式，最早的stage被首先创建出来。然后顺序创建后续stage，stage创建完毕后会注册stage到shuffleToMapStage，这是一个map，key为shuffleId，value为stage。每一个stage

Logan_addoil·2023-12-22 05:19

MapReduce 的 shuffle 与 spark的 shuffle 有什么区别？

MapReduce的shuffle在Map端的shuffle过程是对Map的结果进行分区、排序、分割，然后将属于同一划分（分区）的输出合并在一起并写在磁盘上，最终得到一个分区有序的文件。主要是：Partition、Collector、Sort、Spill、Merge几个阶段。在Reduce端，shuffle主要分为复制Map输出、排序合并两个阶段。主要是：Copy、Merge、Reduce几个阶段

Logan_addoil·2023-12-22 05:18

Iceberg基于Spark MergeInto语法实现数据的增量写入

SPARKSQL基本语法示例SQL如下MERGEINTOtarget_tabletUSINGsource_tablesONs.id=t.id//这里是JOIN的关联条件WHENMATCHEDANDs.opType

Dreammmming Time·2023-12-22 04:31

spark架构

一、基本概念RDD(ResilientDistributedDatasets)：弹性分布式数据集，只读分区记录的集合，Spark对所处理数据的基本抽象。RDD是Spark分发数据和计算的基础抽象类。

allin8116·2023-12-22 01:47

大数据处理与分析

掌握分布式并行编程框架MapReduce掌握基于内存的分布式计算框架Spark理解MapReduce的工作流程、Spark运行原理熟悉机器学习概念一.MapReduceHadoopMapReduce是一个软件框架

僖僖cc·2023-12-21 22:34

大数据处理与分析-Spark

导论(基于Hadoop的MapReduce的优缺点）MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它将数据处理过程分为两个主要阶段：Map阶段和Reduce阶段。在Map阶段，数据被分割为多个小块，并由多个并行运行的Mapper进行处理。在Reduce阶段，Mapper的输出

僖僖cc·2023-12-21 22:03

AI创作系统ChatGPT商业运营网站系统源码，支持AI绘画，GPT语音对话+DALL-E3文生图

一、前言SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统，支持OpenAI-GPT全模型+国内AI全模型。

白云如幻·2023-12-21 21:48

【翻译】通用人工智能的花火——GPT-4的早期研究 Sparks of Arti cial General Intelligence:Early experiments with GPT-4

10.1Denitionsofintelligence,AI,andAGI智能、人工智能和通用人工智能的定义Inthispaper,wehaveusedthe1994denitionofintelligencebyagroupofpsychologists[Got97]asaguidingframeworktoexploreGPT-4'sarticialintelligence.Thisdenit

m0_58185557·2023-12-21 20:23

推荐频道

大数据处理Spark

SparkStreaming和Kafka

Spark Core

MINIO在java中的使用

Hago 的 Spark on ACK 实践

Spark Shell的简单使用

Spark Machine Learning进行数据挖掘的简单应用（兴趣预测问题）

【分布式技术专题】「OSS中间件系列」Minio的文件服务的存储模型及整合Java客户端访问的实战指南

多臂老虎机算法步骤

Apache Flink 进阶教程（七）：网络流控及反压剖析

SparkStreaming学习记录

CVE-2023-49898 Apache incubator-streampark 远程命令执行漏洞

PID算法

【hadoop|报错】Cannot modify tez.queue.name at runtime. It is not in list of params that are allowed ...

真正解决spark local模式的日志级别输出问题

【Spark源码分析】Spark的RPC通信二-初稿

【Spark源码分析】Spark的RPC通信一-初稿

PySpark 日志治理方法

毕业设计项目：基于Django2.2+MySQL+spark的在线电影智能推荐系统的设计与实现

Hive-分区与分桶详解（超详细）

Spark(二十二）Shuffle调优之调节Map端内存缓冲与Reduce端内存占比

Learning Spark——client mode和cluster mode的区别

Spark 性能优化：资源分配

Spark中使用scala完成数据抽取任务 -- 总结

工具系列：PyCaret介绍_Fugue 集成_Spark、Dask分布式训练

[Spark] 读取项目下resources/的文件

Spark系列之：使用spark合并hive数据库多个分区的数据到一个分区中

SQL---数据抽样

Apache Spark 的基本概念和在大数据分析中的应用。

Spark SQL 教程

最新国内AI绘画Midjourney绘画提示词Prompt分享

PYTHON的一维转二维

centos spark单机版伪分布式模式

spark-thrift-server 报错 Wrong FS

hive报metadata.HiveException: Hive Runtime Error while processing row (tag=0)错误

org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session

Spark在云原生时代的发展

SQL---Zeppeline前驱记录与后驱记录查询

spark广播变量，累加器和SparkShuffle

LAS Spark+云原生：数据分析全新解决方案

字节跳动 Spark Shuffle 大规模云原生化演进实践

深度学习库 SynapseML for .NET 发布0.1 版本

Spark的stage源码解析

MapReduce 的 shuffle 与 spark的 shuffle 有什么区别？

Iceberg基于Spark MergeInto语法实现数据的增量写入

spark架构

大数据处理与分析

大数据处理与分析-Spark

AI创作系统ChatGPT商业运营网站系统源码，支持AI绘画，GPT语音对话+DALL-E3文生图

最新ChatGPT网站系统源码+AI绘画系统+支持GPT语音对话+详细图文搭建教程/支持GPT4.0/H5端系统/文档知识库

【翻译】通用人工智能的花火——GPT-4的早期研究 Sparks of Arti cial General Intelligence:Early experiments with GPT-4