Spark大数据处理第2页

国内外AI搜索产品盘点

序号AISearch产品名简介网站开发者1Perplexity强大的对话式AI搜索引擎https://www.perplexity.aiPerplexity2GensparkAIAgent搜索引擎https

Suee2020·2025-03-16 11:38

HIVE开窗函数

面试高频考点——HIVE开窗函数（基础篇）目录标题ETL,SQL面试高频考点——HIVE开窗函数（基础篇）一，窗口函数介绍二，开窗函数三，分析函数分类1，排序分析函数：实列解析对比总结2.聚合分析函数3.用spark

Cciccd·2025-03-16 02:31

Hive MR & Spark & Yarn参数优化总结

一、hivemr参数调优：sethive.optimize.ppd=true;--开启谓词下推。--动态分区参数sethive.exec.mode.local.auto=true;sethive.exec.dynamic.partition.mode=nonstrict;--默认是strict，表示至少有一个静态分区，nonstri

大数据侠客·2025-03-16 02:31

Spark 中创建 DataFrame 的2种方式对比

spark.createDataFrame(data).toDF("name","age")和spark.createDataFrame(spark.sparkContext.parallelize(data

闯闯桑·2025-03-15 20:20

python手写kmeans算法

kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!

菜鸟懿·2025-03-15 09:26

数据分析大数据面试题大杂烩01

处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK

爱学习的菜鸟罢了·2025-03-15 09:19

doris：SQL 方言兼容

提示从2.1版本开始，Doris可以支持多种SQL方言，如Presto、Trino、Hive、PostgreSQL、Spark、Clickhouse等等。

向阳1218·2025-03-15 01:07

25年大数据开发省赛样题第一套，离线数据处理答案

省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1

Tometor·2025-03-15 00:01

2024年上半年系统架构设计师论文真题

一、论大数据lambda架构大数据处理架构是专门用于处理和分析巨量复杂数据集的软件架构。它通常包括数据收集、存储、处理、分析和可视化等多个层面，旨在从海量、多样化的数据中提取有价值的信息。

任铄·2025-03-14 02:07

2024年5月份架构师考试论文真题完整版

以下是一个简单的论文大纲示例，旨在覆盖Lambda架构的核心概念、设计原则、优缺点、实际应用案例以及对比其他架构（如Kappa架构）的分析：大纲简要介绍Lambda架构的基本概念及其在大数据处理领域的地位

Zoi Gil(学习)·2025-03-14 01:04

2024架构设计师论文题目

简要叙这三个层次的用途和特点3、详细阐述你参与开发的软件项目如何基于lamada体系架构进行大数据处理的架构论文2模型驱动架构设计方法及其用1、简要说明你参与分析和研发的软件项目,吸你所承担的要工作2、

数字化信息化智能化解决方案·2025-03-14 01:01

【系统架构设计师】2024年上半年真题论文: 论大数据lambda架构（包括解题思路和素材）

数据知道·2025-03-14 01:29

sparkML入门，通俗解释机器学习的框架和算法

Tometor·2025-03-13 11:53

大数据面试之路 (三) mysql

将SparkSQL加工后的数据存入MySQL通常基于以下几个关键原因：1.数据应用场景适配OLTP与OLAP分工：SparkSQL擅长处理大数据量的OLAP（分析型）任务，而MySQL作为OLTP（事务型

愿与狸花过一生·2025-03-12 16:38

使用Java开发工具包会遇到哪些问题

哈喽，大家好呀，淼淼又来和大家见面啦，Java作为一门广泛应用于企业级应用、安卓开发、大数据处理等领域的编程语言，其强大的跨平台能力和丰富的类库支持吸引了无数开发者。

·2025-03-12 13:58

【大数据】大数据处理-Lambda架构-Kappa架构

大数据处理-Lambda架构-Kappa架构elasticsearch-headElasticsearch-sqlclientNLPchina/elasticsearch-sql:UseSQLtoqueryElasticsearch360

weixin_33884611·2025-03-12 04:37

如何使用 SparkLLM 进行自然语言处理

iFLYTEK开发的SparkLLM便是这样一个大规模认知模型。通过学习大量文本、代码和图像，SparkLLM能够理解和执行基于自然对话的任务。

shuoac·2025-03-12 04:36

RDD 行动算子

在ApacheSpark中，RDD（弹性分布式数据集）是核心数据结构之一。行动算子会触发实际的计算并返回结果或执行某些操作。

阿强77·2025-03-12 03:02

讲一下Spark的shuffle过程

首先Spark的shuffle是Spark分布式集群计算的核心。Spark的shuffle可以从shuffle的阶段划分，shuffle数据存储，shuffle的数据拉取三个方面进行讲解。

冰火同学·2025-03-11 20:29

Spark常见面试题目（1）

Spark有哪几种部署的方式，谈谈方式都有哪些特点第一种是local本地部署,通常就是一台机器用于测试。

冰火同学·2025-03-11 20:58

Spark数据倾斜的问题

Spark数据倾斜业务背景Spark数据倾斜表现Spark的数据倾斜，包括SparkStreaming和SparkSQL，表现主要有下面几种：1、Excutorlost，OOM，Shuffle过程出错2

冰火同学·2025-03-11 20:58

PySpark实现导出两个包含多个Parquet数据文件的S3目录里的对应值的差异值分析

编写PySpark代码实现从一个包含多个Parquet数据文件的AmazonS3目录的dataframe数据里取两个维度字段，一个度量字段的数据，根据这两个维度字段的数据分组统计，计算度量字段的数据的分组总计值

weixin_30777913·2025-03-11 19:55

Hadoop、Spark和 Hive 的详细关系

Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。

夜行容忍·2025-03-11 18:46

大数据技术生态圈：Hadoop、Hive、Spark的区别和关系

大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。

雨中徜徉的思绪漫溢·2025-03-11 17:07

flink+kafka实现流数据处理学习

1、概念介绍flink：是一个分布式、高可用、高可靠的大数据处理引擎，提供了一种高效、可靠、可扩展的方式来处理和分析实时数据。

上海研博数据·2025-03-11 17:06

大数据面试之路 (一) 数据倾斜

Spark/MapReduce作业卡在某个阶段（如reduce阶段），日志显示少数Task处理大量数据。资源利用率不均衡（如CPU、内存集中在某些节点）。

愿与狸花过一生·2025-03-11 17:34

scala针对复杂数据源导入与分隔符乱码处理

和如何导入各种数据源文件一、非标准分隔符处理当数据源的分隔符混乱或不统一时（如,、|、\t混合使用），可采用以下方法：1.1动态检测分隔符//示例：自动检测前100行的常用分隔符valsampleLines=spark.read.text

Tometor·2025-03-11 11:45

Spark-TTS：基于大模型的文本语音合成工具

GitHub：https://github.com/SparkAudio/Spark-TTSSpark-TTS是一个先进的文本到语音系统，它利用大型语言模型（LLM）的强大功能进行高度准确和自然的语音合成

CITY_OF_MO_GY·2025-03-10 13:35

数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark

1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性

晴天彩虹雨·2025-03-10 03:22

探秘开源项目 MapReduce：分布式计算的新篇章

探秘开源项目MapReduce：分布式计算的新篇章去发现同类优质开源项目:https://gitcode.com/在大数据处理领域，一个名字始终熠熠生辉，那就是。

褚知茉Jade·2025-03-10 01:32

大数据实战：Spark + Hive 逐笔计算用户盈亏

简介本文将通过使用Spark+Hive实现逐笔计算区块链上用户交易数据的盈亏需求。

WuJiWeb3·2025-03-10 00:56

分布式计算入门（PySpark处理NASA服务器日志）

目录分布式计算入门（PySpark处理NASA服务器日志）1.引言2.分布式计算概述2.1分布式计算的基本概念2.2ApacheSpark与PySpark3.NASA服务器日志数据集介绍3.1数据背景3.2

闲人编程·2025-03-09 19:16

Apache Spark: 大数据处理的利器对比与应用实例

本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以

步入烟尘·2025-03-09 19:45

spark yum配置

yum配置Yum是一个linux工具，用来从网络上下载安装软件到CentOS操作系统中。先要确保虚拟机的网络是通畅的。（1）查看源yum中的源是指它从哪里去下载软件。把yum想象成你自己开的一家商场，那么yum的源就是你的供货商。通过yumrepolist命令可以去查看当前的供货商信息。（如果显示源信息是mirrorlist.centos.org（默认源），那就不能使用了。这个源已经失效了，就是你

Amu_Yalo·2025-03-09 19:42

Hadoop、Spark、Flink Shuffle对比

一、Hadoop的shuffle前置知识：Map任务的数量由Hadoop框架自动计算，等于分片数量，等于输入文件总大小/分片大小，分片大小为HDFS默认值128M，可调Reduce任务数由用户在作业提交时通过Job.setNumReduceTasks(int)设置数据分配到Reduce任务的时间点，在Map任务执行期间，通过Partitioner（分区器）确定每个键值对的目标Reduce分区。默认

逆袭的小学生·2025-03-09 10:55

Scala_Spark_RDD_parttwo

只做记录不展示结果(部分结果放在了代码的注释中)：packagespark_rddimportorg.apache.spark.sql.SparkSessionobjectrdd_fiveextendsApp

Gadaite·2025-03-09 07:53

Spark scala api（一）RDD编程

基础初始化sparkvalconf=newSparkConf().setAppName("wordcount")valsc=newSparkContext(conf)转化操作和行动操作的区别在于spark

weixin_42521881·2025-03-09 07:50

Scala 中生成一个RDD的方法

在Scala中，生成RDD（弹性分布式数据集）的主要方法是通过SparkContext（或SparkSession）提供的API。

闯闯桑·2025-03-09 06:35

大数据Flink（六十四）：Flink运行时架构介绍_flink中涉及到的大数据组件

从以Greenplum为代表的MPP（MassivelyParallelProcessing，大规模并行处理）架构，到Hadoop、Spark为代表的批处理架构，再到Storm、Flink为代表的流处理架构

2401_84181942·2025-03-09 03:39

大数据运维实战指南：零基础入门与核心技术解析（第一篇）

）系列文章目录第一篇：大数据运维概述与核心技能体系第二篇：Hadoop生态体系与集群部署实战第三篇：分布式存储系统运维与优化第四篇：资源调度框架YARN/K8s深度解析第五篇：实时计算框架Flink/Spark

emmm形成中·2025-03-09 01:19

spark集群，kafka集群和zookeeper的docker集群快速搭建

准备操作安装docker(宿主机)yuminstalldocker(宿主机时centos用yum管理包)systemctldaemon-reload(重加载deamon服务，是docker的核心)systemctlrestartdocker.service(重启docker服务)docker常用命令dockerps-a查看所有容器dockersearchUbuntu寻找Ubuntu的镜像docke

醉与浮·2025-03-08 15:05

大数据计算框架深入：Spark SQL、DataFrame、RDD 性能优化

1.引言ApacheSpark是当前最流行的大数据计算框架之一，其中SparkSQL、DataFrame和RDD（ResilientDistributedDataset）是数据处理的三大核心API。

晴天彩虹雨·2025-03-08 10:48

蚂蚁集团可转正实习算法岗内推-自然语言

对目前主流的深度学习平台:tensorflow、pytorch、mxnet等，至少对其中一个有上手经验;熟悉深度学习以及常见机器学习算法的原理与算法，能熟练运用聚类、分类、回归、排序等模型解决有挑战性的问题，有大数据处理的实战经验

飞300·2025-03-07 10:59

Spark单机伪分布式环境搭建、完全分布式环境搭建、Spark-on-yarn模式搭建

搭建Spark需要先配置好scala环境。三种Spark环境搭建互不关联，都是从零开始搭建。如果将文章中的配置文件修改内容复制粘贴的话，所有配置文件添加的内容后面的注释记得删除，可能会报错。

遇安.YuAn·2025-03-06 17:06

在虚拟机上安装 Hadoop 全攻略

在虚拟机上安装Hadoop是进入大数据处理和分析领域的重要一步。

麻芝汤圆·2025-03-06 05:22

（一）spark是什么？

1.spark是什么？spark是一个用来实现快速，通用的集群计算平台spark适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理，迭代算法，交互式查询，流处理。

一智哇·2025-03-05 11:21

spark hdfs 常用命令

目录lsrmgettext以下按照使用频率和使用先后顺序排序（纯个人习惯）ls列出hdfs文件系统路径下的目录和文件hdfsdfs-ls列出hdfs文件系统路径下所有的目录和文件hdfsdfs-ls-Rrmhadoopfs-rm...hadoopfs-rm-r...每次可以删除多个文件或目录getlocalfile不能和hdfsfile名字不能相同，否则会提示文件已存在，没有重名的文件会复制到本地

毛球饲养员·2025-03-05 11:19

常用spark命令

--spark启动localhost$spark-sql--masteryarn启动主节点yarn模式--查看hdfs文件hdfsdfs-ls/spark/myDatabase.db查看我们建的表其实是是建立在

会拉小提琴的左脚·2025-03-05 11:19

Spark详解二

八、Spark部署模式1、Local本地模式：运行于本地spark-shell--masterlocal[2]（local[2]是说，执行Application需要用到CPU的2个核）2、Standalone

卢子墨·2025-03-05 11:13

Spark基本命令

一、spark所在目录cdusr/local/spark二、启动spark/usr/local/spark/sbin/start-all.sh启动Hadoop以及Spark：bash.

chenworeng5605·2025-03-05 10:42

推荐频道

Spark大数据处理