spark大数据分析第2页

HIVE开窗函数

面试高频考点——HIVE开窗函数（基础篇）目录标题ETL,SQL面试高频考点——HIVE开窗函数（基础篇）一，窗口函数介绍二，开窗函数三，分析函数分类1，排序分析函数：实列解析对比总结2.聚合分析函数3.用spark

Cciccd·2025-03-16 02:31

Hive MR & Spark & Yarn参数优化总结

一、hivemr参数调优：sethive.optimize.ppd=true;--开启谓词下推。--动态分区参数sethive.exec.mode.local.auto=true;sethive.exec.dynamic.partition.mode=nonstrict;--默认是strict，表示至少有一个静态分区，nonstri

大数据侠客·2025-03-16 02:31

Spark 中创建 DataFrame 的2种方式对比

spark.createDataFrame(data).toDF("name","age")和spark.createDataFrame(spark.sparkContext.parallelize(data

闯闯桑·2025-03-15 20:20

数字孪生对于新基建的价值浅析，算是抛砖引玉。

模拟预测与优化利用AI和大数据分析

大牛工控设计师·2025-03-15 14:04

python手写kmeans算法

kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!

菜鸟懿·2025-03-15 09:26

数据分析大数据面试题大杂烩01

处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK

爱学习的菜鸟罢了·2025-03-15 09:19

海量数据查询加速：Presto、Trino、Apache Arrow

1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。

晴天彩虹雨·2025-03-15 08:12

doris：SQL 方言兼容

提示从2.1版本开始，Doris可以支持多种SQL方言，如Presto、Trino、Hive、PostgreSQL、Spark、Clickhouse等等。

向阳1218·2025-03-15 01:07

25年大数据开发省赛样题第一套，离线数据处理答案

省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1

Tometor·2025-03-15 00:01

Python 爬虫实战：开放数据集抓取与大数据分析应用

本文将详细介绍如何使用Python爬虫技术抓取开放数据集，并进行大数据分析应用。一、项目背景与目标1.项目背景随着信息技术的飞速发展，越来越多的机构和组织开始开放其数据集，以促进创新和研究。

西攻城狮北·2025-03-14 10:04

sparkML入门，通俗解释机器学习的框架和算法

Tometor·2025-03-13 11:53

DeepSeek对于普通打工人来说有什么帮助呢？

而DeepSeek，作为一款基于人工智能和大数据分析的职业发展工具，正在为普通打工人提供全新的解决方案。本文将从多个角度探讨DeepSeek对于普通打工人的帮助，分析它如何通过职业规划、

·2025-03-13 06:32

大数据面试之路 (三) mysql

将SparkSQL加工后的数据存入MySQL通常基于以下几个关键原因：1.数据应用场景适配OLTP与OLAP分工：SparkSQL擅长处理大数据量的OLAP（分析型）任务，而MySQL作为OLTP（事务型

愿与狸花过一生·2025-03-12 16:38

智能制造中的工业大数据分析实践

智能制造中的工业大数据分析实践关键词:智能制造，工业大数据，数据分析，机器学习，深度学习，预测性维护，质量控制，生产优化文章目录智能制造中的工业大数据分析实践1.背景介绍1.1问题的由来1.2研究现状1.3

AI天才研究院·2025-03-12 08:12

如何使用 SparkLLM 进行自然语言处理

iFLYTEK开发的SparkLLM便是这样一个大规模认知模型。通过学习大量文本、代码和图像，SparkLLM能够理解和执行基于自然对话的任务。

shuoac·2025-03-12 04:36

RDD 行动算子

在ApacheSpark中，RDD（弹性分布式数据集）是核心数据结构之一。行动算子会触发实际的计算并返回结果或执行某些操作。

阿强77·2025-03-12 03:02

讲一下Spark的shuffle过程

首先Spark的shuffle是Spark分布式集群计算的核心。Spark的shuffle可以从shuffle的阶段划分，shuffle数据存储，shuffle的数据拉取三个方面进行讲解。

冰火同学·2025-03-11 20:29

Spark常见面试题目（1）

Spark有哪几种部署的方式，谈谈方式都有哪些特点第一种是local本地部署,通常就是一台机器用于测试。

冰火同学·2025-03-11 20:58

Spark数据倾斜的问题

Spark数据倾斜业务背景Spark数据倾斜表现Spark的数据倾斜，包括SparkStreaming和SparkSQL，表现主要有下面几种：1、Excutorlost，OOM，Shuffle过程出错2

冰火同学·2025-03-11 20:58

PySpark实现导出两个包含多个Parquet数据文件的S3目录里的对应值的差异值分析

编写PySpark代码实现从一个包含多个Parquet数据文件的AmazonS3目录的dataframe数据里取两个维度字段，一个度量字段的数据，根据这两个维度字段的数据分组统计，计算度量字段的数据的分组总计值

weixin_30777913·2025-03-11 19:55

家居巨头的觉醒，永洪科技为林氏家居开启一站式智慧决策

永洪科技与林氏家居的合作，是共同开发了一个企业级的一站式大数据分析平台。在合作多年的积累下，已逐步成为家居行业数字化转型的代表性案例。

永洪科技·2025-03-11 19:53

Hadoop、Spark和 Hive 的详细关系

Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。

夜行容忍·2025-03-11 18:46

大数据技术生态圈：Hadoop、Hive、Spark的区别和关系

大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。

雨中徜徉的思绪漫溢·2025-03-11 17:07

大数据面试之路 (一) 数据倾斜

Spark/MapReduce作业卡在某个阶段（如reduce阶段），日志显示少数Task处理大量数据。资源利用率不均衡（如CPU、内存集中在某些节点）。

愿与狸花过一生·2025-03-11 17:34

scala针对复杂数据源导入与分隔符乱码处理

和如何导入各种数据源文件一、非标准分隔符处理当数据源的分隔符混乱或不统一时（如,、|、\t混合使用），可采用以下方法：1.1动态检测分隔符//示例：自动检测前100行的常用分隔符valsampleLines=spark.read.text

Tometor·2025-03-11 11:45

供应链工作效率如何提升

提升供应链工作效率可以从以下几个关键方面入手：1.优化供应链管理数据驱动决策：利用AI和大数据分析，提高预测准确性，优化库存管理。

dev.null·2025-03-11 04:21

Spark-TTS：基于大模型的文本语音合成工具

GitHub：https://github.com/SparkAudio/Spark-TTSSpark-TTS是一个先进的文本到语音系统，它利用大型语言模型（LLM）的强大功能进行高度准确和自然的语音合成

CITY_OF_MO_GY·2025-03-10 13:35

数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark

1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性

晴天彩虹雨·2025-03-10 03:22

大数据实战：Spark + Hive 逐笔计算用户盈亏

简介本文将通过使用Spark+Hive实现逐笔计算区块链上用户交易数据的盈亏需求。

WuJiWeb3·2025-03-10 00:56

大数据分析服务器硬件配置如何选择

一、建立大数据分析服务器的五个基本方面1、可视化分析：大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，

elva428204358·2025-03-09 22:33

分布式计算入门（PySpark处理NASA服务器日志）

目录分布式计算入门（PySpark处理NASA服务器日志）1.引言2.分布式计算概述2.1分布式计算的基本概念2.2ApacheSpark与PySpark3.NASA服务器日志数据集介绍3.1数据背景3.2

闲人编程·2025-03-09 19:16

Apache Spark: 大数据处理的利器对比与应用实例

本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以

步入烟尘·2025-03-09 19:45

spark yum配置

yum配置Yum是一个linux工具，用来从网络上下载安装软件到CentOS操作系统中。先要确保虚拟机的网络是通畅的。（1）查看源yum中的源是指它从哪里去下载软件。把yum想象成你自己开的一家商场，那么yum的源就是你的供货商。通过yumrepolist命令可以去查看当前的供货商信息。（如果显示源信息是mirrorlist.centos.org（默认源），那就不能使用了。这个源已经失效了，就是你

Amu_Yalo·2025-03-09 19:42

【开题报告】基于Springboot+vue智能停车场管理系统（程序+源码+论文) 计算机毕业设计

智能停车场管理系统作为一种创新的解决方案，通过集成先进的物联网技术、云计算技术和大数据分析技

计算机程序_设计·2025-03-09 15:04

Hadoop、Spark、Flink Shuffle对比

一、Hadoop的shuffle前置知识：Map任务的数量由Hadoop框架自动计算，等于分片数量，等于输入文件总大小/分片大小，分片大小为HDFS默认值128M，可调Reduce任务数由用户在作业提交时通过Job.setNumReduceTasks(int)设置数据分配到Reduce任务的时间点，在Map任务执行期间，通过Partitioner（分区器）确定每个键值对的目标Reduce分区。默认

逆袭的小学生·2025-03-09 10:55

Scala_Spark_RDD_parttwo

只做记录不展示结果(部分结果放在了代码的注释中)：packagespark_rddimportorg.apache.spark.sql.SparkSessionobjectrdd_fiveextendsApp

Gadaite·2025-03-09 07:53

Spark scala api（一）RDD编程

基础初始化sparkvalconf=newSparkConf().setAppName("wordcount")valsc=newSparkContext(conf)转化操作和行动操作的区别在于spark

weixin_42521881·2025-03-09 07:50

Scala 中生成一个RDD的方法

在Scala中，生成RDD（弹性分布式数据集）的主要方法是通过SparkContext（或SparkSession）提供的API。

闯闯桑·2025-03-09 06:35

大数据Flink（六十四）：Flink运行时架构介绍_flink中涉及到的大数据组件

从以Greenplum为代表的MPP（MassivelyParallelProcessing，大规模并行处理）架构，到Hadoop、Spark为代表的批处理架构，再到Storm、Flink为代表的流处理架构

2401_84181942·2025-03-09 03:39

大数据运维实战指南：零基础入门与核心技术解析（第一篇）

）系列文章目录第一篇：大数据运维概述与核心技能体系第二篇：Hadoop生态体系与集群部署实战第三篇：分布式存储系统运维与优化第四篇：资源调度框架YARN/K8s深度解析第五篇：实时计算框架Flink/Spark

emmm形成中·2025-03-09 01:19

数字孪生对于新基建的价值浅析，算是抛砖引玉。

模拟预测与优化利用AI和大数据分析

大千UI工场·2025-03-08 19:59

电商系统设计专题系列的第一篇：概述与总体架构

数据驱动：通过大数据分析优化定价、库存和用户服务。

不出名的架构师·2025-03-08 15:37

spark集群，kafka集群和zookeeper的docker集群快速搭建

准备操作安装docker(宿主机)yuminstalldocker(宿主机时centos用yum管理包)systemctldaemon-reload(重加载deamon服务，是docker的核心)systemctlrestartdocker.service(重启docker服务)docker常用命令dockerps-a查看所有容器dockersearchUbuntu寻找Ubuntu的镜像docke

醉与浮·2025-03-08 15:05

Python就业薪资怎么样？前景如何？

Python是一种全栈的开发语言，你如果能学好Python，前端，后端，测试，大数据分析，爬虫等这些工作你都能胜任。那么Python现在在国内的就业薪资高吗？Python就业薪资怎么样？前景如何？

田野猫咪·2025-03-08 11:09

Python爬取58同城广州房源+可视化分析

感谢关注天善智能，走好数据之路↑↑↑欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！

R3eE9y2OeFcU40·2025-03-08 11:35

大数据计算框架深入：Spark SQL、DataFrame、RDD 性能优化

1.引言ApacheSpark是当前最流行的大数据计算框架之一，其中SparkSQL、DataFrame和RDD（ResilientDistributedDataset）是数据处理的三大核心API。

晴天彩虹雨·2025-03-08 10:48

探索大数据分析的无限可能：R语言的应用与实践

探索大数据分析的无限可能：R语言的应用与实践随着数据时代的来临，大数据已经成为各行各业的重要资产。如何从海量数据中挖掘出有价值的信息，成为了企业和研究人员关注的焦点。

Echo_Wish·2025-03-08 02:16

80| Python可视化篇 —— Matplotlib数据可视化

数据可视化又跟数据挖掘和大数据分析紧密相关，而这些领域以及当下

小刘要努力。·2025-03-08 00:29

分钟级降水预报API：精准掌控天气变化

分钟级降水预报API是一种基于先进气象算法和大数据分析的应用程序接口，能够提供国内任一经纬度未来2小时内，每分钟降水量的精细化预报数据。用户只需通过简单的A

·2025-03-07 12:04

python和java的优缺点-java有哪些python没有的优点?

两者各有各的优势：Python的优势：1.学起来简单，开发效率高，同样的功能用Java开发可能需要写200条代码，但是用Python只需要30~50条;2.在大数据挖掘方面有突出优势，是大数据分析首选的编程语言

weixin_37988176·2025-03-07 03:37

推荐频道

spark大数据分析

HIVE开窗函数

Hive MR & Spark & Yarn参数优化总结

Spark 中创建 DataFrame 的2种方式对比

数字孪生对于新基建的价值浅析，算是抛砖引玉。

python手写kmeans算法

数据分析大数据面试题大杂烩01

海量数据查询加速：Presto、Trino、Apache Arrow

doris：SQL 方言兼容

25年大数据开发省赛样题第一套，离线数据处理答案

Python 爬虫实战：开放数据集抓取与大数据分析应用

sparkML入门，通俗解释机器学习的框架和算法

DeepSeek对于普通打工人来说有什么帮助呢？

大数据面试之路 (三) mysql

智能制造中的工业大数据分析实践

如何使用 SparkLLM 进行自然语言处理

RDD 行动算子

讲一下Spark的shuffle过程

Spark常见面试题目（1）

Spark数据倾斜的问题

PySpark实现导出两个包含多个Parquet数据文件的S3目录里的对应值的差异值分析

家居巨头的觉醒，永洪科技为林氏家居开启一站式智慧决策

Hadoop、Spark和 Hive 的详细关系

大数据技术生态圈：Hadoop、Hive、Spark的区别和关系

大数据面试之路 (一) 数据倾斜

scala针对复杂数据源导入与分隔符乱码处理

供应链工作效率如何提升

Spark-TTS：基于大模型的文本语音合成工具

数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark

大数据实战：Spark + Hive 逐笔计算用户盈亏

大数据分析服务器硬件配置如何选择

分布式计算入门（PySpark处理NASA服务器日志）

Apache Spark: 大数据处理的利器对比与应用实例

spark yum配置

【开题报告】基于Springboot+vue智能停车场管理系统（程序+源码+论文) 计算机毕业设计

Hadoop、Spark、Flink Shuffle对比

Scala_Spark_RDD_parttwo

Spark scala api（一）RDD编程

Scala 中生成一个RDD的方法

大数据Flink（六十四）：Flink运行时架构介绍_flink中涉及到的大数据组件

大数据运维实战指南：零基础入门与核心技术解析（第一篇）

数字孪生对于新基建的价值浅析，算是抛砖引玉。

电商系统设计专题系列的第一篇：概述与总体架构

spark集群，kafka集群和zookeeper的docker集群快速搭建

Python就业薪资怎么样？前景如何？

Python爬取58同城广州房源+可视化分析

大数据计算框架深入：Spark SQL、DataFrame、RDD 性能优化

探索大数据分析的无限可能：R语言的应用与实践

80| Python可视化篇 —— Matplotlib数据可视化

分钟级降水预报API：精准掌控天气变化

python和java的优缺点-java有哪些python没有的优点?