spark核心技术第2页

实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题

包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark

2401_84181221·2024-09-09 19:04

starrocks和clickhouse数据库比较

支持多种数据源的集成，并且可以与其他大数据技术（如Hadoop、Spark）协同工作。C

CodeMaster_37714848·2024-09-09 16:12

华为云Flexus云服务器X实例与AI技术融合的实践探索

华为云Flexus云服务器X实例与AI技术融合的实践探索在当今数字化转型的浪潮中，云计算作为核心技术之一，正以前所未有的速度推动着各行各业的智能化升级。

我的运维人生·2024-09-09 13:21

基于深度学习的动态场景理解

1.动态场景理解的核心技术1.1卷积神经网络（CNNs）**卷积神经网络（CNNs）**擅长处理图像数据

SEU-WYL·2024-09-09 03:14

深入理解微服务架构：演变、优势、挑战与核心技术20240905

深入理解微服务架构：演变、优势、挑战与核心技术引言随着互联网应用的不断发展，传统的单体架构逐渐难以满足现代应用的需求。为了应对复杂多变的业务需求，微服务架构逐渐成为主流。

Narutolxy·2024-09-09 02:35

MySQL数据库运维：深度解析与实践指南

⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。

野老杂谈·2024-09-09 01:58

Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用

作为AI智能大模型的专家训练师，我将从主流模型框架的角度来分析其核心技术特点及其在不同实际行业中的应用。

Funhpc_huachen·2024-09-08 17:38

Hive的优势与使用场景

它利用Hadoop的MapReduce或Spark来执行查询，具备高度扩展性，适合大数据处理。2.支持SQL-like查询语言(Hi

傲雪凌霜，松柏长青·2024-09-08 17:07

【Python系列】中位数计算

Kwan的解忧杂货铺@新空间代码工作室·2024-09-08 15:24

Spark 3.5.1 升级 Java 17 异常 cannot access class sun.nio.ch.DirectBuffer

异常说明使用Spark3.5.1升级到Java17的时候会有一个异常，异常如下SLF4J:Failedtoloadclass"org.slf4j.impl.StaticLoggerBinder".SLF4J

敏叔V587·2024-09-08 15:23

【面试系列】Doris 高频面试题解答

⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。

野老杂谈·2024-09-08 10:44

【无标题】大数据之批处理，流处理，批流一体概念

Spark和Flink都支持批处理，其中Spark使用的是批处理模型，即将一批数据一次性读入内存，然后对其进行处理，处理完成后再将结果写入磁盘。

数字天下·2024-09-08 09:43

【大数据平台】数据处理层：批处理与流处理架构

⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。

野老杂谈·2024-09-08 09:07

Spring 中使用的设计模式全面解析

Spring框架作为Java开发的核心技术栈之一，广泛应用了多种设计模式来简化复杂系统的开发，提升代码的复用性、可维护性和扩展性。

胡耀超·2024-09-08 08:32

金融业务系统云原生技术转型：从传统架构到云原生的跨越

云计算作为这场变革的核心技术之一，正在重塑金融机构的IT架构。云原生技术以其敏捷性、弹性和可扩展性，为金融业务提供了强大的技术支撑，使得金融机构能够快速响应市场变化，提供更加个性化和高效的服务。

Jeremy_1022·2024-09-08 08:59

pyspark kafka mysql_数据平台实践①——Flume+Kafka+SparkStreaming(pyspark)

蜻蜓点水Flume——数据采集如果说，爬虫是采集外部数据的常用手段的话，那么，Flume就是采集内部数据的常用手段之一(logstash也是这方面的佼佼者)。下面介绍一下Flume的基本构造。Agent：包含Source、Channel和Sink的主体，它是这3个组件的载体，是组成Flume的数据节点。Event：Flume数据传输的基本单元。Source：用来接收Event，并将Event批量传

weixin_39793638·2024-09-08 04:34

深入理解 Linux epoll：高性能事件驱动的核心技术

介绍在高并发网络编程中，有效地管理大量的客户端连接是至关重要的。传统的I/O多路复用技术如select和poll在连接数较少时表现良好，但在连接数增加时性能下降明显。而Epoll则是一种高效的I/O多路复用技术，被广泛应用于服务器编程中，特别是在大规模并发连接的场景下。Epoll概述Epoll是Linux内核提供的一种事件通知机制，用于处理大量的I/O事件。Epoll在管理大量连接时具有更高的效率

程序修炼之道·2024-09-08 00:09

【路径规划】移动机器人在未知环境下目标的路径规划算法

理论路径规划是机器人导航的核心技术，旨在寻找从起点到目标点的最优路径，避开环境中的障碍物。本文提出的算法通过以下步骤实现路径规划：1.环境建模：创建包含障碍

梦想科研社·2024-09-07 20:42

<转>Spark体系架构

最近看到一篇关于Spark架构的博文，作者是AlexeyGrishchenko。

yongjian_luo·2024-09-07 20:11

Spark分布式计算原理

目录一、RDD依赖与DAG原理1.1RDD的转换一、RDD依赖与DAG原理Spark根据计算逻辑中的RDD的转换与动作生成RDD的依赖关系，同时这个计算链也形成了逻辑上的DAG。

NightFall丶·2024-09-07 20:40

Apache Flink 替换 Spark Stream的架构与实践( bilibili 案例解读)_streamsparkflink加载udf(1)

bilibili早期使用的引擎是SparkStreaming，后期扩展了Flink，在开发架构中预留了一部分引擎层的扩展。最下层是状态存储

2401_84165953·2024-09-07 12:44

MySQL 子查询与复杂查询的优化

⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。

野老杂谈·2024-09-07 09:23

PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd

DataFrame.show()使用格式：df.show()df.show(1)+---+---+-------+----------+-------------------+|a|b|c|d|e|+---+---+-------+----------+-------------------+|1|2.0|string1|2000-01-01|2000-01-0112:00:00|+---+---

2401_84187537·2024-09-07 08:47

PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd(1)

dfDataFrame[a:bigint,b:double,c:string,d:date,e:timestamp]####通过由元组列表组成的RDD创建rdd=spark.sparkContext.parallelize

2401_84181368·2024-09-07 08:46

PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd(2)

轻松切换到pandasAPI和PySparkAPI上下文，无需任何开销。有一个既适用于pandas（测试，较小的数据集）又适用于Spark（分布式数据集）的代码库。

2401_84181403·2024-09-07 08:46

Pyspark DataFrame常用操作函数和示例

针对类型：pyspark.sql.dataframe.DataFrame目录1.打印前几行1.1show()函数1.2take()函数2.读取文件2.1spark.read.csv3.获取某行某列的值(

还是那个同伟伟·2024-09-07 08:15

Spark概念知识笔记

最近总结了个人的各项能力，发现在大数据这方面几乎没有涉及，因此想补充这方面的知识，丰富自己的知识体系，大数据生态主要包含：Hadoop和Spark两个部分，Spark作用相当于MapReduceMapReduce

kuntoria·2024-09-07 05:21

Python编码系列—Python项目架构的艺术：最佳实践与实战应用

技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动

学步_技术·2024-09-06 22:14

大数据秋招面经之spark系列

文章目录前言spark高频面试题汇总1.spark介绍2.spark分组取TopN方案总结：方案2是最佳方案。

wq17629260466·2024-09-06 19:54

文本分析之关键词提取（TF-IDF算法）

关键词提取，作为文本分析的核心技术之一，正是帮助我们解锁文本信息精髓的关键工具。一、什么是关键词提取？关键词

富士达幸运星·2024-09-06 16:32

每天一个数据分析题（五百一十四）- 决策树算法

D.叶结点（leafnode）数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark

跟着紫枫学姐学CDA·2024-09-06 15:20

【C语言从不挂科到高绩点】12-数组练习-01

本节课开始重点给大家讲讲C语言中的数组本套课程将会从0基础讲解C语言核心技术，适合人群：大学中开设了C语言课程的同学想要专升本或者考研的同学想要考计算机等级证书的同学想要从事C/C++/嵌入式开发的同学

听潮阁·2024-09-06 12:03

中国2035年远景目标

二〇三五年基本实现社会主义现代化远景目标，这就是：我国经济实力、科技实力、综合国力将大幅跃升，经济总量和城乡居民人均收入将再迈上新的大台阶，关键核心技术实现重大突破，进入创新型国家前列；基本实现新型工业化

光剑书架上的书·2024-09-06 12:51

【Spark高级应用】使用Spark进行高级数据处理与分析

Spark高级应用使用Spark进行高级数据处理与分析引言在大数据时代，快速处理和分析海量数据是每个企业面临的重大挑战。

爱技术的小伙子·2024-09-06 10:47

spark读取csv文件

测试spark读取本地和hdfs文件frompyspark.sqlimportSparkSessionspark=SparkSession.builder\.appName("ExamplePySparkScript

静听山水·2024-09-06 10:44

SparkStreaming业务逻辑处理的一些高级算子

packagecom.sparkscala.streamingimportorg.apache.log4j.{Level,Logger}impor

看见我的小熊没·2024-09-06 09:43

Spark一些个人总结

文章目录前言一、Spark是什么二、Spark用来做什么三、Spark的优势是什么四、为什么用Spark五、Spark解决了什么问题总结前言随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的

易逑实战数据·2024-09-06 09:39

spark任务优化参数整理

以下参数中有sql字眼的一般只有spark-sql模块生效，例外的时候会另行说明，此外由于总结这些参数是在不同时间段，当时使用的spark版本也不一样，因此要注意是否有效，如果本博主已经试过的会直接说明

尘世壹俗人·2024-09-06 09:08

Spark与Kafka进行连接

在Java中使用Spark与Kafka进行连接，你可以使用SparkStreaming来处理实时流数据。以下是一个简单的示例，展示了如何使用SparkStreaming从Kafka读取数据并进行处理。

傲雪凌霜，松柏长青·2024-09-06 07:27

海量智库第4期｜Vastbase G100核心技术介绍之【NUMA架构性能优化技术】

导语NUMA架构优化技术是针对程序在NUMA架构CPU上运行出现资源消耗不均，程序执行效率低等问题进行优化的技术。这种优化技术在现在主流的NUMA架构多核服务器中，可以有效降低访问时延，提升高并发场景下的业务处理能力。NUMA架构优化前：延迟高，性能低NUMA架构，在未优化的情况下，NUMA的内存分配策略对于进程或线程并不公平，这会导致以下问题：Ø高并发时进程或线程频繁进行跨Node调度，上下文切

海量数据库·2024-09-06 05:48

Spark入门：KMeans聚类算法

聚类（Clustering）是机器学习中一类重要的方法。其主要思想使用样本的不同特征属性，根据某一给定的相似度度量方式（如欧式距离）找到相似的样本，并根据距离将样本划分成不同的组。聚类属于典型的无监督学习（UnsupervisedLearning）方法。与监督学习（如分类器）相比1，无监督学习的训练集没有人为标注的结果。在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。

17111_Chaochao1984a·2024-09-06 05:46

Spark MLlib模型训练—聚类算法 K-means

SparkMLlib模型训练—聚类算法K-meansK-means是一种经典的聚类算法，广泛应用于数据挖掘、图像处理、推荐系统等领域。

不二人生·2024-09-06 04:14

Spark MLlib模型训练—聚类算法 Bisecting K-means

SparkMLlib模型训练—聚类算法BisectingK-means由于传统的KMeans算法的聚类结果易受到初始聚类中心点选择的影响，因此在传统的KMeans算法的基础上进行算法改进，对初始中心点选取比较严格

不二人生·2024-09-06 04:14

DAG (directed acyclic graph) 作为大数据执行引擎的优点

TL;DR-ConceptuallyDAGmodelisastrictgeneralizationofMapReducemodel.DAG-basedsystemslikeSparkandTezthatareawareofthewholeDAGofoperationscandobetterglobaloptimizationsthansystemslikeHadoopMapReducewhicha

joeywen·2024-09-06 04:43

Spark的Web界面

http://localhost:4040/jobs/在顶部导航栏上，可以点击以下选项来查看不同类型的Spark应用信息：Jobs-此视图将列出所有已提交的作业，并提供每个作业的详细信息，如作业ID、名称

静听山水·2024-09-06 04:40

NPU技术总结

NPUs的核心技术并行性:NPUs利用数据并行性和任务并

技术学习分享·2024-09-06 00:47

最全金融数据_PySpark-3(2)，大数据开发学习的三个终极问题及学习路线规划

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取frompyspark.ml.evaluationimportBinaryClassificationEv

2401_84185145·2024-09-05 23:38

文章汇总 | 2018

12月RIA便签学习法10月财富最好的定义Spark分布式原理及碰到的三个坑在不断解决问题(矛盾)的过程进步9月《韭菜的自我修养》-股票交易是零和游戏吗?

学习之术·2024-09-05 22:27

Ingest Pipeline & Painless Script

包含3个字段，tags用逗号间隔PUTtech_blogs/_doc/1{"title":"Introducingbigdata......","tags":"hadoop,elasticsearch,spark

折纸虚桐·2024-09-05 22:03

Spark作业提交

一.作业提交1.1作业提交模式spark作业提交使用spark-submit命令，作业提交模式有cluster和client两种。

Tom无敌宇宙猫·2024-09-05 22:26

推荐频道

spark核心技术

实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题

starrocks和clickhouse数据库比较

华为云Flexus云服务器X实例与AI技术融合的实践探索

基于深度学习的动态场景理解

深入理解微服务架构：演变、优势、挑战与核心技术20240905

MySQL数据库运维：深度解析与实践指南

Transformer、BERT、GPT、T5、LLM（大语言模型），以及它们在实际行业中的运用

Hive的优势与使用场景

【Python系列】中位数计算

Spark 3.5.1 升级 Java 17 异常 cannot access class sun.nio.ch.DirectBuffer

【面试系列】Doris 高频面试题解答

【无标题】大数据之批处理，流处理，批流一体概念

【大数据平台】数据处理层：批处理与流处理架构

Spring 中使用的设计模式全面解析

金融业务系统云原生技术转型：从传统架构到云原生的跨越

pyspark kafka mysql_数据平台实践①——Flume+Kafka+SparkStreaming(pyspark)

深入理解 Linux epoll：高性能事件驱动的核心技术

【路径规划】移动机器人在未知环境下目标的路径规划算法

<转>Spark体系架构

Spark分布式计算原理

Apache Flink 替换 Spark Stream的架构与实践( bilibili 案例解读)_streamsparkflink加载udf(1)

MySQL 子查询与复杂查询的优化

PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd

PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd(1)

PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd(2)

Pyspark DataFrame常用操作函数和示例

Spark概念知识笔记

Python编码系列—Python项目架构的艺术：最佳实践与实战应用

大数据秋招面经之spark系列

文本分析之关键词提取（TF-IDF算法）

每天一个数据分析题（五百一十四）- 决策树算法

【C语言从不挂科到高绩点】12-数组练习-01

中国2035年远景目标

【Spark高级应用】使用Spark进行高级数据处理与分析

spark读取csv文件

SparkStreaming业务逻辑处理的一些高级算子

Spark一些个人总结

spark任务优化参数整理

Spark与Kafka进行连接

海量智库第4期｜Vastbase G100核心技术介绍之【NUMA架构性能优化技术】

Spark入门：KMeans聚类算法

Spark MLlib模型训练—聚类算法 K-means

Spark MLlib模型训练—聚类算法 Bisecting K-means

DAG (directed acyclic graph) 作为大数据执行引擎的优点

Spark的Web界面

NPU技术总结

最全金融数据_PySpark-3(2)，大数据开发学习的三个终极问题及学习路线规划

文章汇总 | 2018

Ingest Pipeline & Painless Script

Spark作业提交