Spark学习之路

nosql数据库技术与应用知识点

Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink

皆过客，揽星河·2024-09-16 08:42

分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT)

作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p

计算机源码社·2024-09-15 20:02

Spark 组件 GraphX、Streaming

Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming

叶域·2024-09-15 14:54

大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能

做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（

2401_84572577·2024-09-15 10:20

【监控告警】02-Promtheus的学习之路

prometheus采用的是拉模式为主，推模式为辅的方式采集数据。Prometheus作为一个指标系统天生就不是精确的——由于指标本身就是稀疏采样的，事实上所有的图表和警报都是”估算”，我们也就不必太纠结于图表和警报的对应性，能够帮助我们发现问题解决问题就是一个好监控系统。当然，有时候我们也得证明这个警报确实没问题，那可以看一眼`ALERTS`指标。`ALERTS`是Prometheus在警报计算

Kearey.·2024-09-15 08:33

Spark集群的三种模式

文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式

MelodyYN·2024-09-15 01:16

Java中的大数据处理框架对比分析

本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的

省赚客app开发者·2024-09-14 20:41

写出渗透测试信息收集详细流程

一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。

卿酌南烛_b805·2024-09-14 16:08

Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares)

不二人生·2024-09-14 08:25

3 java学习之路从就近原则和this关键字开始

求博文多多人看是我写的很烂吗？就近原则以上图举例就近原则，输出age但是成员变量和局部变量变量名age冲突了,就近原则就起效果了，离输出语句近的变量就被使用了。但是要是想用上面那个成员变量咋办？别怕，this会给出答案！！！使用了this关键字就会指向成员变量。就这样比较简单咱们上案例打字太麻烦了直接上视频！kk2024-09-1321-23-42录的视频，真的很烂给大家磕一个构造器kk2024-

Daijunxi_cpu·2024-09-14 01:35

【图像压缩】奇异值分解SVD灰色图像压缩（可设置压缩比）【含Matlab源码 4358期】

个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。

Matlab武动乾坤·2024-09-13 16:14

Python基础知识进阶之正则表达式_头歌python正则表达式进阶

知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是

前端陈萨龙·2024-09-13 13:50

分布式离线计算—Spark—基础介绍

原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor

测试开发abbey·2024-09-13 11:11

spark常用命令

查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME

我是浣熊的微笑·2024-09-13 10:38

spark启动命令

hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ

学不会又听不懂·2024-09-13 10:36

大数据领域的深度分析——AI是在帮助开发者还是取代他们？

1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于

阳爱铭·2024-09-13 09:32

大数据新视界 --大数据大厂之 Spark 性能优化秘籍：从配置到代码实践

亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja

青云交·2024-09-13 08:25

Java学习之路：实践项目与进阶学习--创建一个图书管理系统

前言：上一篇学习了入门级知识，留了一份作业，其实创建一个图书管理系统是一个很好的实践项目，可以帮助你掌握数据库操作、前端开发和基本的CRUD（创建、读取、更新、删除）操作，数据库存储书籍信息，以及一个基本的用户界面。项目结构后端:使用Java和SpringBoot实现RESTfulAPI。数据库:使用H2数据库进行书籍信息存储。（也可使用mysql数据库设计，详情可参考：《MySQL数据库课程设计

Dreams°123·2024-09-13 04:54

编程常用命令总结

编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令

Yellow0523·2024-09-13 02:42

【面试系列】Spark 高频面试题解答

欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho

野老杂谈·2024-09-12 18:52

spark常见面试题

文章目录1.Spark的运行流程？2.Spark中的RDD机制理解吗？3.RDD的宽窄依赖4.DAG中为什么要划分Stage？

爱敲代码的小黑·2024-09-12 18:51

Spark面试题

Spark面试题1.Spark基础概念1.1解释Spark是什么以及它的主要特点Spark是什么？

golove666·2024-09-12 18:19

图计算：基于SparkGrpahX计算聚类系数

图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient

妙龄少女郭德纲·2024-09-12 18:16

2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到

知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是

2401_84569545·2024-09-12 02:33

Spark运行时架构

目录一，Spark运行时架构二，YARN集群架构（一）YARN集群主要组件1、ResourceManager-资源管理器2、NodeManager-节点管理器3、Task-任务4、Container-容器

tooolik·2024-09-12 01:59

使用SparkSql进行表的分析与统计

背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。

xingyuan8·2024-09-12 00:24

13.Spark Core-Spark中广播变量和累加器

一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。累机器相当于统筹大变量，常用于计数，统计。

__元昊__·2024-09-11 12:33

比较Spark与Flink

ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。

傲雪凌霜，松柏长青·2024-09-11 04:29

Spark底层逻辑

ApacheSpark的底层逻辑可以从其核心概念、组件和执行流程等方面来理解。Spark提供了一个分布式数据处理框架，其底层逻辑基于批处理架构，能够在大规模集群中高效地处理数据。

傲雪凌霜，松柏长青·2024-09-11 04:29

1130每日一省Day15(重启Day8)

晚饭后妈妈简单收拾餐桌做完收尾工作后开启业余学习之路。今天收

活成自己的小太阳0329·2024-09-11 04:55

一起走的学习之路(125)

最大的难题不知道大家有没有这个感受，最近由于没有学习专栏了，每天要写什么，成为了一大难题。以往，都可以根据专栏的内容，确定今天文章的主题，然后再根据这个主题，来找实际的例子，一篇文章很快就有了大体的结构，但现在写什么成最大的难题。剖析原因认真分析了，从我们集中学习专栏结束到今天，我为什么写不出来的几个原因。一是，由于缺乏发现的能力，觉得身边好像很多话题都是以前我们写过的，只能重复不断的写，难以找到

小米雨路·2024-09-11 00:27

Spark - 升级版数据源JDBC2

在spark的数据源中，只支持Append,Overwrite,ErrorIfExists,Ignore,这几种模式，但是我们在线上的业务几乎全是需要upsert功能的，就是已存在的数据肯定不能覆盖，在

大猪大猪·2024-09-10 17:28

PySpark

PySpark的本质确实是Python的一个接口层，它允许你使用Python语言来编写ApacheSpark应用程序。

静听山水·2024-09-10 13:44

Ubuntu的ssh

sshsudoapt-getupdatesudoapt-getinstallopenssh-server检测ssh是否启动sudops-e|grepssh创建root用户sudopasswdroot配置本机无密码ssh登录cd/home/spark0ssh-keygen-trsa-P

请不要问我是谁·2024-09-10 03:29

2024年大数据最新实时数仓之实时数仓架构(Hudi)

用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark

2401_84185556·2024-09-09 19:34

实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题

包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark

2401_84181221·2024-09-09 19:04

starrocks和clickhouse数据库比较

支持多种数据源的集成，并且可以与其他大数据技术（如Hadoop、Spark）协同工作。C

CodeMaster_37714848·2024-09-09 16:12

Hive的优势与使用场景

它利用Hadoop的MapReduce或Spark来执行查询，具备高度扩展性，适合大数据处理。2.支持SQL-like查询语言(Hi

傲雪凌霜，松柏长青·2024-09-08 17:07

Spark 3.5.1 升级 Java 17 异常 cannot access class sun.nio.ch.DirectBuffer

异常说明使用Spark3.5.1升级到Java17的时候会有一个异常，异常如下SLF4J:Failedtoloadclass"org.slf4j.impl.StaticLoggerBinder".SLF4J

敏叔V587·2024-09-08 15:23

Day38开启2020学习之路

十点，十点，十点，才下班每每到了这个点要是晚上还在加班，下班晚，就很懊恼，懊恼时间去了哪，懊恼为什么到了这个点还没把今天的工作做完，懊恼又不能按时回家带娃，懊恼今天的运动打卡又没有时间完成了，懊恼上的日更又是匆忙凑字数了，懊恼晚上又得晚睡了…我改怎么办…

佳佳_797e·2024-09-08 15:52

【无标题】大数据之批处理，流处理，批流一体概念

Spark和Flink都支持批处理，其中Spark使用的是批处理模型，即将一批数据一次性读入内存，然后对其进行处理，处理完成后再将结果写入磁盘。

数字天下·2024-09-08 09:43

pyspark kafka mysql_数据平台实践①——Flume+Kafka+SparkStreaming(pyspark)

蜻蜓点水Flume——数据采集如果说，爬虫是采集外部数据的常用手段的话，那么，Flume就是采集内部数据的常用手段之一(logstash也是这方面的佼佼者)。下面介绍一下Flume的基本构造。Agent：包含Source、Channel和Sink的主体，它是这3个组件的载体，是组成Flume的数据节点。Event：Flume数据传输的基本单元。Source：用来接收Event，并将Event批量传

weixin_39793638·2024-09-08 04:34

<转>Spark体系架构

最近看到一篇关于Spark架构的博文，作者是AlexeyGrishchenko。

yongjian_luo·2024-09-07 20:11

Spark分布式计算原理

目录一、RDD依赖与DAG原理1.1RDD的转换一、RDD依赖与DAG原理Spark根据计算逻辑中的RDD的转换与动作生成RDD的依赖关系，同时这个计算链也形成了逻辑上的DAG。

NightFall丶·2024-09-07 20:40

java后端未来学习之路

最近找到了一篇文章，感觉是自己可以借鉴的，具体内容如下：首先，我个人比较推崇的学习方法是：先学java前端，也就是HTML，css，js，因为学习java以后肯定是往javaee方向发展的，学习完前端，在学习后端很多东西比计较容易理解！其中J2SE是关键，如果学好了javase部分，基础扎实了，后面进阶学习也比较轻松！补充说明一下：我觉得学习java比较合适的方法是先把所有的知识点过一遍，然后把所

命z·2024-09-07 15:31

编程学习之路上的高墙与希望之光

编程学习之路上的高墙与希望之光在编程的世界里，挫折感就像一道道难以逾越的高墙，常常让人感到无所适从。许多人因为这些高墙而停下了脚步，但那些真正的编程高手却总能找到方法突破这些障碍。

一个代码猎人·2024-09-07 14:26

Apache Flink 替换 Spark Stream的架构与实践( bilibili 案例解读)_streamsparkflink加载udf(1)

bilibili早期使用的引擎是SparkStreaming，后期扩展了Flink，在开发架构中预留了一部分引擎层的扩展。最下层是状态存储

2401_84165953·2024-09-07 12:44

PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd

DataFrame.show()使用格式：df.show()df.show(1)+---+---+-------+----------+-------------------+|a|b|c|d|e|+---+---+-------+----------+-------------------+|1|2.0|string1|2000-01-01|2000-01-0112:00:00|+---+---

2401_84187537·2024-09-07 08:47

PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd(1)

dfDataFrame[a:bigint,b:double,c:string,d:date,e:timestamp]####通过由元组列表组成的RDD创建rdd=spark.sparkContext.parallelize

2401_84181368·2024-09-07 08:46

PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd(2)

轻松切换到pandasAPI和PySparkAPI上下文，无需任何开销。有一个既适用于pandas（测试，较小的数据集）又适用于Spark（分布式数据集）的代码库。

2401_84181403·2024-09-07 08:46

推荐频道