E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
图解Spark
如何搭建
spark
yarn模式的集群
1.系统准备操作系统:推荐使用CentOS、Ubuntu等Linux发行版。Java环境:安装JDK1.8或以上版本。网络配置:确保集群中各节点网络互通,主机名和IP地址已正确配置。2.安装Hadoop下载Hadoop:从ApacheHadoop官网下载合适版本的Hadoop。解压安装:将Hadoop解压到指定目录,例如/opt/hadoop。配置Hadoop:修改core-site.xml和hd
rylshe1314
·
2025-05-03 10:40
spark
大数据
分布式
如何在idea中写
spark
程序
环境准备安装必要的软件:JDK8或更高版本IntelliJIDEA(社区版或终极版)Scala插件(如果使用Scala编写
Spark
程序)安装
Spark
:从Apache
Spark
官网下载预编译版本解压到本地目录创建项目新建项目
富能量爆棚
·
2025-05-03 10:40
intellij-idea
spark
java
Spark
与Hive的数据分区与分桶策略详解
1.背景介绍1.1大数据时代的数据处理挑战随着互联网、物联网、移动互联网等技术的飞速发展,全球数据量呈现爆炸式增长,大数据时代已经来临。海量数据的存储、管理和分析成为企业面临的巨大挑战。如何高效地处理和利用这些数据,从中提取有价值的信息,已成为当务之急。1.2分布式计算框架的兴起为了应对大数据处理的挑战,分布式计算框架应运而生。ApacheHadoop作为首个成熟的开源分布式计算框架,为大规模数据
AI天才研究院
·
2025-05-03 08:25
AI大模型企业级应用开发实战
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
【计算机网络】TCP三次握手,四次挥手以及SYN,ACK,seq,以及握手次数理解
TCP三次握手
图解
描述第一次握手:客户端请求建立连接,发送同步报文(SYN=1),同时随机一个seq=x作为初始序列号,进入SYN_SENT状态,等待服务器确认第二次握手:服务端收到请求报文,如果同意建立连接
{⌐■_■}
·
2025-05-03 07:12
计算机网络
tcp/ip
网络
spark
简介和核心编程
简介1.
Spark
-SQL概述:
Spark
SQL是
Spark
处理结构化数据的模块,前身是Shark。
小名叫咸菜
·
2025-05-03 06:06
spark
Kafka使用教程
流处理:与流处理框架(如ApacheFlink、Apache
Spark
Streaming)结合,进行实时数据分析。微服务通信:作为微服务架构中的消息中间件,实现服务间异步通信。物联网(IoT):
大三小小小白
·
2025-05-03 05:03
kafka
分布式
在
Spark
集群中搭建Standalone
1.Standalone模式介绍
Spark
Standalone模式是一种独立的集群部署模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。
Betty_蹄蹄boo
·
2025-05-03 01:04
spark
大数据
分布式
在
Spark
中通过jps命令看到的进程名,是哪个命令产生有什么作用
Hadoop分布式系统中的相关进程:Worker:产生命令:yarn命令产生。作用:在YARN(YetAnotherResourceNegotiator)中,Worker(通常指NodeManager)负责管理单个节点上的资源和任务执行。它与ResourceManager通信,接收并执行分配给它的任务。NodeManager:产生命令:yarn命令产生。作用:NodeManager是YARN中的节
Betty_蹄蹄boo
·
2025-05-03 01:34
spark
大数据
分布式
搭建
spark
yarn模式集群
如何搭建
Spark
Yarn模式集群1.前置条件准备在开始搭建
Spark
YARN集群之前,需要确保Hadoop和YARN已经正常部署并运行。
只因只因爆
·
2025-05-03 01:03
spark
大数据
分布式
Elasticsearch、Solr、Lucene 深度对比:架构解析、性能实战与选型指南
文章目录Elasticsearch、Solr、Lucene深度对比:架构解析、性能实战与选型指南一、内核级技术对比:从架构到原理1.1核心架构差异
图解
(1)Lucene单机索引流程(2)Solr集群架构
danny-IT技术博客
·
2025-05-03 00:30
lucene
elasticsearch
solr
java
后端
spring
boot
Hadoop 和
Spark
生态系统中的核心组件
一、Worker1.来源:
Spark
集群的工作节点(WorkerNode),由start-worker.sh启动2.作用:①在从节点上运行,负责执行Master分配的任务。
心仪悦悦
·
2025-05-03 00:59
hadoop
spark
大数据
在 IDEA 中编写
spark
wordcount 程序
将程序打成jar包上传到集群运行1、创建一个maven项目2、安装scala插件3、在项目中添加scala插件4、添加pom依赖1.2.171.7.222.1.12.11.82.7.2org.apache.
spark
spark
-core
火成哥哥
·
2025-05-02 23:53
spark
大数据
hadoop
scala
spark
log4j
Spark
,序列化反序列化
序列化反序列化的定义:序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。先写一个类publicclassStudent{publicStudent(Stringname,intage){this.name=name;this.age=age;}Stringn
Amu_Yalo
·
2025-05-02 20:57
spark
大数据
分布式
在Azure Databricks中实现缓慢变化维度(SCD)的三种类型
在AzureDatabricks中使用Py
Spark
实现缓慢变化维度(SCD)的三种核心类型,需结合
Spark
SQL和DataFrameAPI的特性,并利用DeltaLake的事务支持。
weixin_30777913
·
2025-05-02 17:05
数据仓库
python
spark
azure
云计算
从Kafka读取数据
用
Spark
-Streaming从Kafka读取数据在大数据处理领域,
Spark
-Streaming和Kafka都是明星技术。
美味的大香蕉
·
2025-05-02 15:27
笔记
Kafka与
Spark
-Streaming
大数据处理的得力助手:Kafka与
Spark
-Streaming在大数据处理的领域中,Kafka和
Spark
-Streaming都是极为重要的工具。
美味的大香蕉
·
2025-05-02 15:27
笔记
跨领域大数据抓取与融合:Python爬虫实战指南
目录引言跨领域大数据抓取与融合的背景与意义技术选型与工具介绍Python爬虫框架:Scrapy、BeautifulSoup、Selenium数据处理与存储:Pandas、NumPy、MongoDB数据融合与分析:Py
Spark
Python爬虫项目
·
2025-05-02 12:36
2025年爬虫实战项目
大数据
python
爬虫
人工智能
开发语言
easyui
Spark
和Hadoop之间的对比和联系
Spark
和Hadoop都是大数据处理领域的重要框架,它们之间的对比和联系如下:对比-计算模型:Hadoop采用MapReduce计算模型,将任务分为Map和Reduce两个阶段,适用于批处理。
祈533
·
2025-05-02 06:57
虚拟机
智能工单分类系统实战指南:AI落地全解析
目录一、系统工作流程
图解
二、AI赋能的四大核心战场1.工单预处理中心2.特征工程工厂3.智能分类引擎4.质量监控闭环三、关键技术选型指南1.模型性能对比表2.硬件配置推荐四、实施路线图(三年规划)1.基础建设期
Sonal_Lynn
·
2025-05-01 21:27
人工智能专题
人工智能
python
机器学习
算法
深度学习
02_值相同、类型不同,用 equals() 比较为什么是 false?
过程
图解
传入keyWord(类型Integer)↓Map内部containsKey(Objectkey)↓调用Long.equals(Obj
耀耀_很无聊
·
2025-05-01 20:51
java
开发语言
php连接postgresql
安装:附安装
图解
(网上找的):http://blog.sina.com.cn/s/blog_5edb701b0100mwi7.html补充一点:最后StackBuilder提示下载的东西,如果网速不好,
guoxiaoqian8028
·
2025-05-01 18:38
PHP/Python
如何在idea中写
spark
程序
在IntelliJIDEA中编写
Spark
程序是一个高效且便捷的方式,以下是一个详细的步骤指南,帮助你在IntelliJIDEA中创建和运行
Spark
程序。
lqlj2233
·
2025-05-01 14:13
intellij-idea
spark
java
如何在idea 中写
spark
程序
在IntelliJIDEA中编写
Spark
程序可以通过以下步骤进行:1.**安装Scala插件**:首先确保已经安装了Scala插件。
小萌新~~~~
·
2025-05-01 14:41
intellij-idea
spark
java
搭建
spark
-local模式
要搭建
Spark
的local模式,你可以按照以下步骤进行操作(以在Linux系统上安装为例,假设你已经安装了Java环境):1.下载
Spark
安装包:访问
Spark
官方网站(https://
spark
.apache.org
祈533
·
2025-05-01 13:38
虚拟机
【JSON vs Python字典】核心区别与互操作指南
目录前言技术背景与价值当前技术痛点解决方案概述目标读者说明一、技术原理剖析核心概念
图解
核心作用讲解关键技术模块说明技术选型对比二、实战演示环境配置要求核心代码实现运行结果验证⚡三、性能对比测试方法论量化数据对比结果分析四
满怀1015
·
2025-05-01 09:07
Python入门学习
人工智能
人工智能
JSON
数据结构
数据交换
API开发
Java架构师之路六、高并发与性能优化:高并发编程、性能调优、线程池、NIO、Netty、高性能数据库等。
-CSDN博客下篇:Java架构师之路七、大数据:Hadoop、
Spark
、Hive、HBase、Kafka等-CSDN博客高并发编程:高并发编程是指针对大量用户同时访问的情况下,如何设计和实现能够支持大规模并发访问的系统
述清-架构师之路
·
2025-05-01 07:28
Java架构师之路
java
性能优化
nio
spark
读写 parquet
SQLConf//ThisisusedtosetthedefaultdatasourcevalDEFAULT_DATA_SOURCE_NAME=buildConf("
spark
.sql.sources.default
zhixingheyi_tian
·
2025-05-01 07:54
大数据
spark
spark源码分析
spark
大数据
分布式
maven 中,使用shadedClassifierName配置项,解决jar自带版本号的问题
增加以下两行配置truewith-
spark
-${
spark
.internal.version}就可以使得编译的jar包带上指定的后缀mavenorg.apache.maven.pluginsmaven-shade-plugin3.1.0truewith-
spark
zhixingheyi_tian
·
2025-05-01 07:24
大数据
spark
maven
jar
spark
Spark
之 kvstore
参考链接https://blog.csdn.net/LS_ice/article/details/86610537https://www.cnblogs.com/byzgss/p/15780923.htmlhttps://blog.csdn.net/nazeniwaresakini/article/details/104220186kvstore的几种实现:InMemoryStore是在内存中维护
zhixingheyi_tian
·
2025-05-01 07:54
spark
Spark
之 ArrayType
ArrayTypedefinitioncaseclassArrayType(elementType:DataType,containsNull:Boolean)extendsDataType{/**No-argconstructorforkryo.*/protecteddefthis()=this(null,false)private[sql]defbuildFormattedString(pre
zhixingheyi_tian
·
2025-05-01 07:54
spark
spark
大数据
big
data
Spark
SQL的基本架构与DataFrame概述
一、
Spark
SQL的基本概念1,
Spark
SQL的组成
Spark
SQL是
Spark
的一个结构化数据处理模块,提供一个DataFrame编程抽象,可以看做是一个分布式SQL查询引擎。
晓之以理的喵~~
·
2025-05-01 07:53
大数据
Hadoop
Spark
spark
sql
架构
spark
SQL优化器catalyst学习
一、Catalyst概述Catalyst是
Spark
SQL的优化器,它负责将SQL查询转换为物理执行计划。Catalyst优化器的目标是生成高效的执行计划,以最小化查询的执行时间。
极度丶浚爱
·
2025-05-01 06:22
spark
sql
学习
Spark
SQL 之 DAG
SQLAppStatusListeneraccumsoverridedefonTaskEnd(event:
Spark
ListenerTaskEnd):Unit={if(!isSQLStage
zhixingheyi_tian
·
2025-05-01 06:20
spark
spark
大数据
分布式
【Python学习路线】零基础到项目实战系统
目录前言技术背景与价值当前技术痛点解决方案概述目标读者说明一、技术原理剖析核心概念
图解
核心作用讲解关键技术模块说明技术选型对比二、实战演示环境配置要求核心代码实现运行结果验证⚡三、性能对比测试方法论量化数据对比结果分析四
满怀1015
·
2025-05-01 00:43
人工智能
Python入门学习
学习
开发语言
Python入门
数据分析
人工智能
python
全开源彩虹易支付系统源码搭建教程附源码
为了实现高效的数据处理和分析,系统使用了大数据技术,包括分布式数据存储和计算框架,如Hadoop、
Spark
等。源码演示站:fakaysw.top数据库技术:彩虹易支付系统需要存储用
qinheyan
·
2025-04-30 16:22
开源
Spark
On YARN环境配置
一、准备工作点击查看
Spark
StandaloneHA环境配置教程二、修改配置文件一、修改
spark
-env.shcd/export/server/
spark
/confvim/export/server
飞Link
·
2025-04-30 10:14
Water
spark
yarn
hadoop
相关进程名对应的启动命令及其作用
WorkerNodeManagerDataNodeMasterNameNodeJobHistoryServerHistoryServer这些进程名对应的启动命令及其作用:1.Worker-**产生命令**:在
Spark
Standalone
谁偷了我的炒空心菜
·
2025-04-30 10:13
前端
开发语言
spark
hadoop
hdfs
Spark
配置 YARN 模式
在大数据处理领域,
Spark
是一个强大的分布式计算框架,而YARN(YetAnotherResourceNegotiator)则是Hadoop生态系统中出色的资源管理器。
谁偷了我的炒空心菜
·
2025-04-30 10:42
spark
大数据
yarn
【Python数据库编程实战】从SQL到ORM的完整指南
目录前言技术背景与价值当前技术痛点解决方案概述目标读者说明一、技术原理剖析核心概念
图解
核心作用讲解关键技术模块说明技术选型对比二、实战演示环境配置要求核心代码实现案例1:SQLite基础操作案例2:MySQL
满怀1015
·
2025-04-30 07:17
Python进阶精讲
Python应用
数据库
数据库
python
sql
编程入门
【Robocorp实战指南】Python驱动的开源RPA框架
目录前言技术背景与价值当前技术痛点解决方案概述目标读者说明一、技术原理剖析核心概念
图解
核心作用讲解关键技术模块说明技术选型对比二、实战演示环境配置要求核心代码实现案例1:网页数据抓取案例2:Excel报表生成运行结果验证三
满怀1015
·
2025-04-30 04:24
流程自动化
python
开源
rpa
【PyTorch动态计算图原理精讲】从入门到灵活应用
目录前言技术背景与价值当前技术痛点解决方案概述目标读者说明一、技术原理剖析核心概念
图解
核心作用讲解关键技术模块说明技术选型对比二、实战演示环境配置要求核心代码实现案例1:基础计算图构建案例2:条件分支动态图案例
满怀1015
·
2025-04-30 04:24
Python进阶精讲
pytorch
人工智能
python
【PyTorch动态计算图实战解析】从原理到高效开发
目录前言技术背景与价值当前技术痛点解决方案概述目标读者说明一、技术原理剖析核心概念
图解
核心作用讲解关键技术模块说明技术选型对比二、实战演示环境配置要求核心代码实现案例1:梯度计算可视化案例2:动态控制流案例
满怀1015
·
2025-04-30 04:24
Python进阶精讲
人工智能
pytorch
人工智能
python
PyTorch
深度学习
动态计算图
大数据教程:
Spark
Shell和IDEA中编写
Spark
程序
spark
-shell是
Spark
自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用Scala编写
Spark
程序。
spark
-shell程序一般用作
Spark
程序测试练习来用。
yiyidsj
·
2025-04-29 23:22
大数据
人工智能
互联网
Spark
大数据
大数据开发
大数据分析
大数据学习
在 idea上用编写
spark
程序链接hive
在idea上用编写
spark
程序链接hive在idea上编写
spark
程序,pom文件上要包含hive依赖,网上大把,链接hive其实可以不用将hdfs,core等文件加入程序,直接在代码中声明metastore
小刘秃头日常
·
2025-04-29 23:21
spark
hive
intellij-idea
如何在idea中写
spark
程序
1.安装IntelliJIDEA下载并安装IntelliJIDEA(推荐使用Community版本,对于大多数
Spark
开发需求已经足够)。安装完成后启动IDEA。
rylshe1314
·
2025-04-29 23:50
hadoop
如何搭建
spark
yarn模式的集群
搭建
Spark
YARN模式集群指南在大数据处理领域,
Spark
是一款强大的分布式计算框架,而YARN(YetAnotherResourceNegotiator)则是Hadoop生态系统中的资源管理系统。
谁偷了我的炒空心菜
·
2025-04-29 23:18
spark
大数据
分布式
配置
Spark
历史服务器,轻松查看任务记录
在大数据处理中,
Spark
是一个强大的分布式计算框架。但当
Spark
服务重启后,之前的运行记录就会消失,给我们排查问题和分析任务执行情况带来不便。
谁偷了我的炒空心菜
·
2025-04-29 23:17
spark
服务器
大数据
如何在idea中编写
spark
程序
在IntelliJIDEA中编写
Spark
程序的详细指南在大数据处理领域,Apache
Spark
凭借其强大的分布式计算能力,成为了众多开发者的首选工具。
谁偷了我的炒空心菜
·
2025-04-29 22:16
intellij-idea
spark
java
【课程笔记】华为 HCIA-Big Data 大数据 总结
HDFS分布式文件系统ZooKeeper分布式应用程序协调服务HBase非关系型分布式数据库Hive分布式数据仓库ClickHouse列式数据库管理系统MapReduce分布式计算框架Yarn资源管理调度器
Spark
淵_ken
·
2025-04-29 22:12
华为
HCIA-Big
Data
大数据
大数据
【Python数据驱动决策】数据分析与可视化全流程实战指南
目录前言技术背景与价值当前技术痛点解决方案概述目标读者说明一、技术原理剖析核心概念
图解
核心作用讲解关键技术模块说明技术选型对比二、实战演示环境配置要求核心代码实现案例1:销售数据清洗案例2:月度销售趋势分析案例
满怀1015
·
2025-04-29 20:58
Python进阶精讲
Python应用
数据分析和可视化
python
数据分析
开发语言
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他