E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop;Spark
py
spark
底层浅析
py
spark
底层浅析py
spark
简介py
spark
是
Spark
官方提供的API接口,同时py
spark
也是
Spark
中的一个程序。
lo_single
·
2025-06-22 12:35
Spark
spark
python
方舟自建服务器物品叠加mod,10000倍物品叠加 -90%负重 V280
工艺资源(
Spark
大奇鸭
·
2025-06-22 11:27
方舟自建服务器物品叠加mod
Python大数据处理中有哪些分布式计算框架?如何选择和使用?
二、Python大数据处理中的分布式计算框架Apache
Spark
Apache
Spark
代码小狂热者
·
2025-06-22 02:05
python
开发语言
大数据核心面试题全解析,答案精准拿捏面试官(
hadoop
篇)
1.什么是
Hadoop
?
Hadoop
是一个开源的分布式系统基础架构,用于存储和处理大规模数据集。
浅谈星痕
·
2025-06-22 00:23
大数据
[5-03-01].第14节:集群搭建 - 在Linux系统中搭建
SpringCloud学习大纲三、集群环境搭建:3.1.集群规划1.nacos规划:
hadoop
103
hadoop
104
hadoop
105192.168.148.3192.168.148.4192.168.148.5nacosnacosnacos2
1.01^1000
·
2025-06-21 17:36
#
企业级框架
springcloud
大数据学习(141)-分布式数据库
HDFS(
Hadoop
DistributedFileSystem)、HBase和ClickHouse都是处理大数据的分布式系统,但它们的设计目标、架构和适用场景有所不同。
viperrrrrrr
·
2025-06-21 11:28
大数据
学习
分布式
clickhouse
hdfs
hbase
HDFS Federation(联邦) 架构YARN的Capacity Scheduler调度策略 ResourceManager的共享存储具体实现方式
为了克服这个限制,
Hadoop
引入了Federation机制,允许一个集群中有多个NameNode/NameSpace,每个NameNode管理一部分文件系统,从而分散负载。
2401_8554978
·
2025-06-21 05:49
hdfs
架构
java
scp与rsync
(fromserver1toserver2)(2)基本语法scp-rpdir/pdir/pdir/fnameuser@
hadoop
user@
hadoop
user@
JeremyHeria
·
2025-06-21 04:12
#
hadoop
hadoop
大数据
复习打卡大数据篇——
Hadoop
HDFS 03
目录1.HDFS元数据存储2.HDFSHA高可用1.HDFS元数据存储HDFS中的元数据按类型可以分为:文件系统的元数据:包括文件名、目录名、修改信息、block的信息、副本信息等。datanodes的状态信息:比如节点状态、使用率等。HDFS中的元数据按存储位置可以分为内存中元数据和磁盘上的元数据磁盘上的元件数据包括fsimage镜像文件和editslog编辑日志,因为在磁盘上可以保证持久化存储
筒栗子
·
2025-06-21 03:39
大数据
hadoop
hdfs
TiDB 替换 HBase 全场景实践指南 ——从架构革新到业务赋能
作者:数据源的TiDB学习之路原文来源:https://tidb.net/blog/c687d474第一章:HBase的历史使命与技术瓶颈1.1HBase的核心价值与经典场景作为
Hadoop
生态的核心组件
TiDB 社区干货传送门
·
2025-06-20 23:41
tidb
hbase
架构
数据库
大数据
前端vue js 使用插件
spark
-md5 计算文件MD5值并封装成Promise异步调用方法
1.依赖:需要安装
spark
-md5npminstall--save
spark
-md52.代码分析1.功能:该函数接收一个File对象,将其分块(每块2MB)读取,并使用
spark
-md5计算整个文件的
低级前端
·
2025-06-20 23:10
Vue学习
Vue3学习+实战
uniapp
javascript
前端
vue.js
spark
开发语言
java
spark
操作 mongo实践
java
spark
操作mongo实践按照官方文档配置https://docs.mongodb.com/
spark
-connector/master/java-api/需要说明一下,官方文档中要求引入的pom
哆啦A梦00
·
2025-06-20 23:10
spark
java
spark
什么是MapReduce
它由Google在2004年提出,后来成为Apache
Hadoop
项目的核心计算引擎。MapReduce通过将计算任务分解为两个主要阶段——Map(映射)和Reduce(归约)——来实现分布式计算。
ThisIsClark
·
2025-06-20 23:10
大数据
mapreduce
大数据
Spark
学习【一】
Spark
基本概念MapReduce存在的缺陷编写难度大不能很好充分利用系统内存一个作业多个MR任务嵌套不友好(每一个task都是jvm进程级别创建销毁开销都很大、每一次都要涉及磁盘或dfs或db和网络的
·
2025-06-20 23:39
【
Spark
征服之路-2.8-
Spark
-Core编程(四)】
Spark
默认的分区器是HashPartitionervalrdd:RDD[(Int,String)]=sc.makeRDD(Array((1,"aaa"),(2,"bbb"),
qq_46394486
·
2025-06-20 23:39
spark
windows
大数据
【
Spark
】岗位数据分析
使用
Spark
进行岗位数据分析配置详解数据获取MySQL建表语句Settings文件主项目代码items部分代码pipelines部分代码**数据分析分析不同学历的平均薪资分析不同岗位的平均薪资分析各公司提供的岗位配置详解本文是使用
飝鱻.
·
2025-06-20 23:09
Spark
爬虫
python
spark
数据分析
python
[Data Pipeline] MinIO存储(数据湖) | 数据层 Bronze/Silver/Gold
在第二章:
Spark
作业(数据处理)中,我们学习了
Spark
作业如何作为强大的工作者来清洗、转换和准备这些数据。现在,处理后的数据去往何处?
Spark
作业在后续步骤中从哪里获取数据?
lvy-
·
2025-06-20 23:37
#
Date
Pipeline.大数据
数据库
python
HoRain云--
Spark
Streaming实时分析的7大优势解析
目录⛳️推荐1.与
Spark
生态的深度集成2.高吞吐量与水平扩展能力3.强大的容错机制4.灵活的状态管理与窗口操作5.丰富的输入/输出连接器6.开发与调试便捷性7.成本效益适用场景总结与其他流处理框架的对比总结
HoRain 云小助手
·
2025-06-20 16:21
spark
前端
服务器
HoRain云--
Spark
核心三剑客:RDD、DataFrame与Dataset解析
HoRain云小助手:个人主页个人专栏:《Linux系列教程》《c语言教程》⛺️生活的理想,就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站,性价比超高,大内存超划算!忍不住分享一下给大家。点击跳转到网站。专栏介绍专栏名称专栏介绍《C语言》本专栏主要撰写C干货内容和编程技巧,让大家从底层了解C,把更多的知识由抽象到简单通俗易懂。《网络协议》本专栏主要是注重从底层来给大家一步步剖析网
HoRain云小助手
·
2025-06-20 16:49
spark
大数据
分布式
Hive的优化
一、开启本地模式大多数的
Hadoop
Job是需要
Hadoop
提供的完整的可扩展性来处理大数据集的。不过,有时Hive的输入数据量是非常小的。
小王同学mf
·
2025-06-20 14:11
hive
hadoop
数据仓库
解密Kong API Gateway:领码
SPARK
微服务治理与安全的高效利器
KongAPIGateway作为统一网关,借助领码
SPARK
解决方案整合AI与自动化智能运维,实现统一入口管理、智能流量控制、多样认证及安全防护。本文以图表详解服务治理流程与安全全链路策略,结合现
领码科技
·
2025-06-20 08:56
低代码
实战篇
微服务架构
API
Gateway
服务治理
AI智能监控
安全策略
数据库选型之路YMatrix与Clickhouse对比
当前的生产系统运行在Mysql上,从开始的保留半年的数据,到现在缩减到保留不足三个月的数据,全量数据实时同步到
Hadoop
,随着业务的发展,Mysql和Had
星*语
·
2025-06-20 07:15
数据库
数据仓库
时序数据库
【Ambari3.0.0 部署】Step3—安装JDK17与JDK1.8-适用于el8
如果有其他系统部署需求可以参考原文https://doc.janettr.com/install/manual/Step3—安装JDK17与JDK1.8Ambari3.0及部分Bigtop/
Hadoop
TTBIGDATA
·
2025-06-20 06:37
ambari
bigtop
hdp
hidataplus
edp
大数据
el8
Spark
之 Subquery
各类Subquerysrc/main/scala/org/apache/
spark
/sql/catalyst/expressions/predicates.scala/***Evaluatesto`true
zhixingheyi_tian
·
2025-06-20 03:51
spark
spark
大数据
分布式
Hadoop
MapReduce作业提交流程源码精讲:主线方法、设计模式与调试实战
Hadoop
MapReduce作业提交流程源码精讲:主线方法、设计模式与调试实战一、前言
Hadoop
MapReduce是大数据计算生态的基础。
北漂老男人
·
2025-06-19 22:16
MapReduce
hadoop
mapreduce
设计模式
深入理解
Hadoop
MapReduce 调度原理与 YARN 架构
深入理解
Hadoop
MapReduce调度原理与YARN架构作者:标签:大数据、
Hadoop
、YARN、MapReduce、调度器一、前言在大数据领域,
Hadoop
是最重要的分布式计算平台之一。
北漂老男人
·
2025-06-19 22:13
MapReduce
hadoop
mapreduce
架构
学习方法
常见的Dolphin Scheduler报错
dolphinscheduler/bin/env/dolphinscheduler_env.sh中exportSQOOP_HOME=/opt/installs/sqoopexportPATH=$SQOOP_HOME/bin:$
HADOOP
_HOME
线条1
·
2025-06-19 20:03
数据库
【
Spark
征服之路-2.10-
Spark
-Core编程(六)】
valrdd=
spark
Context.makeRDD(List(1,2,3,4,5))//声明累加器varsum=
spark
Context.longAccumu
qq_46394486
·
2025-06-19 15:47
spark
c#
大数据
Hadoop
中的HDFS的存储机制
Hadoop
中HDFS的存储机制HDFS(
Hadoop
DistributedFileSystem)是
Hadoop
分布式计算中的数据存储系统,是基于流数据模式访问和处理超大文件的需求而开发的。
向阳争渡
·
2025-06-19 14:43
大数据/Hadoop
hadoop
hdfs
分布式计算
数据存储
存储
Hadoop
HDFS深入解析
文件系统早在1965年开发的Multies(UNIX的前身)就详细地设计了文件系统,这使得文件系统成为多用户单节点操作系统的重要组成部分。最初的文件系统用于解决信.息的长期存储,并达到如下要求:1.能够存储大量的信息。2.使用信息的应用终止时,信息必须保存下来。3.多个应用可以并发地存储信息。解决这些问题的通常方法,是把信息以一种单元,即"文件"(file)的形式存储在磁盘或者其他外部介质上,一个
·
2025-06-19 14:43
Spark
应用启动报错:Could not locate executable null\bin\winutils.exe in the
Hadoop
binaries.
目录报错分析解决方式1:设置系统属性方式2:设置环境变量报错06-0809:47:32.608[main]WARNorg.apache.
hadoop
.util.NativeCodeLoaderL:62-
甘蓝聊Java
·
2025-06-19 06:50
【更新中...】项目中的那些事
spark
hadoop
大数据
winutils.exe
hadoop
yarn 获取日志_
Hadoop
YARN日志查看方式
Hadoop
YARN日志查看方式实验环境CDH6.3.2
Hadoop
版本$
hadoop
version
Hadoop
3.0.0-cdh6.3.2Sourcecoderepositoryhttp://github.com
weixin_30131105
·
2025-06-18 20:39
hadoop
yarn
获取日志
Hadoop
Yarn常用命令
文章目录
Hadoop
Yarn常用命令1查看任务1.1yarnapplication-list1.2yarnapplication-list-appStates1.3kill调Application2.yarnlogs
老鼠扛刀满街找猫@
·
2025-06-18 19:37
hadhoop
hadoop
linux
什么是
Hadoop
Yarn
Hadoop
YARN:分布式集群资源管理系统详解1.什么是YARN?
ThisIsClark
·
2025-06-18 19:35
大数据
hadoop
大数据
分布式
全面解析
Hadoop
配置文件:架构、调整与最佳实践
本文还有配套的精品资源,点击获取简介:
Hadoop
作为一个关键组件在分布式计算中处理和存储大量数据,而其配置文件则是保证系统正常运行和性能优化的核心。
秦道衍
·
2025-06-17 21:35
摄像头标定:原理、方法、步骤 (**)
目录摄像头验证标定,详解摄像头标定方法及步骤https://www.
spark
try.com/2017/31086.html要点:摄像头的制造者,才需要考虑标定问题?
ken2232
·
2025-06-17 13:38
Qt
linux
C/C++
音视频
Hive 3.x集成Apache Ranger:打造精细化数据权限管理体系
Hive作为大数据领域常用的数据仓库工具,存储着海量敏感数据;ApacheRanger则是一款强大的权限管理框架,能为
Hadoop
生态组件提供细粒度的访问控制。
·
2025-06-17 10:21
Spark
on Yarn 运行流程
1.首先客户端提交
spark
作业到ApplicationMananger2.向ApplicationManager申请启动ApplicationMaster,ApplicationManager选择一台
架构_Kylin
·
2025-06-17 05:43
spark
大数据
分布式
解决
Spark
4.0.0依赖问题
Apache
Spark
4.0.0冲突解决指南1.问题背景在尝试运行一个基于Apache
Spark
4.0.0的Java应用程序。
小巫程序Demo日记
·
2025-06-17 05:11
Spark+Hadoop学习
spark
java
Py
Spark
使用pyarrow指定版本
背景说明在Py
Spark
3.1.3环境中,当需要使用与集群环境不同版本的PyArrow(如1.0.0版本)时,可以通过以下方法实现,而无需更改集群环境配置完整操作说明去pyarrow·PyPI下载对应版本的
SLUMBER_PARTY_
·
2025-06-16 13:00
pyspark
Spark
核心概念与DAG执行原理笔记
Spark
核心概念与DAG执行原理笔记本文档基于手写笔记和学习资料,使用Mermaid图表总结
Spark
的核心概念、DAG执行原理和Stage划分机制,便于复习和理解。
·
2025-06-16 13:30
大数据基础——大数据处理架构
Hadoop
一、
Hadoop
是什么?
皮皮大卫
·
2025-06-16 12:48
大数据
hadoop
大数据
Hadoop
:大数据处理的核心框架
Hadoop
作为一个开源的分布式计算框架,为大数据处理提供了强大的支持。本文将对
Hadoop
进行详细介绍,包括其基本概念、核心组件、应用场景以及安装配置等方面。
l123565
·
2025-06-16 11:14
hadoop
大数据
python基于
spark
的新闻推荐系统数据分析可视化爬虫的设计与实现pycharm毕业设计项目
目录具体实现截图课题项目源码功能介绍可定制设计功能创新点开发流程Scrapy爬虫框架爬虫核心代码展示论文书写大纲详细视频演示源码获取具体实现截图课题项目源码功能介绍基于Python大数据技术进行网络爬虫的设计,框架使用Scrapy.系统设计支持以下技术栈前端开发框架:vue.js数据库mysql版本不限后端语言框架支持:1java(SSM/springboot)-idea/eclipse2.pyt
QQ_188083800
·
2025-06-16 11:43
python
spark
数据分析
Spark
性能优化全指南
Spark
性能优化涉及资源配置、代码设计、数据倾斜处理等多个维度,以下是综合官方文档与实际经验后的核心优化策略与方法:一、资源配置优化Executor配置数量与内存:--num-executors应结合集群总资源与任务特性合理设置
XiaoQiong.Zhang
·
2025-06-16 09:58
BigData
大数据
Spark
MapReduce 程序详解
Hadoop
的第一课总是MapReduce,但是往往我们每次都是使用自带的例子跑一遍MapReduce程序,今天总与自己写了一个完整的程序。技术有限,多多指教。
·
2025-06-16 08:52
MaxCompute
Spark
资源使用优化详解
简介:本文主要讲解MaxCompute
Spark
资源调优,目的在于在保证
Spark
任务正常运行的前提下,指导用户更好地对
Spark
作业资源使用进行优化,极大化利用资源,降低成本。
阿里开发者
·
2025-06-16 03:52
传感器
SQL
分布式计算
监控
DataWorks
数据可视化
安全
Java
MaxCompute
Spark
datax到hive数据全部为空_DataX HIVE分区同步
errorLimit":{"record":0,"percentage":0.02}},"content":[{"reader":{"name":"hdfsreader","parameter":{"
hadoop
Config
一只mikan
·
2025-06-15 09:55
Hive SQL:一小时快速入门指南
一、HiveSQL初相识Hive是基于
Hadoop
的数据仓库工具,通过类SQL语法实现对HDFS数据的查询分析。与传统数据库不同,Hive将SQ
·
2025-06-15 09:23
DataX HdfsReader 插件:快速上手与深入解析
其中,HdfsReader插件专门用于从
Hadoop
分布式文件系统(HDFS)中读取数据,并且能够将其转换为DataX传输协议传递给Writer进行后续处理。
Edingbrugh.南空
·
2025-06-15 09:23
hive
大数据
hive
hadoop
sql
etl
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他