E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hadoop(HDFS
【笔记-软考】大数据架构-Lambda与Kappa架构对比
1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制;Lambda架构在提出初期面向小范围业务,直接将成熟离线处理技术(
Hadoop
)和实时处理技术(Storm)相结合,用View模型将二者处理后得到的输出结果结合起来
我叫白小猿
·
2025-06-27 17:53
软考
软考
架构
大数据
Kappa
Lambda
HDFS
(
Hadoop
分布式文件系统)总结
文章目录一、
HDFS
概述1.定义与定位2.核心特点二、
HDFS
架构核心组件1.NameNode(名称节点)2.DataNode(数据节点)3.Client(客户端)4.SecondaryNameNode
Cachel wood
·
2025-06-26 22:40
大数据开发
hadoop
hdfs
大数据
散列表
算法
哈希算法
spark
Spark教程1:Spark基础介绍
二、Spark的核心优势三、Spark的核心概念四、Spark的主要组件五、Spark的部署模式六、Spark与
Hadoop
的关系七、Spark应用开发流程八、Spark的应用场景九、Spark版本更新与社区一
Cachel wood
·
2025-06-26 21:37
大数据开发
spark
大数据
分布式
计算机网络
数据库
数据仓库
Hadoop
的部分用法
前言
Hadoop
是一个由Apache基金会开发的开源框架,它允许跨多个机器使用分布式处理大数据集。
覃炳文20230322027
·
2025-06-26 16:30
hadoop
hive
大数据
分布式
Netty4.1 - TCP粘包拆包解决方案及案例代码
它已经得到了成百上千的商业项目的验证,例如
Hadoop
的RPC框架Avro就使用了Netty作为底层通信框架,其他的业界主流RPC框架,例如:Dubbo、Google开源的gRPC、新浪微博开源的Motan
wwyh520
·
2025-06-26 14:18
IO编程
netty
Storm核心概念与实战详解
作者:禅与计算机程序设计艺术1.简介2010年
Hadoop
项目开源后,Storm项目也随之走向人气爆棚。
AI天才研究院
·
2025-06-26 13:43
Python实战
自然语言处理
人工智能
语言模型
编程实践
开发语言
架构设计
基于
Hadoop
大数据分析应用场景与实战
一、
Hadoop
的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。
跨过山河大海
·
2025-06-26 12:38
Hadoop
发展过程是怎样的?
2004年,Google发布了第一版
Hadoop
项目,定位是
AI天才研究院
·
2025-06-26 11:06
Python实战
自然语言处理
人工智能
语言模型
编程实践
开发语言
架构设计
通过CDH安装Spark的详细指南
通过CDH安装Spark的详细指南简介ClouderaDistributionof
Hadoop
(CDH)是一个企业级的大数据平台,它集成了多个开源组件,包括
Hadoop
、Spark、Hive等。
暴躁哥
·
2025-06-25 20:48
大数据技术
spark
大数据
分布式
Hadoop
版本进化论:从 1.0 到 2.0,架构革命全解析
Hadoop
版本
hadoop
1.x版本由三部分组成Common(辅助工具)
HDFS
(数据存储)MapReduce(计算和资源调度)存在的问题JobTracker同时具备了资源管理和作业控制两个功能,成为了系统的最大瓶颈采用了
拾光师
·
2025-06-25 18:02
大数据
后端
Hadoop
RPC 分层设计的哲学:高内聚、低耦合的最佳实践
Hadoop
RPC
Hadoop
RPC主要分为四个部分,分别是序列化层、函数调用层、网络传输层和服务器端处理框架,实现机制为:序列化层:主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储
拾光师
·
2025-06-25 18:30
大数据
后端
合并小文件汇总(Hive/Spark)
合并小文件的原因:过多的小文件会导致
HDFS
上元数据负载增加。并且小文件也会导致计算性能下降。
有数的编程笔记
·
2025-06-25 15:06
Spark/Hive
hive
spark
hadoop
基于pyspark的北京历史天气数据分析及可视化_离线
基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、
hadoop
3.2.0、spark3.1.2
大数据CLUB
·
2025-06-25 08:48
spark数据分析可视化
数据分析
数据挖掘
hadoop
大数据
spark
探秘Flink Connector加载机制:连接外部世界的幕后引擎
从Kafka消息队列到
HDFS
文件系统,从MySQL数据库到Elasticsearch搜索引擎,Flink通过Connector实现了与多样化外部系统的交互。
Edingbrugh.南空
·
2025-06-24 14:38
flink
大数据
flink
大数据
Hadoop
RPC 分层设计的哲学:高内聚、低耦合的最佳实践
Hadoop
RPC
Hadoop
RPC主要分为四个部分,分别是序列化层、函数调用层、网络传输层和服务器端处理框架,实现机制为:序列化层:主要作用是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储
·
2025-06-24 13:14
后端
基于pyspark的北京历史天气数据分析及可视化_实时
基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、
hadoop
3.2.0、spark3.1.2
大数据CLUB
·
2025-06-24 12:54
spark数据分析可视化
数据分析
数据挖掘
spark
hadoop
大数据
时序数据库IoTDB的架构、安装启动方法与数据模式总结
可独立使用,并可通过TsFileSync工具同步至
HDFS
进行大数据处理。数据库引擎:负责数据的收集、写入、存储和查询等核心功能。分析引擎:可选的分析组件,用于数据处理和分析。
时序数据说
·
2025-06-24 09:01
时序数据库
iotdb
数据库
大数据
物联网
《从零开始:
Hadoop
3.3.0 全分布式环境搭建与运行详解(含自动化配置)》
Hadoop
3.3.0全分布并环境搭建与运行部署详解一、准备工作1.1环境要求三台Linux主机,如node1、node2、node3配置推荐:内存大于4GB,CPU大于2核,磁盘空间大于40GB1.2
李哈哈敲代码
·
2025-06-24 02:51
学习经验
分布式
hadoop
自动化
大数据
linux
Hadoop
等大数据处理框架的Java API
Hadoop
是一个非常流行的大数据处理框架,主要用于存储和处理大规模数据集。
Hadoop
主要有两个核心组件:
HDFS
(
Hadoop
DistributedFileSystem)和MapReduce。
扬子鳄008
·
2025-06-23 05:00
Java
hadoop
java
大数据
python--将mysql建表语句转换成hive建表语句
importjsonimportsysimportpymysqldefqueryDataBase(tablename):#连接数据库并查询列信息conn=pymysql.connect(user='root',password='123456',host='
hadoop
11
呆呆不呆~
·
2025-06-23 01:30
spark
python
mysql
hive
spark
手把手教你玩转 Sqoop:从数据库到大数据的「数据搬运工」
SQL+
Hadoop
,直接告诉你核心技能:在关系型数据库(比如MySQL)和
Hadoop
家族(
HDFS
、Hive、HBase)之间疯狂倒腾数据!核
AAA建材批发王师傅
·
2025-06-22 20:31
数据库
sqoop
大数据
hive
hdfs
Python 工程师迈向大数据时代:
Hadoop
与 Spark 框架深度解析与实战指南
Python工程师迈向大数据时代:
Hadoop
与Spark框架深度解析与实战指南引言亲爱的Python工程师们,欢迎来到大数据时代!
清水白石008
·
2025-06-22 14:52
python
Python题库
大数据
python
hadoop
大数据核心面试题全解析,答案精准拿捏面试官(
hadoop
篇)
1.什么是
Hadoop
?
Hadoop
是一个开源的分布式系统基础架构,用于存储和处理大规模数据集。
浅谈星痕
·
2025-06-22 00:23
大数据
[5-03-01].第14节:集群搭建 - 在Linux系统中搭建
SpringCloud学习大纲三、集群环境搭建:3.1.集群规划1.nacos规划:
hadoop
103
hadoop
104
hadoop
105192.168.148.3192.168.148.4192.168.148.5nacosnacosnacos2
1.01^1000
·
2025-06-21 17:36
#
企业级框架
springcloud
大数据学习(141)-分布式数据库
在分布式数据库中主要有
hdfs
、hbase、clickhouse三种。
viperrrrrrr
·
2025-06-21 11:28
大数据
学习
分布式
clickhouse
hdfs
hbase
HDFS
Federation(联邦) 架构YARN的Capacity Scheduler调度策略 ResourceManager的共享存储具体实现方式
HDFS
Federation(联邦)架构什么是
HDFS
Federation?随着数据量的增长,单一的NameNode成为了
HDFS
的瓶颈,因为它需要管理整个文件系统的命名空间和所有文件块的位置信息。
2401_8554978
·
2025-06-21 05:49
hdfs
架构
java
scp与rsync
(fromserver1toserver2)(2)基本语法scp-rpdir/pdir/pdir/fnameuser@
hadoop
user@
hadoop
user@
JeremyHeria
·
2025-06-21 04:12
#
hadoop
hadoop
大数据
复习打卡大数据篇——
Hadoop
HDFS
03
目录1.
HDFS
元数据存储2.
HDFS
HA高可用1.
HDFS
元数据存储
HDFS
中的元数据按类型可以分为:文件系统的元数据:包括文件名、目录名、修改信息、block的信息、副本信息等。
筒栗子
·
2025-06-21 03:39
大数据
hadoop
hdfs
TiDB 替换 HBase 全场景实践指南 ——从架构革新到业务赋能
作者:数据源的TiDB学习之路原文来源:https://tidb.net/blog/c687d474第一章:HBase的历史使命与技术瓶颈1.1HBase的核心价值与经典场景作为
Hadoop
生态的核心组件
TiDB 社区干货传送门
·
2025-06-20 23:41
tidb
hbase
架构
数据库
大数据
什么是MapReduce
它由Google在2004年提出,后来成为Apache
Hadoop
项目的核心计算引擎。MapReduce通过将计算任务分解为两个主要阶段——Map(映射)和Reduce(归约)——来实现分布式计算。
ThisIsClark
·
2025-06-20 23:10
大数据
mapreduce
大数据
Hive的优化
一、开启本地模式大多数的
Hadoop
Job是需要
Hadoop
提供的完整的可扩展性来处理大数据集的。不过,有时Hive的输入数据量是非常小的。
小王同学mf
·
2025-06-20 14:11
hive
hadoop
数据仓库
数据库选型之路YMatrix与Clickhouse对比
当前的生产系统运行在Mysql上,从开始的保留半年的数据,到现在缩减到保留不足三个月的数据,全量数据实时同步到
Hadoop
,随着业务的发展,Mysql和Had
星*语
·
2025-06-20 07:15
数据库
数据仓库
时序数据库
【Ambari3.0.0 部署】Step3—安装JDK17与JDK1.8-适用于el8
如果有其他系统部署需求可以参考原文https://doc.janettr.com/install/manual/Step3—安装JDK17与JDK1.8Ambari3.0及部分Bigtop/
Hadoop
TTBIGDATA
·
2025-06-20 06:37
ambari
bigtop
hdp
hidataplus
edp
大数据
el8
Hadoop
MapReduce作业提交流程源码精讲:主线方法、设计模式与调试实战
Hadoop
MapReduce作业提交流程源码精讲:主线方法、设计模式与调试实战一、前言
Hadoop
MapReduce是大数据计算生态的基础。
北漂老男人
·
2025-06-19 22:16
MapReduce
hadoop
mapreduce
设计模式
深入理解
Hadoop
MapReduce 调度原理与 YARN 架构
深入理解
Hadoop
MapReduce调度原理与YARN架构作者:标签:大数据、
Hadoop
、YARN、MapReduce、调度器一、前言在大数据领域,
Hadoop
是最重要的分布式计算平台之一。
北漂老男人
·
2025-06-19 22:13
MapReduce
hadoop
mapreduce
架构
学习方法
常见的Dolphin Scheduler报错
dolphinscheduler/bin/env/dolphinscheduler_env.sh中exportSQOOP_HOME=/opt/installs/sqoopexportPATH=$SQOOP_HOME/bin:$
HADOOP
_HOME
线条1
·
2025-06-19 20:03
数据库
Hadoop
中的
HDFS
的存储机制
Hadoop
中
HDFS
的存储机制
HDFS
(
Hadoop
DistributedFileSystem)是
Hadoop
分布式计算中的数据存储系统,是基于流数据模式访问和处理超大文件的需求而开发的。
向阳争渡
·
2025-06-19 14:43
大数据/Hadoop
hadoop
hdfs
分布式计算
数据存储
存储
Hadoop
HDFS
深入解析
文件系统早在1965年开发的Multies(UNIX的前身)就详细地设计了文件系统,这使得文件系统成为多用户单节点操作系统的重要组成部分。最初的文件系统用于解决信.息的长期存储,并达到如下要求:1.能够存储大量的信息。2.使用信息的应用终止时,信息必须保存下来。3.多个应用可以并发地存储信息。解决这些问题的通常方法,是把信息以一种单元,即"文件"(file)的形式存储在磁盘或者其他外部介质上,一个
·
2025-06-19 14:43
Spark应用启动报错:Could not locate executable null\bin\winutils.exe in the
Hadoop
binaries.
目录报错分析解决方式1:设置系统属性方式2:设置环境变量报错06-0809:47:32.608[main]WARNorg.apache.
hadoop
.util.NativeCodeLoaderL:62-
甘蓝聊Java
·
2025-06-19 06:50
【更新中...】项目中的那些事
spark
hadoop
大数据
winutils.exe
hadoop
yarn 获取日志_
Hadoop
YARN日志查看方式
Hadoop
YARN日志查看方式实验环境CDH6.3.2
Hadoop
版本$
hadoop
version
Hadoop
3.0.0-cdh6.3.2Sourcecoderepositoryhttp://github.com
weixin_30131105
·
2025-06-18 20:39
hadoop
yarn
获取日志
Hadoop
Yarn常用命令
文章目录
Hadoop
Yarn常用命令1查看任务1.1yarnapplication-list1.2yarnapplication-list-appStates1.3kill调Application2.yarnlogs
老鼠扛刀满街找猫@
·
2025-06-18 19:37
hadhoop
hadoop
linux
什么是
Hadoop
Yarn
Hadoop
YARN:分布式集群资源管理系统详解1.什么是YARN?
ThisIsClark
·
2025-06-18 19:35
大数据
hadoop
大数据
分布式
MR案例 - 分科汇总求月考平均分
文章目录一、提出任务二、完成任务(一)准备数据1、在虚拟机上创建文本文件2、上传文件到
HDFS
指定目录(二)实现步骤1、创建Maven项目2、添加相关依赖3、创建日志属性文件4、创建学生实体类5、创建科目平均分映射器类
酒城译痴无心剑
·
2025-06-18 08:15
探索大数据世界
mr
分科汇总求月考平均分
全面解析
Hadoop
配置文件:架构、调整与最佳实践
本文还有配套的精品资源,点击获取简介:
Hadoop
作为一个关键组件在分布式计算中处理和存储大量数据,而其配置文件则是保证系统正常运行和性能优化的核心。
秦道衍
·
2025-06-17 21:35
Doris数据集成 Apache Iceberg
它支持ApacheDoris在内的多种主流查询引擎,兼容
HDFS
以及各种对象云存储,具备ACID、Schema演进、高级过滤、隐藏分区和分区布局演进等特性,可确保高性能查询以及数据的可靠性及一致性,其时间旅行和版本回滚功能也为数据管理带来较高的灵活性
猫猫姐
·
2025-06-17 10:21
Doris
doris
iceberg
Hive 3.x集成Apache Ranger:打造精细化数据权限管理体系
Hive作为大数据领域常用的数据仓库工具,存储着海量敏感数据;ApacheRanger则是一款强大的权限管理框架,能为
Hadoop
生态组件提供细粒度的访问控制。
·
2025-06-17 10:21
大数据基础——大数据处理架构
Hadoop
一、
Hadoop
是什么?
皮皮大卫
·
2025-06-16 12:48
大数据
hadoop
大数据
Hadoop
:大数据处理的核心框架
Hadoop
作为一个开源的分布式计算框架,为大数据处理提供了强大的支持。本文将对
Hadoop
进行详细介绍,包括其基本概念、核心组件、应用场景以及安装配置等方面。
l123565
·
2025-06-16 11:14
hadoop
大数据
MapReduce 程序详解
Hadoop
的第一课总是MapReduce,但是往往我们每次都是使用自带的例子跑一遍MapReduce程序,今天总与自己写了一个完整的程序。技术有限,多多指教。
·
2025-06-16 08:52
datax到hive数据全部为空_DataX HIVE分区同步
channel":3,"byte":1048576},"errorLimit":{"record":0,"percentage":0.02}},"content":[{"reader":{"name":"
hdfs
reader
一只mikan
·
2025-06-15 09:55
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他