E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HDFS
Apache Hadoop--集群部署
Hadoop
HDFS
:分布式文件系统。解决了海量数据存储问题。HadoopDistributedFileSystem(
HDFS
™)HadoopMapReduce:分布式计算框架。解决海量数据计算问题。
狂野虎蛋
·
2025-05-14 19:02
apache
hadoop
大数据
spark读文件忽略第一行_Spark 核心概念与操作
它的优势有三个方面:通用计算引擎能够运行MapReduce、数据挖掘、图运算、流式计算、SQL等多种框架;基于内存数据可缓存在内存中,特别适用于需要迭代多次运算的场景;与Hadoop集成能够直接读写
HDFS
weixin_39569894
·
2025-05-14 16:14
spark读文件忽略第一行
大数据技术之Hadoop(十)——Sqoop数据迁移
Sqoop认识2、Sqoop原理(1)导入原理(2)导出原理二、Sqoop安装配置1、下载安装2、MySQL配置启动3、配置Sqoop环境4、Sqoop效果测试三、Sqoop数据导入1、MySQL表数据导入
HDFS
2
雨诺风
·
2025-05-14 08:20
大数据技术之Hadoop学习
大数据
hadoop
sqoop
搭建Hadoop平台(六)(实时更新,随时有新内容,注意多多查看)
目录/*在打开虚拟机之后,要先在master和slave1分别上输入:start-dfs.sh和start-yarn.sh来分别启动
hdfs
平台和yarn平台*/在mapreduce上运行内置程序1.配置环境变量
Patrick_kafka
·
2025-05-13 20:32
hadoop
大数据
分布式
Hadoop初始化不成功,Start-all报错
/usr/bin/envbash
HDFS
_DATANODE_USER=rootHADOOP_SECURE_DN_USER=
hdfs
HDFS
_NAMENODE_USER=root
HDFS
_SECONDARY
Swingzzz
·
2025-05-13 04:14
日常学习
大数据
hadoop
五、Hive表类型、分区及数据加载
Hive同时管理元数据和
HDFS
数据(通常在仓库目录创建专属子目录)。数据控制:Hive拥有并控制数据完整生命周期。生命周期:DROPT
IvanCodes
·
2025-05-13 04:13
Hive专栏
hive
数据仓库
大数据
Hadoop运行模式介绍
该模式下,
HDFS
和MapReduce的守护进程不会启动,而是直接在本地文件系统中处理数据。主要用于开发和测试阶段,无需设置复杂的集群环境。
转身成为了码农
·
2025-05-12 22:41
hadoop
大数据
分布式
hadoop的运行模式
数据存储在
HDFS
,多台服务器工作,企业中大量使用。要在本地去模拟
心碎土豆块
·
2025-05-12 22:40
spark中的问题分析
hadoop
大数据
分布式
深入探究大数据领域 Hive 的数据存储机制
深入探究大数据领域Hive的数据存储机制关键词:Hive数据存储、
HDFS
集成、分区表、分桶表、存储格式、数据组织、性能优化摘要:本文深入剖析ApacheHive的数据存储机制,从底层架构到上层逻辑组织全面解析
大数据洞察
·
2025-05-12 10:44
大数据
hive
hadoop
ai
【Hadoop】核心组件深度剖析:
HDFS
、YARN与MapReduce的奥秘
明明跟你说过:个人主页个人专栏:《大数据前沿:技术与应用并进》行路有良友,便是天堂目录一、引言1、Hadoop简介2、Hadoop生态系统概览二、HadoopDistributedFileSystem(
HDFS
明明跟你说过
·
2025-05-12 10:12
大数据前沿:技术与应用并进
database
大数据
数据分析
hadoop
spark
hdfs
big
data
hadoop的dfs.replication
一个文件,上传到
hdfs
上时指定的是几个副本就是几个。以后你修改了副本数,对已经上传了的文件也不会起作用。
weixin_34302798
·
2025-05-12 09:11
大数据
万字长文讲透
HDFS
的高可用机制
目录第一章
HDFS
高可用机制概述1.1高可用机制的基本概念1.2HA机制的核心组件1.3HA机制的实现方式第二章共享存储系统在HA中的实现2.1共享存储系统的功能2.2共享存储系统的实现2.3共享存储系统的优缺点第三章主备切换控制器
大模型大数据攻城狮
·
2025-05-12 09:09
hdfs
hadoop
大数据
数据挖掘
数据分析
fusioninsight
牛客网
大数据生态守护:Hadoop的深度保护策略
PART1从Hadoop运行原理透视数据保护需求1、Hadoop的定义与范畴Hadoop,狭义而言,是一个专为大数据设计的分布式存储与计算平台,其核心组件包括
HDFS
(Hadoop分布式文件系统)、MapReduce
云祺vinchin
·
2025-05-12 08:06
1024程序员节
HDFS
路径与本地文件系统路径的区别
Hadoop分布式文件系统(
HDFS
)提供了一个高度可靠的存储系统,用于处理大数据。然而,对于初学者来说,区分
HDFS
路径和本地文件系统路径可能会有些困惑。
Kkkika
·
2025-05-12 08:06
概念
hadoop
hdfs
大数据
Hadoop
HDFS
DataNode存储高性能,高可用和高并发设计
胡弦,视频号2023年度优秀创作者,互联网大厂P8技术专家,SpringCloudAlibaba微服务架构实战派(上下册)和RocketMQ消息中间件实战派(上下册)的作者,资深架构师,技术负责人,极客时间训练营讲师,四维口袋KVP最具价值技术专家,技术领域专家团成员,2021电子工业出版社年度优秀作者,获得2023电子工业出版技术成长领路人称号,荣获2024年电子工业出版社博文视点20周年荣誉专
架构随笔录
·
2025-05-12 08:36
大数据
hadoop
hdfs
java
RDD 三种创建方式
test.txttouchtest.txt2.打开sparksparkshell3.读取本地文件创建RDDscala>valtest=sc.testFile("file:///export/data/test.txt")二.从
HDFS
古月皮皮
·
2025-05-12 02:50
hadoop
hdfs
大数据
RDD的几种创建方式
(分布式的特性)RDD通常通过Hadoop上的文件,即
HDFS
文件,来进行创建;有时也可以通过Spar
itcats_cn
·
2025-05-12 01:48
大数据
RDD
RDD创建的几种方式
Hadoop架构再探讨
文章目录1.Hadoop的优化与发展1.1Hadoop的局限与不足1.2针对Hadoop的改进与提升2.
HDFS
2.0新特性2.1
HDFS
HA1.
HDFS
1.0组件及功能回顾2.
HDFS
1.0的单点故障问题
身形似鹤形
·
2025-05-11 22:58
hadoop
架构
大数据
java读写
hdfs
文件操作_
HDFS
文件系统简单的Java读写操作
packagecom.cn.hadoop.
hdfs
;importjava.io.FileInputStream;importjava.io.FileOutputStream;importjava.io.IOException
weixin_39979159
·
2025-05-11 18:01
java读写hdfs文件操作
hdfs
遍历文件方法
importorg.apache.commons.lang.StringUtils;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.*;importjava.io.IOException;importjava.net.URI;importjava.net.URISyntaxException;classHe
weixin_30325793
·
2025-05-11 18:31
大数据
java
shell
Hadoop中的集群配置规划
在Hadoop3.X中,hadoop一共有三个组成部分:MapReduce,Yarn,
HDFS
。它们的作用如下:MapReduce:用来提供计算。
HDFS
:用来提供文件存储功能。
End928
·
2025-05-11 17:22
hadoop
大数据
分布式
启动
hdfs
报错:Attempting to operate on
hdfs
namenode as root but there is no
HDFS
NAMENODE USER defined.
问题:配置好了hadoop的文件一启动就发现报错造成原因:这个问题呢,其实还是你的配置文件配错了,有两个配置文件的问题:core-site.xml文件hadoop-env.sh文件这两个文件都是在hadoop软件下的etc/下的配置文件其次可能还有就是你之前就配置过hadoop,并且还修改过环境变量的文件比如说/etc/profile这个文件解决问题有了问题导向就可以解决问题了首先查看一下hado
鸡哥爱技术
·
2025-05-10 02:12
hadoop
HDFS
常用shell命令+MapReduce java编程+HBase常用shell命令+Spark python编程(RDD+df)
本文包含详细的
HDFS
常用shell命令+MapReducejava编程+HBase常用shell命令+Sparkpython编程(RDD+df),本文档纯属个人整理,为了应对大数据期末考试的20分程序填空和
菜菜why
·
2025-05-09 01:25
hdfs
mapreduce
java
Spark和Hadoop之间的区别
Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem,
HDFS
)。
lucky_syq
·
2025-05-08 20:52
spark
hadoop
大数据
Hadoop集群配置(三节点)&& Hbase集群配置(三节点)保姆级步骤
️1.所有节点安装Hadoop虽然不使用完整的Hadoop,但
HDFS
仍然属于Hadoop组件,因此需要下载Hadoop并配置
HDFS
。
海洋猿
·
2025-05-08 12:33
分布式
hadoop
hbase
zookeeper
如何对比某个表在Hive和Doris磁盘空间大小和Doris表如何优化存储空间保姆级教程(亲试可用)
目录一、如何查看某个表在Hive占用的磁盘空间大小1.使用DESCRIBEFORMATTED查询2.使用
HDFS
命令查看目录大小3.使用hadoopfs-du命令二、如何查看某个表在Doris占用的磁盘空间大小
大模型大数据攻城狮
·
2025-05-08 12:32
hive
hadoop
数据仓库
doris
mpp
doris优化
doris压缩
大数据技术全景解析:Spark、Hadoop、Hive与SQL的协作与实战
一、技术角色定位:从仓库到智能分拣1.Hadoop:巨型仓库与搬运工•核心能力:•
HDFS
(分布式存
V文宝
·
2025-05-08 12:32
机器学习
大数据
hadoop
spark
scala连接mongodb_Spark教程(二)Spark连接MongoDB
如何导入数据数据可能有各种格式,虽然常见的是
HDFS
,但是因为在Python爬虫中数据库用的比较多的是MongoDB,所以这里会重点说说如何用spark导入MongoDB中的数据。
weixin_39688035
·
2025-05-08 09:13
scala连接mongodb
数据分析项目中的关键技术与工具
大数据技术:涵盖Hadoop(
HDFS
)、Hive、Spark、Fli
王子良.
·
2025-05-08 03:12
经验分享
数据分析
数据挖掘
spark配置历史服务
Logcpspark-defaults.conf.templatespark-defaults.conf在spark-defaults.conf文件中,添加如下内容:spark.eventLog.enabledtruespark.eventLog.dir
hdfs
都教授2000
·
2025-05-08 00:51
大数据
spark
中企跨境上市技术全栈解析:从数据合规到估值模型的代码级解决方案
我们用三行代码破局:python#数据脱敏流水线raw_data=load_from_
hdfs
('/user/raw_data')masked
Ashlee_code
·
2025-05-07 14:44
python
java
c语言
编辑器
数据结构
sqlite
json
Spark应用部署模式实例
模式新启动一个终端SparkSubmit#pyspark命令启动的进程,实际上就是启动了一个Spark应用程序SparkStandalone模式讲解:6321SecondaryNameNode#hadoop中
HDFS
qrh_yogurt
·
2025-05-07 14:43
spark
大数据
分布式
hdfs
的客户端操作
客户端的理解
hdfs
的客户端有多种形式:网页形式命令行形式客户端在哪里运行,没有约束,只要运行客户端的机器能够跟
hdfs
集群联网文件的切块大小和存储的副本数量,都是由客户端决定!
AI耽误的大厨
·
2025-05-07 12:29
Hadoop
hadoop
hive
hbase
spark
storm
Spark读取
HDFS
加密区数据乱码问题解决
因为项目需求,需要启用
hdfs
加密区,为了验证对现有程序的影响,我在自己的集群上配置了加密区,并测试spark和java程序读取数据。
蹩脚法师
·
2025-05-07 11:58
bug解决
spark
hadoop
hdfs
spark
加密解密
虚拟机启动
hdfs
、spark命令
一、启动
HDFS
登入master,然后依次输入如下命令1、hadoopnamenode-format2、cd$HADOOP_HOME/s
一只菜鸟A
·
2025-05-07 11:28
hdfs
spark
eclipse
揭秘大数据 | 16、OLAP 那些事儿
Hadoop的整体架构其实非常简单,可用计算式表达为:Hadoop=
HDFS
+MapReduce
XAI嬴图
·
2025-05-07 09:44
大数据
Newsql
nosql
图数据库
hadoop
【大数据】服务器上部署Apache Paimon
Hadoop或对象存储(可选):如果需要将数据存储到分布式文件系统(如
HDFS
)或云存储(如AWSS3),请提前配
大数据追光猿
·
2025-05-07 09:43
大数据开发
大数据
服务器
apache
docker
架构
Spark,所用几个网页地址
hadoop的三大组成:1.
HDFS
:存储。文件上传,下载2.MapReduce:计算。
Amu_Yalo
·
2025-05-07 07:33
spark
大数据
分布式
Hadoop总结
目录大数据概述Hadoop大数据开发平台资源管理YARN分布式文件系统
HDFS
非关系型数据库NOSQL分布式数据库HBASE批处理和MapReduce数据仓库查询分析和Hive基于内存计算的Spark流计算和
Ajekseg
·
2025-05-06 14:52
面试
学习路线
阿里巴巴
android
前端
后端
HDFS
与云计算:部署
HDFS
onAWSAzure和GCP
HDFS
与云计算:部署
HDFS
onAWS、Azure和GCP1.背景介绍在大数据时代,海量数据的存储和处理成为了企业和研究机构面临的主要挑战。
AI天才研究院
·
2025-05-06 03:36
AI大模型企业级应用开发实战
AI大模型应用入门实战与进阶
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
大数据存储解决方案:
HDFS
vs NoSQL全面对比
大数据存储解决方案:
HDFS
vsNoSQL全面对比关键词:
HDFS
、NoSQL、大数据存储、分布式文件系统、非关系型数据库、数据模型、扩展性摘要:本文深入对比分析
HDFS
(分布式文件系统)与NoSQL数据库在大数据存储领域的核心差异
大数据洞察
·
2025-05-05 20:25
CSDN
大数据
hdfs
nosql
ai
Hadoop 1.x设计理念解析
Hadoop1.x虽然是二十年前的,但hadoop生态系统中的一些组件如今还在广泛使用,如
hdfs
和yarn,当今流行spark和flink都依赖这些组件通过学习它们的历史设计,首先可以让我们对它们的了解更加深刻
逆袭的小学生
·
2025-05-05 15:49
hadoop
大数据
分布式
配置集群-编写hadoop启动停止脚本
/bin/bash#设置Hadoop安装目录HADOOP_HOME="/path/to/your/hadoop"#启动
HDFS
$HADOOP_HOME/sbin/s
Aaaa小嫒同学
·
2025-05-04 08:29
hadoop
java
大数据
用MapReduce把
hdfs
数据写入HBase中
1.使用Map+Reduce方式publicclassMapReduceImport{/***Mapper*/staticclassHMapperextendsMapper{Textv2=newText();protectedvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsjava.io.IOException,InterruptedE
Java海洋
·
2025-05-04 02:54
Hadoop
如何搭建spark yarn 模式的集群
2.配置Hadoopcore-site.xmlfs.defaultFS
hdfs
://namenode:9000
hdfs
-site.xmldfs.replication3dfs.namenode.name.dir
漂流瓶666666
·
2025-05-04 00:09
spark
eclipse
大数据
Spark-小练试刀
任务1:
HDFS
上有三份文件,分别为student.txt(学生信息表)result_bigdata.txt(大数据基础成绩表),result_math.txt(数学成绩表)。
o不ok!
·
2025-05-03 20:11
前端
javascript
开发语言
hadoop存储数据文件原理
Hadoop的存储系统基于HadoopDistributedFileSystem(
HDFS
),它的主要原理如下:数据切块:当用户向
HDFS
中存储一个文件时,该文件会被切分成固定大小的数据块(默认大小为128MB
酷爱码
·
2025-05-03 19:37
经验分享
hadoop
大数据
分布式
Impala原理与代码实例讲解
1.2Impala的诞生Impala是由Cloudera公司开发的一款开源的MPP(大规模并行处理)SQL查询引擎,可以直接在Hadoop的存储层(如
HDFS
、HB
AI天才研究院
·
2025-05-03 14:35
AI大模型企业级应用开发实战
AI大模型应用入门实战与进阶
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
Spark和hadoop的区别与联系
2.Hadoop为Spark提供基础支持存储层:Spark可直接读取Hadoop的分布式文件系统(
HDFS
)中的数据,利用
HDFS
的高容错性和扩展性实现数据存储。
Amu_Yalo
·
2025-05-03 14:02
spark
hadoop
大数据
搭建spark yarn模式集群
可以通过执行start-dfs.sh和start-yarn.sh来启动
HDFS
和YARN。2.解压SPARK安装包下载适合版本的Spark并将其解压至指定目录。
只因只因爆
·
2025-05-03 01:03
spark
大数据
分布式
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他