E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
********HDFS
大数据开发中的秘密武器:探索Hadoop纠删码的奇妙世界
随着大数据技术的发展,
HDFS
作为Hadoop的核心模块之一得到了广泛的应用。为了系统的可靠性,
HDFS
通过复制来实现这种机制。
技术琐事
·
2023-10-19 22:46
hadoop
java
java-ee
后端
spring
Hive篇面试题+详解
Hive的主要功能是将结构化数据映射到Hadoop的分布式文件系统(
HDFS
)上,并提供高级查询和分析功能。2.Hive与传统关系型数据库的区别是什么?
Young_IT
·
2023-10-19 22:39
大数据开发
hadoop
hive
大数据
hadoop 集群
标签:Hadoop搭建分布式集群环境MapReduceYARN
HDFS
分布式环境搭建之环境介绍之前我们已经介绍了如何在单机上搭建伪分布式的Hadoop环境,而在实际情况中,肯定都是多机器多节点的分布式集群环境
大诗兄_zl
·
2023-10-19 21:12
hadoop之旅6-windows本地MapReducer离线单词统计
通过上篇文章hadoop之旅5-idea通过maven搭建
hdfs
环境,相信大家都可以在idea上做hadoop访问
hdfs
文件系统的开发了。一个云盘其实就可以基于这样的系统做出来。
尔以凡
·
2023-10-19 20:30
湖仓一体架构的特性
湖仓一体架构是一种数据架构模式,具有以下特性:统一存储:湖仓一体架构将数据湖和数据仓库合并为一个整体,将结构化数据和非结构化数据存储在同一个存储系统中,如Hadoop分布式文件系统(
HDFS
)或云存储服务
abckingaa
·
2023-10-19 17:55
DB
DB
spark集成hive
ambari版本Version2.7.4.0HDP版本HDP-3.1.4.0hive版本3.1.0spark版本2.3.0集群前提条件:1.Hdp、Spark、Hive都已部署好2.Hive数据层建好,在
Hdfs
jiedaodezhuti
·
2023-10-19 11:13
大数据
spark
hive
大数据
spark-shell读取
hdfs
数据
打开spark-shell,输入下面代码(注意“yourPATHin
HDFS
”这里换成自己文件的路径)valtextFile=sc.textFile("
hdfs
://localhost:9000/yourPATHin
HDFS
密言
·
2023-10-19 07:21
分布式框架
spark
Hadoop 文件读取
KeyWords:namenode,datanode,
HDFS
,
HDFS
Client,DistributedFileSystem,FSDataInputStreamHadoop文件读取Hadoop对于文件的读取流程
Grits
·
2023-10-19 07:47
☀️☀️基于Spark、Hive等框架的集群式大数据分析流程详述
本文目录如下:基于Spark、Hive等框架的集群式大数据分析流程详述第1章淘宝双11大数据分析—数据准备1.1数据文件准备1.2数据预处理1.3启动集群环境1.4导入数据到Hive中1.4.1把目标文件上传到
HDFS
页川叶川
·
2023-10-19 05:57
Spark学习笔记
Spark
ML学习笔记
SparkSQL学习笔记
spark
hive
big
data
Hadoop集群启动后,缺少namenode或datanode进程
简述:NameNode是
HDFS
的主节点,是负责管理整个
HDFS
集群的,相当于一个团队的老大,若没有启动,则不会进入web界面等。
y215204
·
2023-10-19 04:21
hadoop
大数据
分布式
启动
HDFS
时jps查看不到namenode
这里写自定义目录标题问题描述解决办法总结问题描述使用命令start-dfs.sh启动集群,然后使用jps查看进程时发现没有namenode,SecondaryNameNode、和DataNode正常启动,其他集群的DataNode也是正常启动。然后去/export/server/hadoop-3.3.4/logs查找日志文件,发现日志中的错误信息为:ERRORorg.apache.hadoop.h
道可道 非常道
·
2023-10-19 04:48
hdfs
hadoop
大数据
Hadoop集群配置运行
文章目录前期准备配置JDK环境Hadoop安装配置hadoop-env.shcore-site.xml
hdfs
-site.xmlmapred-site.xmlyarn-site.xmlworkersHadoop
Icy Hunter
·
2023-10-19 04:18
大数据开发技术
hadoop
大数据
java
hadoop启动集群之后没有namenode的一种情况
我的做法是:检查你的hadoop的配置文件是否填写正确,我的hadoop的
hdfs
-site.xml中的主机IP地址未填写正确,导致启动集群服务后namenode启动不上,
hdfs
当然也没法用。
薯条不蘸番茄酱
·
2023-10-19 04:17
hadoop
hdfs
大数据
hadoop集群启动master节点jps后没有namenode解决方案
stop-all.sh2.切换到hadoop的目录下将logs与tmp文件与内容删除并创建新的logscd/usr/local/hadooprm-rftmprm-rflogsmkdirlogs3.重新格式化namenode
hdfs
namenode-format4
1dress
·
2023-10-19 04:17
hadoop
hdfs
大数据
分布式
多次重新初始化hadoop namenode -format后,DataNode或NameNode没有启动
多次重新初始化hadoopnamenode-format后,DataNode或NameNode没有启动在搭建完hadoop集群后,需要对主节点进行初始化(格式化)其本质是清理和做一些准备工作,因为此时的
HDFS
Oraer_
·
2023-10-19 04:47
数据仓库
大数据分析
hadoop
hdfs
大数据
hadoop启动后无namenode
一般都是由于两次或两次以上格式化NameNode造成的,有两种方法可以解决:1.删除DataNode的所有资料2.修改每个DataNode的namespaceID(位于/home/
hdfs
/data/current
congsha3684
·
2023-10-19 04:14
大数据
Hadoop的MapReduce详解
一、MapReduce数据处理流程关于上图,可以做出以下逐步分析:输入数据(待处理)首先会被切割分片,每一个分片都会复制多份到
HDFS
中。上图默认的是分片已经存在于
HDFS
中。
jhdyy
·
2023-10-19 04:44
大数据
hadoop
大规模数据处理中心:构建高效的数据处理架构
以下是一个示例的Python代码,用于演示如何使用Hadoop分布式文件系统(
HDFS
)进行数据存储和管理。
抱紧大佬大腿不松开
·
2023-10-19 02:57
大数据
架构
大数据
hadoop和hive、spark、presto、tez是什么关系
它由许多组件组成,包括
HDFS
(分布式文件系统)和MapReduce(分布式计算引擎)。Hive是一个基于Hadoop的数据仓库系统,它允许用户使用SQL语言来查询和分析大型数据集。
草履虫稽亚娜
·
2023-10-19 02:55
hadoop
hive
spark
大数据
分布式
Hive安装 Tez 引擎
看下图 用Hive直接编写MR程序,假设有四个有依赖关系的MR作业,上图中,绿色是ReduceTask,云状表示写屏蔽,需要将中间结果持久化写到
HDFS
。
扛麻袋的少年
·
2023-10-19 02:24
#
Hive
搭建伪分布式hadoop集群操作步骤
搭建hadoop的伪分布式(
hdfs
,mapreduce,yarn配置在同一服务器上)(1)配置hdsf(a)配置:hadoop-env.sh修改JAVA_HOME路径:exportJAVA_HOME=
一棵小小柏
·
2023-10-19 01:27
hadoop
分布式
hdfs
Linux搭建伪分布式Hadoop
hadoop配置文件目录下进行配置4.下载vimyuminstall-yvim5.配置hadoop启动时环境脚本进入之后进行编辑找到此处改成java路径:6.继续修改核心配置文件进入之后添加红框内容:7.配置
hdfs
8
kyle01589
·
2023-10-19 01:20
hadoop
linux
big
data
Hive跨集群数据迁移过程
文章目录环境数据迁移需求迁移过程记录环境Hive集群AHive集群B跳转机一台数据迁移需求本次迁移数据100G,15亿条,数据流转方向从集群A经过跳转机到集群B,通过
HDFS
拉取和重新建表导入的方式完成数据库迁移
程序终结者
·
2023-10-19 00:57
Hadoop生态
hive
hadoop
数据仓库
2018-06-07
hive哪些sql会触发mrjob聚合,某些insert2.createtabletasselect...这样的SQL会不会创建mrjob会3.hive的数据分为哪两块分别存储哪里元数据,mysql真实数据
hdfs
4
CrUelAnGElPG
·
2023-10-18 23:17
java监控目录实时上传
HDFS
背景描述:为了满足linux服务器上特定目录的非结构化文件的实时监控,并上传
HDFS
使用的方法Apache的Commons-IO,来实现文件的监控功能所需要的pomorg.apache.hadoophadoop-client3.0.0org.apache.hadoophadoop-common3.0.0commons-iocommons-io2.6org.apache.commonscommons
TUBER727
·
2023-10-18 21:28
java
开发语言
基于hive的日志数据统计实战
我们可以把hive中海量结构化数据看成一个个的表,而实际上这些数据是分布式存储在
HDFS
中的。Hive经过对语句进行解
ych0108
·
2023-10-18 20:56
BigData
hive
hive入门
hive日志分析
hive读取mysql日志_基于hive的日志分析系统
我们可以把hive中海量结构化数据看成一个个的表,而实际上这些数据是分布式存储在
HDFS
中的。Hive经过对语句进行解析和转换,最终生成一系列基于had
Aviationbamboo
·
2023-10-18 20:25
hive读取mysql日志
Hive简介
我们可以把Hive中海量结构化数据看成一个个的表,而实际上这些数据是分布式存储在
HDFS
中的。Hive经过对语句进行解析和转换,最终生成一系列基于h
needle2
·
2023-10-18 20:51
hadoop
2010
csv
数据库
table
xml
基于 hive 的日志数据统计实战
我们可以把hive中海量结构化数据看成一个个的表,而实际上这些数据是分布式存储在
HDFS
中的。Hive经过对语句进行解
jiangkai_nju
·
2023-10-18 20:20
hadoop学习之路
hadoop
2010
csv
数据库
table
xml
3、oracle相关同步-oracle通过datax同步到
hdfs
DataX3.0系列文章1、datax3.0部署与验证2、mysql相关同步-mysql同步到mysql、mysql和
hdfs
相互同步3、oracle相关同步-oracle到
hdfs
4、sybase相关同步
一瓢一瓢的饮 alanchan
·
2023-10-18 19:29
大数据相关组件介绍
oracle
hdfs
数据库
数据分析
大数据
hue实现对hiveserver2 的负载均衡
如果你使用的是CDH集群那就很是方便的在ClouderaManager中,进入
HDFS
Service进入Instances标签页面,点击AddRoleInstances按钮,如下图所示点击Continue
墨卿风竹
·
2023-10-18 19:12
负载均衡
运维
集群
hue
hadoop
cdh
Flink1.14学习测试:将数据写入到Hive&
Hdfs
(二)
Flink1.14学习测试:将数据写入到Hive&
Hdfs
(二)参考KafkaSQL连接器:https://nightlies.apache.org/flink/flink-docs-master/zh
lyanjun
·
2023-10-18 17:37
Hadoop组件使用记录
hive
hdfs
kafka
flink
sink
hive
20210924 python 技术点
-name‘
hdfs
*’查看
hdfs
文件:
hdfs
dfs-l
AI-lala
·
2023-10-18 16:43
python
大数据 | 实验一:大数据系统基本实验 | MapReduce 初级编程
实验平台1)操作系统:Linux;2)Hadoop版本:3.2.2;实验内容编程实现文件的合并和去重package
hdfs
;importjava.
啦啦右一
·
2023-10-18 14:28
大数据与数据分析
#
大数据管理与分析实验
大数据
mapreduce
hadoop
常见的八种分布式文件系统介绍
常见的分布式文件系统有,GFS、
HDFS
、Lustre、Ceph、GridFS、mogileFS、TFS、FastDFS等。各自适用于不同的领域。
小小哭包
·
2023-10-18 13:32
中间件
分布式文件系统
HDFS
GFS
TFS
MogileFS
FastDFS
mooseFS
开源大数据OLAP引擎对比
直接从
HDFS
读取数据,在使用前不需要大量的ETL操作。查询原理:完全基于内存的并行计算流水线本地化计算
fat32jin
·
2023-10-18 11:21
基于内存的分布式NoSQL数据库Redis(五)数据存储与RDB设计
HDFS
的数据怎么保证安全性?
HDFS
的元数据怎么保证安全性?Spark的RDD数据怎么保证安全性?解决磁盘存储:数据存储在硬盘上特点:容量大、安全性高、读写速度上相对不如内存解决:副本备份内存存储
大模型Maynor
·
2023-10-18 10:24
#
Redis
分布式
nosql
redis
hadoop详解
HDFS
:1.
HDFS
文件系统:
HDFS
是大数据开源框架hadoop的组件之一,全称(HadoopDistributedFileSystem),它是一个分布式文件系统,由多台服务器联合起来实现文件存储功能
不吃饭的猪
·
2023-10-18 10:49
hadoop
大数据
分布式
修炼k8s+flink+
hdfs
+dlink(五:安装dockers,cri-docker,harbor仓库)
一:安装docker。(所有服务器都要安装)安装必要的一些系统工具sudoyuminstall-yyum-utilsdevice-mapper-persistent-datalvm2添加软件源信息sudoyum-config-manager--add-repohttps://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.reposudose
宇智波云
·
2023-10-18 08:40
docker
kubernetes
flink
hdfs
docker
pyspark读取
hdfs
文件并导入到hive中
SparkSession.builder.config("spark.driver.host","192.168.1.10")\.config("spark.ui.showConsoleProgress","false")\.appName("
hdfs
_hive
Gadaite
·
2023-10-18 07:31
SQL基础
Spark基础
hdfs
hadoop
big
data
java 从
HDFS
读取数据到本地文件
场景描述算法模型是java代码使用spark-submityarncluster运行的,输出结果存储在了
HDFS
上,可能因为数据结构比较复杂吧,所以没有选择将结果存储在hive表中。
骑着蜗牛向前跑
·
2023-10-18 07:31
Spring
Boot学习笔记
大数据
java
hdfs
hadoop
读取数据
本地
Spark SQL连接获取MySQL、Hive、
HDFS
上的数据
本篇所有操作在Idea上完成SparkToMySQL首先要在pom.xml中添加依赖包(根据的自己的使用的版本修改,不清楚的可以去maven官网查找自己对应版本的代码),对项目创建不清楚的可以:点击这里mysqlmysql-connector-java5.1.36操作代码objectSparkToMysql{defmain(args:Array[String]):Unit={//获取SparkSe
菜鸟也学大数据
·
2023-10-18 07:58
菜鸟也学大数据
Spark
mysql
hive
数据库
spark
hdfs
hadoop java 读写入文件_Hadoop文件系统操作之读取写入数据
一.从hadoop文件系统
hdfs
读取文件读取
hdfs
文件有两种方法:1.使用java.net.URL对象打开数据流,从中读取代码importjava.io.IOException;importjava.io.InputStream
weixin_34921609
·
2023-10-18 07:58
hadoop
java
读写入文件
Flink 自定义Sink 之 写入
HDFS
scala.binary.version}${flink.version}org.apache.hadoophadoop-common${hadoop.version}providedorg.apache.hadoophadoop-
hdfs
magic_kid_2010
·
2023-10-18 07:56
Flink
flink
自定义
sink
hdfs
Hive读取Flume正在写入的
HDFS
Hive的表创建为外部分区表,例如:USEmydb;CREATEEXTERNALTABLEmytable(c1String,c2INT,c3INT,create_timeString)PARTITIONEDBY(dtSTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'|||';然后创建分区,如:ALTERTABLEmytableADDPARTITION(dt='
liyonghui123
·
2023-10-18 07:26
hive
flume-ng
springboot和flink 大数据实时写入
hdfs
一:flink官网API:https://nightlies.apache.org/flink/flink-docs-release-1.13/zh/docs/connectors/datastream/streamfile_sink///文件滚动策略RollingPolicyrollingPolicy=DefaultRollingPolicy.builder().withMaxPartSize(
bigdata_czq
·
2023-10-18 07:25
hdfs
大数据
hdfs
spring
boot
2.2 如何使用FlinkSQL读取&写入到文件系统(
HDFS
\Local\Hive)
5.2滚动策略、文件合并、分区提交5.3指定SinkParallelism6、示例_通过FlinkSQL读取kafka在写入hive表6.1、创建kafkasource表用于读取kafka6.2、创建
hdfs
sink
广阔天地大有可为
·
2023-10-18 07:54
#
FlinkSQL
使用技巧
hdfs
大数据
服务器
Hive 系列 - DML数据操作
overwrite]intotablestudent[partition(partcol1=val1,…)];(1)loaddata:表示加载数据(2)local:表示从本地加载数据到hive表;否则从
HDFS
Rex_2013
·
2023-10-18 03:16
一百九十、Hive——Hive刷新分区MSCK REPAIR TABLE
原因很简单,就是Hive表缺乏分区的元数据二、实施步骤(一)问题——在Flume采集Kafka中的数据写入
HDFS
后,如果不刷新表,则没有分区和表数据(二)解决方法——Hive刷新分区MSCKhive&
天地风雷水火山泽
·
2023-10-18 01:46
Hive
hive
hadoop
数据仓库
Client将数据写入
HDFS
流程
1.Client调用DistributedFileSystem对象的create()方法,创建一个文件输出流2.DistributedFileSystem对namenode创建一个RPC调用,在文件系统的命名空间中创建一个新文件。3.Namenode执行各种不同的检查以确保这个文件不存在,并且客户端有创建该文件的权限。如果这些检查均通过,namenode就会为创建新文件记录一条记录,否则,文件创建
摩羯青春我掌握
·
2023-10-17 21:04
上一页
32
33
34
35
36
37
38
39
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他