E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HDFS
Hive安装部署
安装好对应版本的hadoop集群,并启动hadoop的
HDFS
以及YARN服务安装了MySQL服务,并启动MySQL的服务Hive的安装部署注意hive就是==一个构建数据仓库的工具==,只需要在==一台服务器上
我还不够强
·
2024-01-13 13:35
HDFS
及各组件功能介绍
Hadoop分布式文件系统(HadoopDistributedFileSystem,
HDFS
)是Hadoop生态系统的核心组件之一,它是设计用于存储和处理大规模数据集的分布式文件系统。
思旭�
·
2024-01-13 12:32
hdfs
hadoop
大数据
HDFS
组成及架构
HDFS
的组成与架构
HDFS
的组成架构图及各部分功能如下所示:2.1NameNode节点当用户访问数据文件时,为了保证能够读取到每一个数据块,
HDFS
有一个专门负责保存文件属性信息的节点,这个节点就是NameNode
思旭�
·
2024-01-13 12:59
hdfs
架构
hadoop
Hive基础知识(十):Hive导入数据的五种方式
overwrite]intotablestudent[partition(partcol1=val1,…)];(1)loaddata:表示加载数据(2)local:表示从本地加载数据到hive表;否则从
HDFS
依晴无旧
·
2024-01-13 09:20
大数据
hive
hadoop
数据仓库
基于Hadoop的网上购物行为大数据分析及预测系统【flask+echarts+机器学习】前后端交互
首先我们将大数据集上传到Hadoop中的
HDFS
存储,之后利用Hadoop的Flume组件,配置好自动加载数据的环境,将数据加载到hive数据库中进行大数据分析。通过对常见的电商指标
王小王-123
·
2024-01-13 06:53
hadoop
flask
网上购物行为分析
Hadoop大数据淘宝
Hadoop系统
Hive数据分析实验报告
文章目录Hive数据分析实验报告实验要求1完成本地数据user_log文件上传至
HDFS
中2完成
HDFS
文件上传至Hive中3Hive操作IP地址规划表实验步骤1数据集预处理2数据集上传
HDFS
3从
HDFS
Stories Untold.
·
2024-01-13 04:53
双十一大数据分析
hive
数据分析
大数据
Hive学习之 DDL(数据定义)心得
Hive之DDL(数据定义):1.创建数据库:createdatabase***;(数据库在
HDFS
上的默认存储路径是/user/hive/warehouse/)标准写法:createdatabaseifnotexists
顺其自然的济帅哈
·
2024-01-13 04:21
Hive
hive
Flink
GoogleFileSystemBigTableMapReduce
HDFS
HBaseHadoopHadoop基于硬盘,可以处理海量数据;Spark基于内存,性能提高百倍,微批(500ms);Flink基于
三半俊秀
·
2024-01-13 01:53
hadoop(4)--NameNode元数据管理
对了,就爱带着问题去探索,NameNode是
HDFS
的一个组件,可以说一个进程,
HDFS
中共有三个组件NameNode,DataNode,SecondNameNode。这三个都是做什么的呢?
ROCK_杰哥
·
2024-01-12 22:41
如何进行大数据系统测试
大数据系统常见的架构形式有如下几种:Hadoop架构:HadoopDistributedFileSystem(
HDFS
):这是一种分布式文件系统,设计用于存储海量数据并允许跨多台机器进行高效访问。
Feng.Lee
·
2024-01-12 21:41
系统测试
项目管理
测试工具
大数据
AdaM: An Adaptive Fine-Grained Scheme for Distributed Metadata Management——泛读论文
现有方法缺陷基于哈希的方法:zFS[16],CalvinFS[21],DROP[24],AngleCut[8]静态子树划分:
HDFS
[6],NFS[14],PVFS2[25],CXFS[10]andCoda
妙BOOK言
·
2024-01-12 21:41
论文阅读
论文阅读
Hadoop常用命令
启动Hadoop所有进程:start-all.sh关闭Hadoop所有进程:stop-all.sh单进程启动:start-dfs.sh和start-yarn.sh分别启动
HDFS
和YARN
hdfs
dfs-xxx
在努力的Jie
·
2024-01-12 16:16
Hadoop 的核心 ——
HDFS
(1)
Hadoop是一个开源的大数据框架Hadoop是一个分布式计算的解决方案Hadoop=
HDFS
(分布式文件系统)+MapReduce(分布式计算)Hadoop的两个核心:
HDFS
分布式文件系统:存储是大数据技术的基础
土冥王
·
2024-01-12 16:13
Logstash应用-同步ES(elasticsearch)到
HDFS
1.场景分析现有需求需要将elasticsearch的备份至
hdfs
存储,根据以上需求,使用logstash按照天级别进行数据的同步2.重难点数据采集存在时间漂移问题,数据保存时使用的是采集时间而不是数据生成时间采用
tuoluzhe8521
·
2024-01-12 13:03
数据同步
elasticsearch
hdfs
logstash
HBase实际应用中常见的问题 解决方案
解决方案:可以通过增加RegionServer、优化
HDFS
、调整HBase配置参数、使用SSD等方式来提升性能。
KevinAha
·
2024-01-12 13:31
hbase
数据库
大数据
hadoop分布式文件系统
Hadoop的分布式文件系统称为
HDFS
(HadoopDistributedFilesystem)。
HDFS
的设计
HDFS
以流式数据访问模式来存储超大文件,运行在商用硬
Alonzo de blog
·
2024-01-12 08:27
hadoop
hadoop
大数据
hdfs
【数据库学习】hive
1,HIVEHadoop的数据仓库处理工具,数据存储在Hadoop兼容的文件系统(例如,AmazonS3、
HDFS
)中。
兔兔西
·
2024-01-12 08:50
数据库
学习
hive
【DolphinScheduler】datax读取hive分区表时,空分区、分区无数据任务报错问题解决
Datax组件时,遇到这么一个问题:之前给客户使用海豚做的离线数仓的分层搭建,一直都运行好好的,过了个元旦,这几天突然在数仓做任务时报错,具体报错信息如下:问题一:datax读取hive分区表时,datax-
hdfs
Reader
Alex_81D
·
2024-01-12 08:49
部署项目相关
大数据基础
数据治理
hive
hadoop
数据仓库
rasa算法_(十八)基于RASA开始中文机器人实现机制
然后将这些数据转成Rasa可以识别的yaml格式,保存在
HDFS
中。RASA到
HDFS
中获取配置数据
我读过书不要骗我
·
2024-01-11 23:26
rasa算法
hive sql 优化-转载csdn
FileFormat)toreadandwritetablerows.读数据过程:
HDFS
files–>InputFileFormat(把文件切成不同的文档,每
仲間_9ee4
·
2024-01-11 23:36
使用Sqoop将Hive数据导出到TiDB
关系型数据库与大数据平台之间的数据传输之前写过一些使用Sqoop将数据在
HDFS
与MySQL互导使用Sqoop将SQLServer视图中数据导入Hive使用DataX将Hive与MySQL中的表互导使用
光于前裕于后
·
2024-01-11 19:26
大数据动物园
hive
sqoop
tidb
GBase 8a MPP分析型数据库集群并行加载
GBase8aMPPCluster中,集群加载功能直接集成在GBase8aMPPCluster内部,提供了面向用户的SQL接口,集群和单机加载方式统一,支持如下功能:支持从通用数据服务器拉取数据,支持ftp/http/
hdfs
kaixin.1
·
2024-01-11 14:25
数据库
hdfs
database
hadoop
Hbase读写原理
首先Hbase是依赖于
HDFS
和zookeeper的。Zookeeper分担了Hmaster
黑色叉腰魔头
·
2024-01-11 09:55
DataX 学习笔记
一.DataX简介1.1DataX概述DataX是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、
HDFS
、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能
十二同学啊
·
2024-01-11 08:39
数据离线同步框架
数据库
big
data
database
(十八)大数据学习之HA
HA专题一.保证服务器时间相同date-s2019-04-21把所有机器时间设置成00:00:00二.HadoopHA1.
HDFS
HA/usr/local/hadoop-2.8.4/etc/hadoop
Movle
·
2024-01-11 08:43
HDFS
相关API操作
文章目录API文档环境配置API操作准备工作创建文件夹文件上传文件下载文件删除文件的更名和移动获取文件详细信息API文档
HDFS
API官方文档:https://hadoop.apache.org/docs
欲无缘
·
2024-01-11 06:56
大数据
hdfs
hadoop
大数据
9.2、增量表数据同步
1、数据通道2、Flume配置1)Flume配置概述Flume需要将Kafka中topic_db主题的数据传输到
HDFS
,故其需选用KafkaSource以及
HDFS
Sink,Channel选用FileChannel
施小赞
·
2024-01-11 02:16
数仓架构搭建
增量数据同步
9.1、全量表数据同步
1、数据通道全量表数据由DataX从MySQL业务数据库直接同步到
HDFS
,具体数据流向如下图所示。
施小赞
·
2024-01-11 02:15
数仓架构搭建
全量同步
文件下载相关的技术
服务器上的文件系统可以是本地文件系统(如ext4、NTFS等)或分布式文件系统(如
HDFS
、AmazonS3等),具体取决于服务器的架构和需求。
睿智闷骚男
·
2024-01-10 20:22
常识
笔记
Scala操作
HDFS
通过Scala对
HDFS
的一些操作,包括创建目录,删除目录,上传文件,文件读取,删除文件,Append文件等等;importjava.io.
SunnyMore
·
2024-01-10 18:13
【精】彻底理解
HDFS
写文件流程
以及下游节点如何给上游节点发Ack②DFSOutputStream、DataStreamer的原理③Sender、BlockReceiver、PacketResponder的原理作为引子,先从最上游谈起:我们使用
HDFS
API
小北觅
·
2024-01-10 18:22
大数据学习记录hadoop(2)
四、hadoop之
HDFS
4.1
HDFS
的定义
HDFS
定义:分布式文件系统
HDFS
使用场景:一次写入,多次读写4.2
HDFS
的优缺点优点:1)高容错性(1)数据自动保存多个副本(2)某个副本丢失后,可以自动恢复
不吃海带吃海苔
·
2024-01-10 16:15
RDD 特性——RDD 的分区和 Shuffle
的原理分区的作用RDD使用分区来分布式并行处理数据,并且要做到尽量少的在不同的Executor之间使用网络交换数据,所以当使用RDD读取数据的时候,会尽量的在物理上靠近数据源,比如说在读取Cassandra或者
HDFS
我像影子一样
·
2024-01-10 16:14
Spark
大数据
spark
大数据
Linux入门学习笔记
Linux的目录结构Linux组成结构:硬件资源->内核程序->操作系统的应用程序->用户应用程序(Linux的文件系统均可被内核程序和操作系统的应用程序以及用户的应用程序调用)Hadoop的文件操作系统:
HDFS
RoundOff
·
2024-01-10 14:02
linux学习笔记
linux学习
Hive分区表实战 - 单分区字段
创建国别分区的图书表(三)在本地创建数据文件(四)按分区加载数据1、加载中文书籍数据到`country=cn`分区2、加载英文书籍数据到`country=en`分区(五)查看分区表book全部记录(六)通过
HDFS
howard2005
·
2024-01-10 13:55
数仓技术Hive入门
hive
hadoop
分区表
单分区字段
深入理解 Hadoop (三)
HDFS
文件系统设计实现
HDFS
FileSystemNameNode端抽象实现
HDFS
磁盘元数据文件解读共有五种格式的文件:edits_0000000000000041912-0000000000000041913:该LogSegment
我很ruo
·
2024-01-10 08:50
大数据
hadoop
hdfs
大数据
深入理解 Hadoop (二)
HDFS
架构演进
HDFS
分布式集群架构设计实现核心设计思路:分而治之的思路,实现分散存储+冗余存储元数据管理核心问题:文件系统目录树文件和数据块的映射关系数据块和副本存储主机之间的映射关系NameNode内部两个非常重要的组件
我很ruo
·
2024-01-10 08:49
大数据
hadoop
hdfs
架构
hadoop主要文件及目录简介
1.hadoop目录概述hadoop的解压目录下的主要文件如下图所示:其中:/bin目录存放对Hadoop相关服务(
HDFS
,YARN)进行操作的脚本;/etc目录存放Hadoop的配置文件/lib目录存放
我很ruo
·
2024-01-10 08:19
hadoop
hive 基本操作与示例
1.DDL1.1DDL之库操作1.1.1增createdatabase[ifnotexists]库名[comment'库的注释'][location'库在
hdfs
上存放的路径'][withdbproperties
我很ruo
·
2024-01-10 08:49
hive
大数据
hadoop之
HDFS
文件系统命令操作
hadoopfilehadoopfs-appendToFilelocalfile1localfile2/user/hadoop/hadoopfilehadoopfs-appendToFilelocalfile
hdfs
OnePandas
·
2024-01-10 08:46
Hadoop
hadoop
hdfs
大数据
深入理解 Hadoop (四)
HDFS
源码剖析
HDFS
集群启动脚本start-dfs.sh分析启动
HDFS
集群总共会涉及到的角色会有namenode,datanode,zkfc,journalnode,secondaryName共五种角色。
我很ruo
·
2024-01-10 08:10
大数据
hadoop
hdfs
大数据
Spark 初级编程实践
一、目的1、掌握使用Spark访问本地文件和
HDFS
文件的方法2、掌握Spark应用程序的编写、编译和运行方法二、平
cwn_
·
2024-01-10 08:28
大数据
spark
大数据
分布式
Hadoop体系结构之
HDFS
HDFS
采用主从(Master/Slave)结构模型,一个
HDFS
集群是由一个NameNode和若干个DataNode组成的(在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一些大公司通过修改
Alukar
·
2024-01-10 05:05
Java大数据学习~Hadoop初识三Yarn模式
在上篇文章中我们简单的学习了
HDFS
简单架构,还有最重要的读写流程。我们都知道在如今的Hadoop中主要有三个重要的执行管理器。一个
HDFS
,一个MapReduce,还有就是我们今天要看的YARN。
胖琪的升级之路
·
2024-01-10 05:55
Hadoop集群搭建:4.修改Hadoop的配置文件、节点启动
module/hadoop-2.7.2/etc/hadoop1.核心配置文件配置core-site.xml,命令:vicore-site.xml在该文件的中config范围内编写如下配置fs.defaultFS
hdfs
丶珍视当下
·
2024-01-09 23:38
笔记:分布式大数据技术原理(一)Hadoop 框架
Hadoop中有3个核心组件:分布式文件系统:
HDFS
——实现将文件分布式存储在很多的服务器上分布式运算编程框架:MapReduce
WeeeicheN
·
2024-01-09 22:17
Big
Data
big
data
hadoop
大数据技术原理与应用学习笔记(八)
大数据技术原理与应用学习笔记(八)本系列历史文章Hadoop再探讨Hadoop的优化与发展Hadoop1.0到Hadoop2.0不断完善的Hadoop生态系统
HDFS
2.0新特性
HDFS
HA(高可用性)
Ragnaros the Firelord
·
2024-01-09 22:46
大数据学习笔记
hadoop
大数据
大数据技术原理与应用笔记
参考:课程教学(林子雨老师)程序羊大数据学习路线
HDFS
入门Hbase入门NoSql入门文章目录一、大数据概述1.1大数据时代1.2大数据的概念和影响1.3大数据的应用1.4大数据的关键技术1.5大数据
Moliay
·
2024-01-09 22:16
大数据
大数据
云计算
人工智能
HDFS
相关Shell命令
文章目录上传相关操作下载相关操作
HDFS
直接操作上传相关操作1)-moveFromLocal:从本地剪切粘贴到
HDFS
hadoopfs-moveFromLocal.
欲无缘
·
2024-01-09 22:03
大数据
hdfs
npm
hadoop
HDFS
概述
文章目录
HDFS
背景定义
HDFS
优缺点
HDFS
组成
HDFS
文件块大小
HDFS
背景定义背景先给大家介绍一下什么叫
HDFS
,我们生活在信息爆炸的时代,随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中
欲无缘
·
2024-01-09 22:32
大数据
hdfs
hadoop
大数据
上一页
7
8
9
10
11
12
13
14
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他