E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
********HDFS
大数据之Hadoop流存储
通过对Hadoop分布式计算平台最核心的分布式文件系统
HDFS
、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。
陌名_9b41
·
2023-11-24 18:01
hadoop2.x linux集群部署
hadoop2.x集群部署下载hadoop需要提前准备好jdk1.8和rsync和ssl集群信息解压安装配置环境变量配置site配置文件(/hadoop/etc/hadoop目录下)core-site.xml
hdfs
-site.xmlyarn-site.xmlmapred-site.xmlhadoop-env.sh
何浩翔
·
2023-11-24 18:21
hadoop
大数据
ARTS-第八周第九周
Tips/Technology一、Kerberos与hadoop生态相关配置与操作
HDFS
使用kerberosYARN、Spark、Hive使用kerberoskerberos+LDA
梧上擎天
·
2023-11-24 17:02
【黑马甄选离线数仓day02_数据采集】
1.数仓工具使用-DataX1.1DataX介绍DataX是阿里推出的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、
HDFS
、Hive、ODPS、HBase、FTP
LKL1026
·
2023-11-24 16:02
数据仓库
大数据
笔记
大数据集群报错集锦及解决方案
3Kafka3.1Kafka集群部分机器起不来4Azkaban4.1Azkaban页面登陆乱码5Oozie5.1Oozie初始化失败5.2脚本修改之后Oozie任务执行失败6Kerberos6.1启用Kerberos之后,
hdfs
陈舟的舟
·
2023-11-24 16:22
大数据
大数据
Flink运行wordcount——读写
hdfs
packagecom.test;importorg.apache.flink.api.common.functions.FlatMapFunction;importorg.apache.flink.api.java.tuple.Tuple2;importorg.apache.flink.streaming.api.datastream.DataStream;importorg.apache.fli
雷神乐乐
·
2023-11-24 15:05
#
Flink-Java版
flink
hdfs
大数据
flink 问题总结(5)如何读取Kerberos认证的hadoop数据
问题:flink1.8如何读取待Kerberos认证的
hdfs
数据?
ZYvette
·
2023-11-24 14:39
大数据学习笔记-
HDFS
(一)
2.1如何解决海量数据存的下的问题2.2如何解决海量数据文件查询边界问题2.3如何解决大文件传输效率慢的问题2.4如何解决硬件故障导致的数据丢失问题2.5如何解决用户查询视角统一规整问题3、分布式文件系统
HDFS
天码村
·
2023-11-24 13:05
大数据
数据库
hadoop
hdfs
HDFS
元数据管理/磁盘清理维护
元数据管理1.元数据管理概述>
HDFS
分类-类型分包括以下几部分文件、目录自身的属性信息,例如文件名,目录名,修改信息等文件记录的信息的存储相关的信息,例如存储块信息,分块情况,副本个数等记录
HDFS
的
for your wish
·
2023-11-24 13:26
hdfs
eclipse
hadoop
【实用技巧】将本地csv文件导入到hive中
step1:在hive中创建表test01,并使用命令"showcreatetable表名",得到该表存放的
hdfs
文件路径(数据入库时需要用到)createtableifnotexistsfzp.test01
AI study
·
2023-11-24 11:21
大数据教程
hive
大数据
hadoop
spark中write算子和format算子详解
以下是一些常见的write算子的用途和示例:1.写入文件系统(例如,
HDFS
、S3等)://将DataFrame写入Parquet格式的文件dataframe.w
后季暖
·
2023-11-24 11:02
spark
大数据
分布式
ubuntu操作系统中docker下Hadoop分布式前置环境配置实验
版本:centos7hadoop3.1.3javaJDK:1.8集群规划:masterslave1slave2
HDFS
NameNodeDataNodeDataNodeSecondryNameNodeDataNodeYARNNodeManagerResourceManageNodeManagerNodeManager1
芝士小熊饼干
·
2023-11-24 09:05
分布式
docker
hadoop
Spark算子综合应用案例
一.WordCount数据hadoopmapreduceyarn
hdfs
hadoopmapreducemapreduceyarnlagoulagoulagou案例:Scala版defmain(args:
谷应泰
·
2023-11-24 07:24
大数据
spark
大数据MapReduce学习案例:数据去重
文章目录一,案例分析(一)数据去重介绍(二)案例需求二,案例实施(一)准备数据文件(1)启动hadoop服务(2)在虚拟机上创建文本文件(3)上传文件到
HDFS
指定目录(二)Map阶段实现(1)创建Maven
梁辰兴
·
2023-11-24 05:32
大数据
大数据
mapreduce
hadoop
数据去重
Impala-大数据时代快速SQL引擎
Impala介绍ApacheImpala是由Cloudera开发并开源的一款基于
HDFS
/Hbase的MPPSQL引擎,它拥有和Hadoop一样的可扩展性、它提供了类SQL(类Hsql)语法,在多用户场景下也能拥有较高的响应速度和吞吐量
盛装吾步
·
2023-11-24 02:30
hadoop
impala
hive
hadoop
sql
Spark设计理念与基本架构
HadoopMapReduce的缺陷:对
HDFS
的频繁操作导致磁盘IO称为系统性能的瓶颈,因此只适用于离线数据处理。
whynotybb
·
2023-11-24 02:29
HDFS
小结01
首先我们来认识一下
HDFS
,
HDFS
(HadoopDistributedFileSystem)Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。
liuzx32
·
2023-11-24 01:30
【Spark技术与实战】Spark+Scala对化妆品指标的计算处理
.分析排名变化最大的品牌8.判断排名变化方向总结前言我们知道,Spark是一个优秀的基于内存的计算框架,可以独立使用,也可以和Hadoop集成使用,可以使用Hadoop的yarn进行资源管理、可以读写
hdfs
db_lmr_2071
·
2023-11-23 22:35
spark
scala
大数据
【Hadoop】安装部署-完全分布式搭建
.安装jdk和hadoop2.1配置jdk环境变量2.2配置Hadoop环境变量三、准备三台虚拟机1.修改主机名与IP映射2.修改主机上的hadoop相关配置文件2.1core-site.xml2.2
hdfs
-site.xml2.3yarn-site.xml2.4slaves3
db_lmr_2071
·
2023-11-23 22:05
分布式
hadoop
大数据
计算机毕业设计吊打导师hadoop+spark+hive微博预警系统 微博数据分析可视化大屏 微博情感分析 微博爬虫 微博大数据 微博推荐系统 微博预测系统
:1.selenium爬取微博热搜、文章、评论数据存入mysql数据库(并对评论lstm情感分析模型建模分析);2.使用mapreduce对mysql中采集的微博数据进行数据清洗,转为.csv文件上传
hdfs
计算机毕业设计大神
·
2023-11-23 20:09
大数据-数仓-数据采集-业务数据(三):增量同步采集【MySQL-(Maxwell)->Kafka-(Flume)->
HDFS
】【每日增量:每天只将业务数据中新增及变化的数据同步到数据仓库】
增量同步策略解释:每日增量,就是每天只将业务数据中的新增及变化的数据同步到数据仓库中,适用:表数据量大,且每天只会有新的数据插入的场景,特点:采用每日增量的表,通常会在首日先进行一个全量同步。例如:退单表、订单状态表、支付流水表、订单详情表、活动与订单关联表、商品评论表Maxwell的实现原理很简单,就是将自己伪装成Slave,并遵循Mysql主从复制的协议,从master中同步数据。Maxwel
u013250861
·
2023-11-23 18:41
#
大数据
mysql 同步数据到
hdfs
问题分析
datax
hdfs
writer的部分问题Permissiondenied:user=xxxxx用户权限问题windows下
hdfs
目录被删除问题背景:准备用datax从mysql同步数据到
hdfs
,记录下遇到的问题
我不是文盲
·
2023-11-23 18:09
etl
datax
hdfs
etl
java
Flume数据采集项目常见问题——(一)
目录1
HDFS
无法看到当天日志如何解决(二分法去找错误)2日志文件数据采集到kafka为什么选择kafkachannel?3Maxwell的原理?4Maxwell如何实现断点续传?
平平无奇程序猿
·
2023-11-23 18:09
flume
kafka
大数据
伪分布式系列 - 第一篇 - hadoop-3.2.0环境搭建
的三种运行模式单机模式伪分布式模式全分布式集群模式环境准备系统环境ssh免密码连接防火墙关闭jdk安装配置相关环境变量配置安装包下载Hadoop配置解压hadoop文件配置linux环境配置启动服务格式化NameNode启动web页面简单使用
hdfs
yarnHadoop
rolin-刘瑞
·
2023-11-23 15:21
hadoop
大数据生态搭建系列
hadoop
HDFS
分布式原理---概念篇
HDFS
分布式系统2018年10月9日11:50什么是大数据:短时间内快速的产生海量的多种多样的有价值的数据大数据的技术:分布式存储分布式计算分布式批处理数据积攒一段时间,在未来某一时刻一次性计算一批数据分布式流处理数据实时进行计算
hjy1821
·
2023-11-23 14:16
HDFS原理
HDFS
分布式存储原理
大数据
利用 Apache Ranger 管理 Amazon EMR 中的数据权限
在大数据领域,ApacheRanger是最受欢迎的授权选择之一,它支持所有主流大数据组件,包括
HDFS
、Hive、HBase、Trino等组件。
亚马逊云开发者
·
2023-11-23 14:43
apache
Datax的使用说明及入门操作案例演示
DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、
HDFS
、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS
嫣夜来
·
2023-11-23 14:39
知识积累
分布式
数据库
数据库
大数据
hive
Hadoop【基础知识 04】【
HDFS
常用shell命令】(hadoop fs + hadoop dfs +
hdfs
dfs 使用举例)
hadoopdfs与
hdfs
dfs:只能操作
HDFS
文件系统相关(包括与LocalFS间的操作),前者已经Deprecated,一般使用后者。
シ風
·
2023-11-23 13:13
#
:::
::
:
Hadoop
:
::
:::
hadoop
大数据
hadoop win11安装hadoop环境 winutils.exe获取,windows安装大数据运行环境 winutils文件获取,winutils文件 hadoop(十四)
1.github地址:GitHub-cdarlint/winutils:winutils.exehadoop.dlland
hdfs
.dllbinariesforhadoopwindows2.从上述链接,
不努力就种地~
·
2023-11-23 13:11
大数据
大数据
hadoop
分布式
hadoop
HDFS
常用文件操作命令
文章目录hadoop
HDFS
常用文件操作命令显示目录下文件ls查看文件内容cat建目录mkdir拉
hdfs
上的文件到本地get合并文件到本地getmerge上传本地文件到
hdfs
put查文件数量count
pingzishinee
·
2023-11-23 13:11
大数据
hdfs
hadoop
常用命令
get
put
HADOOP_HOME and hadoop.home.dir are unset.
hdfs
client 代码上传文件失败报错 hadoop api上传报错 win11 hadoop 环境错误
1.win环境安装hadoop依赖,配置环境变量,重启即可2.按照我上篇文章配置:hadoopwin11安装hadoop环境winutils.exe获取,windows安装大数据运行环境winutils文件获取,winutils文件hadoop(十四)-CSDN博客
不努力就种地~
·
2023-11-23 13:40
大数据
hadoop
hdfs
大数据
hdfs
命令
文档地址:http://hadoop.apache.org/docs/r1.0.4/cn/
hdfs
_shell.htmlFSShell调用文件系统(FS)Shell命令应使用bin/hadoopfs的形式
chongxiting3307
·
2023-11-23 13:09
大数据
shell
hadoop shell操作
hdfs
处理文件命令
hdfs
上传命令 hadoop fs -put命令hadoop fs相关命令 hadoop(十三)
hadoopfs-helprm查看rm命令作用hadoopfs查看命令1.创建文件夹:#
hdfs
前缀也是可以的。
不努力就种地~
·
2023-11-23 13:07
大数据
hadoop
hdfs
大数据
大数据基础设施搭建 - Flume
项目(2)开发拦截器类(3)开发pom文件(4)打成jar包上传到Flume3.2.3修改配置文件3.3创建KafkaTopic3.4启动Flume3.5停止Flume四、监控Kafka(kafkato
hdfs
m0_46218511
·
2023-11-23 13:37
大数据基础设施搭建
大数据
flume
spark算子大全glom_Spark 算子- Value Transformation
Spark算子的作用Spark的输入、运行转换、输出过程,在运行转换中通过算子对RDD进行转换输入:外部数据空间(
HDFS
、Scala集合)输入Spark,数据进入Spark运行时数据空间,转化为Spark
weixin_39736934
·
2023-11-23 12:38
spark算子大全glom
hdfs
命令行操作摘录
hdfs
分布式文件系统优点:一次写多次读;流式数据访问;一次写入、多次读取缺点:高延迟;不适合存储大量小文件NameNode负责管理整个dfs文件系统的元数据,即,存储所有的文件目录、每个文件的具体信息
佛系小懒
·
2023-11-23 07:01
利用JAVA代码将本地文件传入
HDFS
中
目录一、环境配置1.1配置hadoop和java的环境变量1.2修改本地host文件二、编写JAVA代码2.1导入hadoop_lib包2.2读取本地文件2.3使用copyBytes方法将本地文件传入
hdfs
db_cxy_2061
·
2023-11-23 06:57
java
hdfs
开发语言
Hadoop集群间文件拷贝
基本使用最常使用的是集群间copyhadoopdistcp
hdfs
://nn1:8020/foo/bar
hdfs
://nn2:8020/ba
Yampery
·
2023-11-23 06:27
hadoop
大数据
hdfs
hadoop重命名文件_hadoop
HDFS
常用文件操作命令
命令基本格式:hadoopfs-cmd1.lshadoopfs-ls/列出
hdfs
文件系统根目录下的目录和文件hadoopfs-ls-R/列出
hdfs
文件系统所有的目录和文件2.puthadoopfs-put
hdfs
file
weixin_39907850
·
2023-11-23 06:24
hadoop重命名文件
到另一个文件夹 复制
hdfs
上的文件_
HDFS
——如何将文件从
HDFS
复制到本地
下面两个命令是把文件从
HDFS
上下载到本地的命令。get使用方法:hadoopfs-get[-ignorecrc][-crc]复制文件到本地文件系统。
666齐乐家园
·
2023-11-23 06:54
到另一个文件夹
复制hdfs上的文件
hdfs
多个文件合并_hadoop 本地多压缩文件上传
hdfs
hdfs
上多文件合并压缩到本地
代码如下:packagenet.maichuang.log;importjava.io.File;importjava.io.FileOutputStream;importjava.io.IOException;importjava.io.InputStream;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.f
weixin_39585378
·
2023-11-23 06:54
hdfs
多个文件合并
hdfs
文件如何导出到服务器,[Hadoop] 如何将
HDFS
文件导出到 Windows文件系统
介绍如何在Windows环境中,将保存在
HDFS
上的文件导出到本机上数据导入到
HDFS
后当然也要有方法将数据从
HDFS
导出到本机系统上在HADOOPJAVAAPI所提供的FileSystem类就提供copyToLocalFile
weixin_39850981
·
2023-11-23 06:54
hdfs文件如何导出到服务器
hdfs
拷贝文件 java_hadoop集群间的
hdfs
文件拷贝
1、背景部门有个需求,在网络互通的情况下,把现有的hadoop集群(未做Kerberos认证,集群名为:bd-stg-hadoop)的一些
hdfs
文件拷贝到新的hadoop集群(做了Kerberos认证
每天喝王老吉
·
2023-11-23 06:24
hdfs
拷贝文件
java
Hadoop中
HDFS
文件管理系统的使用
1概述
HDFS
(HadoopDistributedFileSystem)是一个文件系统,用于存储文件,通过目录树来定位文件;随着数据量激增,单个操作系统无法对海量数据进行存储,因此将数据分散到多个系统中
Vic·Tory
·
2023-11-23 06:54
大数据
hdfs
hadoop
使用
HDFS
Shell和
HDFS
的Java访问接口进行文件操作,完成从本地文件hello.txt拷贝至
HDFS
系统/test目录下操作。
使用
HDFS
Shell完成本地文件hello1.txt拷贝至
HDFS
系统/test目录下操作1.1创建test目录创建
hdfs
文件虚拟目录;创建/user/hadoop/test目录;并使用,.
风,风,风
·
2023-11-23 06:23
hadoop
hdfs
大数据
基于VM虚拟机下Ubuntu18.04系统,Hadoop的安装与详细配置
参考博客:https://blog.csdn.net/duchenlong/article/details/114597944与上面这个博客几乎差不多,就是java环境配置以及后面的hadoop的
hdfs
-site.xml
北辰Charih
·
2023-11-23 06:48
大数据挖掘
linux
服务器
hadoop
大数据
在使用Hadoop上传本地文件到
HDFS
时出现 java.io.FileNotFoundException File /xxx/xxx.txt does not exist问题
问题描述今天笔者在使用Hadoop时,调用copyFromLocalFile方法上传本地文件到
HDFS
时java.io.FileNotFoundExceptionFile/xxx/xxx.txtdoesnotexist
啃饼思录
·
2023-11-23 06:18
大数据
大数据
hadoop
hdfs
win安装部署hadoop3.0.0并启动上传文件到
HDFS
1.下载工具包(下载不方便的留邮箱)hadoop-3.0.0.tar.gzwinutils-master.zip2.正式上手1.解压文件hadoop-3.0.0.tar.gzwinutils-master.zip2.配置环境变量Path最前面添加:;%HADOOP_HOME%\bin;配置完cmd->hadoopversion测试一下下来就修改配置文件进入解压后的hadoop3.0.0->etc-
向阳赤子心
·
2023-11-23 06:17
日常问题记录
hadoop
hdfs
hadoop在本地创建文件,然后将文件拷贝/上传到
HDFS
3.拷贝本地文件到
HDFS
,$./bin/
hdfs
dfs-copyFromLocal{本地文件或者文件夹名}{
HDFS
上的文件或者文件夹名或者./}./bin/
hdfs
北辰Charih
·
2023-11-23 06:44
大数据挖掘
hadoop
hdfs
大数据
软考-系统架构设计师-大数据架构设计理论与实践-练习题3
主Kafka再将数据写入
HDFS
分布式文件系统,而异构数据通过DataX/Sqoop写入
HDFS
。
HDFS
中的数据会通过Offline采用Hive、Map
shumeizwb
·
2023-11-23 06:04
软考-系统架构设计师
软考
系统架构设计师
Lambda架构
上一页
20
21
22
23
24
25
26
27
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他