E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hdfs集群搭建
关于netty kafka
hdfs
hbase性能调研记录
1.netty调研记录项目中准备用netty框架来实现socket接口,对于netty的性能做了个初步调研,大致过程如下:1.1调用socket接口的客户端为了让客户端快速发送数据,我们已经提前将需要传输的数据通过java的ObjectInputStream写数据到了一个文件,主要是节省客户端接口的编码,然后让客户端不断循环发送数据一段时间(比如20分钟,时间是可以指定),客户端代码如下:impo
aperise
·
2023-12-28 13:09
学习总结
netty
kafka
hadoop
netty
kafka
hdfs
hbase
调研
速度
HDFS
基于动态代理的客户端运行逻辑
RetryDecisionRetryInfo几种常见的RetryPolicy实现和使用场景FailoverOnNetworkExceptionRetryTryOnceThenFailRetryForeverRetryLimited
HDFS
小昌昌的博客
·
2023-12-28 13:39
大数据架构
实现
hadoop
open-source
hdfs
hadoop
大数据
HDFS
短路读的实现(全网最全面深入讲解)
文章目录前言1.知识准备1.1关于域套接字(DomainSocket)什么是DomainSocketDomainSocket通信在ShortCircuitRead中做了什么DomainSocket在Hadoop上的基本实现1.2关于内存映射(MMAP)什么是MMAPMMAP在ShortCircuit中的作用是什么1.3关于共享内存(SharedMemory)什么是共享内存共享内存在Hadoop短路
小昌昌的博客
·
2023-12-28 13:38
大数据架构
实现
hadoop
java
短路读
hdfs
ShortCircuit
hadoop
域套接字
Domain
Socket
mmap
springboot远程连接
HDFS
-hadoop3.0
一.hadoop前置环境:hadoop3.0+CDH6.1这里默认已经在linux环境配置好;如何安装hodoop不在本次范围内;注意:此时集群没有开启Kerberos认证我的环境:win10+IDEA2019.3+jdk8二.准备环境:1.获取fs.defaultFS链接在core-site.xml里面这个等下配置在application.propties里面2.下载winutilshttps:
尚云峰
·
2023-12-28 13:33
spring
boot
springboot
hadoop
HDFS
java.net.UnknownHostException: hadoop
或者直接在node节点上面执行:
hdfs
dfs-mkdir/test时报错:mkdir:java.net.UnknownHostException:mkdir:mkdir:java.net.UnknownHostException
綠竹清水之福荫
·
2023-12-28 13:33
hadoop
mycluster
hadoopha
hadoopclu
hadoop面试问题
1当前你们公司使用的Hadoop版本是什么Hadoopcdh-5.7.6/hadoop-2.6.02
HDFS
常见的数据压缩格式有哪些,介绍其中一种详细的实现方式Gzip优点是压缩率高,速度快。
code学习社
·
2023-12-28 13:31
【Hadoop】RPC在client端的源码解析
最近在看《Hadoop2.X
HDFS
源码剖析》这本书(其实看了挺久的,但是进度比较慢),要看懂hadoop源码真的是需要一定的代码和框架的基础,用到的东西还真是蛮多的,真的厉害,哎,我太菜了~我们会用hadoop
lsr40
·
2023-12-28 13:01
hadoop
HDFS
2.x之RPC流程分析
HDFS
2.x之RPC流程分析1概述Hadoop提供了一个统一的RPC机制来处理client-namenode,namenode-dataname,client-dataname之间的通信。
can007
·
2023-12-28 13:59
Hadoop
Java大杂烩
hadoop2.0
HDFS
Hadoop
RPC
HDFS
客户端UnknownHostException事故解析
文章目录前言事故现场问题分析是否是整个域名解析服务当时都出问题了是否是出问题的pods本身的域名解析有问题异常发生的全部过程域名的解析是什么时候发生的,怎么发生的域名解析的详细流程重试发生在什么地方为什么重试会无效Bugfix代码详解关于StandardHostResolver和QualifiedHostResolver关于InetAddress关于InetSocketAddress相关文章前言我
小昌昌的博客
·
2023-12-28 12:55
大数据架构
实现
hadoop
open-source
hdfs
hadoop
大数据
zookeeper
集群搭建
一、介绍zookeeper是一个高可用的分布式协调器,官网二、功能统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等三、单机安装zookeeper需要jdk环境,所以需要先安装jdk,安装教程3.1、文件下载下载zookeeper压缩文件3.2、解压tar-zxvfapache-zookeeper-3.5.7-bin.tar.gz-C/opt/module/3.3、修改配
有人看我吗
·
2023-12-28 12:38
#
zookeeper
zookeeper
分布式
云原生
Hadoop之
HDFS
详细教程
1、
HDFS
概述Hadoop分布式系统框架中,首要的基础功能就是文件系统,在Hadoop中使用FileSystem这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类
白鸽呀
·
2023-12-28 11:29
大数据
hadoop
hdfs
大数据
Hive DDL语法
MySQL大部分都相同一、数据库操作1.1、创建数据库CREATEDATABASE[IFNOTEXISTS]databasename[COMMENTdatabase_comment][LOCATION
hdfs
path
有人看我吗
·
2023-12-28 11:28
大数据
hive
hadoop
数据仓库
Hive实战:统计总分与平均分
文章目录一、实战概述二、提出任务三、完成任务(一)准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到
HDFS
指定目录(二)实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、
howard2005
·
2023-12-28 10:16
数仓技术Hive入门
hive
总分
平均分
Nacos使用快速入门
namespace给微服务配置namespaceNacos与Eureka的区别Nacos做配置中心快速入门在nacos中添加配置文件从微服务拉取配置配置热更新方式一方式二配置共享配置共享的优先级Nacos
集群搭建
集群结构图搭建集群初始化
Binary Oracle
·
2023-12-28 07:45
#
SpringCloud
java
spring
boot
spring
cloud
Nginx+keepalived从入门到
集群搭建
(手把手教学,建议收藏)
目录一、什么是Nginx二、Nginx的相关概念1.正向代理2.反向代理3.负载均衡4.动静分离三、Nginx安装1.安装2.其他配置3.windows中nginx安装四、Nginx常用命令1.查看nginx版本号2.启动3.关闭4.重新加载命令五、Nginx的配置文件1.配置文件位置2.分析nginx.conf配置文件六、Nginx配置-反向代理11.实现效果:2.tomcat启动3.nginx
秃了也弱了。
·
2023-12-28 06:03
中间件
nginx
Hive
Hive概述由于MapReduce开发难度大,学习成本高,
Hdfs
文件没有字段名、没有数据类型,不方便进行数据的有效管理。因此使用MapReduce框架开发,项目周期长,成本高。
之古
·
2023-12-28 02:58
Hadoop集成对象存储和
HDFS
磁盘文件存储
1.1版本说明组件版本是否必须其他事项Hadoop3.3.0+是hadoop3.3.0之后原生支持国内主要对象存储Hive3.1.3否实测没有Hive也可以使用sparksql,使用hive更好的管理
HDFS
tuoluzhe8521
·
2023-12-28 02:38
Hadoop
hadoop
hdfs
大数据
阿里云
EMR集群迁移自建Hadoop(元数据及
HDFS
数据)
1.背景老集群采用的腾讯emr集群,使用过程中磁盘扩容成本费用高且开源组件兼容性存在问题,因此决定采用自建hadoop集群,需要将emr的元数据和
hdfs
基础数据迁移过来。
tuoluzhe8521
·
2023-12-28 02:37
Hadoop
hadoop
hdfs
大数据
HDFS
_DELEGATION_TOKEN 还原及解决方案
HDFS
_DELEGATION_TOKEN这个BUG在很多文章中都出现着,讲了很多原理,但是只给出了官方引用地扯,完全没有给出如何解决,我们线上的业务就有着这样的问题,7天一到马上出现这问题了,官方明明说这个
大猪大猪
·
2023-12-28 00:39
Hive 部署
Hive构建在ApacheHadoop之上,并通过
hdfs
支持S3,adls,gs等存储。Hive允许用户使用SQL读取、写入和管理PB级数据。官网地址二、架构Hive中主要包
有人看我吗
·
2023-12-27 23:54
hive
hadoop
数据仓库
Hive实战:词频统计
文章目录一、实战概述二、提出任务三、完成任务(一)准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到
HDFS
指定目录(二)实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、
howard2005
·
2023-12-27 23:24
数仓技术Hive入门
hive
hadoop
Hadoop集群shell常用命令
sbin/start-dfs.shsbin/start-yarn.sh3.常用命令3.1查看指定目录下内容
hdfs
dfs–ls[文件目录]
hdfs
dfs-ls-R///显式目录结构hado
Youngmon
·
2023-12-27 21:10
【头歌实训】Spark 完全分布式的安装和部署
文章目录第1关:Standalone分布式
集群搭建
任务描述相关知识课程视频Spark分布式安装模式示例集群信息配置免密登录准备Spark安装包配置环境变量修改spark-env.sh配置文件修改slaves
撕得失败的标签
·
2023-12-27 20:56
【头歌实训】
分布式
spark
大数据
头歌实训
【头歌实训】Spark 完全分布式的安装和部署(新)
文章目录第1关:Standalone分布式
集群搭建
任务描述相关知识课程视频Spark分布式安装模式主机映射免密登录准备Spark安装包配置环境变量修改spark-env.sh配置文件修改slaves文件分发安装包启动
撕得失败的标签
·
2023-12-27 20:56
【头歌实训】
分布式
spark
wpf
头歌实训
大数据库分析
ElasticSearch和impala首先,对于两个数据库作出说明,有hive查询比较慢,hbase会针对于列的查询不太友好,所以CDH推出了impala搜索引擎,都是基于
HDFS
的。
靈08_1024
·
2023-12-27 19:00
大数据面试题-1
一、map-reduce原理map过程:1.1读取
HDFS
中的文件。每一行解析成一个。每一个键值对调用一次map函数。1.2覆盖map(),接收1.1产生的,进行处理,转换为新的输出。
edwin1993
·
2023-12-27 19:29
【hive】hive的调优经验
一、hive自己进行优化对union这样的命令进行了优化二、数据本地化率
hdfs
数据本地化率对hive性能产生影响在数据大小一定的情况下,500个128M的文件和2个30G的文件跑hive任务,性能是有差异的
kiraraLou
·
2023-12-27 18:49
hive
hive
hadoop
big
data
HBase基础知识(六):HBase 对接 Hive
1.HBase与Hive的对比1.Hive(1)数据仓库Hive的本质其实就相当于将
HDFS
中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。
依晴无旧
·
2023-12-27 14:49
大数据
hbase
hive
数据库
Spark与Hadoop的关系和区别
它包括两个核心组件:Hadoop分布式文件系统(
HDFS
):用于存储大规模数据的分布式文件系统。H
晓之以理的喵~~
·
2023-12-27 12:13
Spark
spark
hadoop
大数据
Hadoop生产集群各种维护命令
1.
HDFS
运维1.1
HDFS
集群操作命令#
HDFS
集群启停start-dfs.shstop-dfs.sh#获取
HDFS
集群信息
hdfs
dfsadmin-report#namenode和datanode
tuoluzhe8521
·
2023-12-27 12:12
hadoop相关
hadoop
大数据
分布式
HDFS
shell 快查
HDFS
设计的主要目的是对海量数据进行处理,也就是说在其上能够储存很大量文件,
HDFS
提供多种的访问的策略,首先我们来认识其通过shell接口的访问方式。
hdfs
shell与linux命令基本相同。
Tim在路上
·
2023-12-27 12:16
Spark生产集群各种使用
环境配置1.1版本说明要求版本是否必须其他事项Hadoop3.3.4是hadoop3.3.0之后原生支持国内主要对象存储Hive3.1.3否实测没有Hive也可以使用sparksql,使用hive更好的管理
HDFS
tuoluzhe8521
·
2023-12-27 10:15
hive相关
spark
大数据
分布式
七牛云存储
Flink on K8S
集群搭建
及StreamPark平台安装
1.环境准备1.1介绍在使用Flink&Spark时发现从编程模型,启动配置到运维管理都有很多可以抽象共用的地方,目前streampark提供了一个flink一站式的流处理作业开发管理平台,从流处理作业开发到上线全生命周期都做了支持,是一个一站式的流出来计算平台。未来spark开发也在规划范围内,目前还不支持1.2下载StreamPark安装包下载:https://streampark.apach
tuoluzhe8521
·
2023-12-27 10:45
flink
flink
kubernetes
大数据
StreamPark
Harbor
datax 同步mongodb数据库到hive(
hdfs
)和elasticserch(es)
(有点老了,后来发现flinkcdc都只能监控一张表,多张表无法监控)2.datax版本:自己编译的DataX-datax_v2022103.
hdfs
版本:3.1.34.hive版本:3.1.2二、同步思路
tuoluzhe8521
·
2023-12-27 10:14
数据同步
mongodb
hive
数据库
json
hadoop
Es三节点+vip
集群搭建
部署方案
线上环境Es三节点
集群搭建
部署方案1.目标Es集群架构图!
大雪冬至
·
2023-12-27 10:12
elasticsearch
jenkins
大数据
mongodb生成自签名证书以及配置SSL以及mongo
集群搭建
(亲测有效)版本-5.0.6
@[TOC](mongodb生成自签名证书以及配置SSL(亲测有效)版本-5.0.6一直以来都是向大神学习,今天也做回大神分享,哈哈!!几个小时的努力不算白费。一、自签名证书生成1、生成根证书ca.pem1、生成CA私钥(ca.key)(不加密)opensslgenrsa-outca.key20482、生成CA证书签名请求(ca.csr)opensslreq-new-keyca.key-outca
HappyLearnerL
·
2023-12-27 08:38
mongodb
ssl
【运维路不弯】最简单的k8s
集群搭建
(基于ubuntu22.04 cloud-img)
配置详情节点k8sdockercontainerdmasterv1.26.024.0.61.6.22node1v1.26.024.0.61.6.22node2v1.26.024.0.61.6.22node3v1.26.024.0.61.6.22所有节点操作替换系统源cat/etc/apt/sources.list#默认注释了源码镜像以提高aptupdate速度,如有需要可自行取消注释debhttp
指剑
·
2023-12-27 07:43
K8S
运维
kubernetes
容器
ubuntu
Hadoop-Hbase
集群搭建
1.下载http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.7.0.tar.gz2.解压#解压到指定的文件夹tarxzvfhbase-1.2.0-cdh5.7.0.tar.gz-C/usr/loca/hadoop/app3.配置文件修改进入目录:/usr/local/hadoop/app/hbase-1.2.0-cdh5.7.0/conf
GuangHui
·
2023-12-27 07:17
[spark] 存储到
hdfs
时指定分区
在SparkSQL中指定多个分区字段进行数据存储:类似hive分区存储文章目录代码示例代码importorg.apache.spark.sql.SparkSessionvalspark=SparkSession.builder().appName("MultiPartitionedWriteExample").getOrCreate()//假设你有一个DataFrame叫做data,包含了需要存储
言之。
·
2023-12-27 06:33
spark
hdfs
大数据
[spark] DataFrame 的 checkpoint
具体来说,checkpoint方法执行以下操作:将DataFrame的物理计划执行,并将结果存储到指定的分布式文件系统(例如
HDFS
)上的检查点目录中。用新的DataFrame代替原始的Da
言之。
·
2023-12-27 06:29
spark
大数据
分布式
hive学习笔记
一、Hive基本概念1.1hive是什么hive是基于hadoop的一个数仓分析工具,hive可以将
hdfs
上存储的结构化的数据,映射成一张表,然后让用户写HQL(类SQL)来分析数据telupdown138383843813451567138383843953451567138383844012411657713838384413453157571383838434353551567567
不爱吃鱼的馋猫
·
2023-12-27 06:05
hive
大数据
hadoop
[使用Python操作Hadoop,Python-MapReduce
环境环境使用:hadoop3.1,Python3.6,ubuntu18.04Hadoop是使用Java开发的,推荐使用Java操作
HDFS
。有时候也需要我们使用Python操作
HDFS
。
叫我老村长
·
2023-12-27 05:35
Rancher小白学习之路
load-balancer/_indexhttp://docs.rancher.cn/docs/rancher1/rancher-service/load-balancer/_indexRancher2.5
集群搭建
weixin_42124960
·
2023-12-27 01:07
rancher
学习
orc小文件合并趣谈
之前做到存储和计算的管理,后续做了简单
hdfs
画像(其中,就有小文件趋势监控)。最近,集群中namenode压力有所显现。于是,针对小文件多的目录进行了排查和治理。
艾伦_alan
·
2023-12-27 01:02
分布式系统面试连环炮
他们有共同的一个问题,就是都没怎么搞过分布式系统,现在互联网公司,一般都是做分布式的系统,大家都不是做底层的分布式系统、分布式存储系统hadoop
hdfs
、分布式计算系统hadoopmapreduce/
Java机械师
·
2023-12-26 23:13
YARN知识点总结
如果把大数据Hadoop集群当作一台计算机,那么
HDFS
=磁盘YARN=任务调度器+资源管理器所有任务都是运行在Yarn上Yarn分为两个大的模块:ResourceManagerNodeManagerResourceManager
飞有飞言
·
2023-12-26 23:16
Hadoop大数据实战系列文章之
HDFS
文件系统
Hadoop附带了一个名为
HDFS
(Hadoop分布式文件系统)的分布式文件系统,专门存储超大数据文件,为整个Hadoop生态圈提供了基础的存储服务。
测试帮日记
·
2023-12-26 21:39
借助 KMS (Hadoop Key Management Server) 实现
HDFS
数据加密
对
HDFS
的读写性能会有一定的降低,但应该不会太严重(未测试),
HDFS
优先使用native的libcrypto.so完成加解密(默认算法AES-CTR,支持128位AES加密),新版本的
xudong1991
·
2023-12-26 18:55
【Spark-
HDFS
小文件合并】使用 Spark 实现
HDFS
小文件合并
【Spark-
HDFS
小文件合并】使用Spark实现
HDFS
小文件合并1)导入依赖2)代码实现2.1.
HDFS
Utils2.2.MergeFilesApplication需求描述:1、使用Spark做小文件合并压缩处理
bmyyyyyy
·
2023-12-26 17:15
Spark
spark
hdfs
大数据
#HDFS小文件合并
datasophon组件安装时踩坑记录
*to'root'@'%'identifiedby'xxxx';1.安装
hdfs
后有一个namenode进程未启动解决:在那个未启动的节点上执行
hdfs
namenode-bootstrapStandby
州周
·
2023-12-26 17:56
hadoop
hdfs
大数据
上一页
16
17
18
19
20
21
22
23
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他