张小鱼༒

分布式集群——搭建Hadoop环境以及相关的Hadoop介绍

系列文章目录

分布式集群——jdk配置与zookeeper环境搭建

分布式集群——搭建Hadoop环境以及相关的Hadoop介绍

文章目录

前言

一 hadoop的相关概念

1.1 Hadoop概念

补充：块的存储

1.2 HDFS是什么

1.3 三种节点的功能

I、NameNode节点

II、fsimage与edits文件存放的内容介绍

III、DataNode节点

IV、SecondaryNameNode节点【辅助管理员信息】

1.4 HDFS的读写流程

1、读操作

2、写操作

1.5 HDFS元数据管理机制

1、如何持久化存储数据？

fsimage(镜像文件)

edits log(编辑日志)

2、SeconderyNameNode辅助管理元数据的流程

第一阶段：启动NameNode

第二阶段：SecondaryNameNode开始工作

3. 小细节

二 HDFS的五大机制

1、切片机制

2、汇报机制

3、心跳检测机制

4、负载均衡

5、副本机制

三 Hadoop安装

3.1 集群规划列表

3.2 上传压缩包

3.3 配置相关的文件

（1）修改core-site.xml配置文件

（2）修改hdfs-site.xml

（3）配置hadoop-env.sh

（4）配置mapred-site.xml

（5）配置yarn-site.xml文件

（6）修改mapred-env.sh

（7）修改slaves（配置我们的从机）

（8）前面配置好后，我们需要自己创建目录

（9）分发安装内容

（10）三台机器配置hadoop环境变量

（11）启动集群

前言

本文主要介绍hadoop的相关概念以及在Linux上面配置Hadoop的具体操作。

一 hadoop的相关概念

1.1 Hadoop概念

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，HDFS、MR、Yarn三个重要的组件组成。HDFS是GFS的实现（论文必须会），Hadoop的MR是MR的实现（论文稍微了解一下）。

分片是客户端做的，专门的机器来接受请求，真正存节点的是客户端和datanode。

客户端建立通道上传，一次64k上传。存在缓存区。

切片是客户端负责切片，物理上分块，2.0以上为128M以上

目录信息在专门的机器上面，有两处存放位置【硬盘+内存】

读写文件时客户端与机器之间操作

文件需要嵌套缓冲流，

补充：块的存储

通过机架感知原理 + 网络拓扑结构实现副本摆放

第1个副本：优先本机存放，否则就近随机
第2个副本：放在与第1个副本就近不同机架上的某一个服务器
第3个副本：与第2个副本相同机架的不同服务器。
如果还有更多的副本：随机放在各机架的服务器中。

1.2 HDFS是什么

分布式文件系统,适合一次写入，多次查询的情况。不支持并发写，不适用于小文件存储【小文件内容1M,但是存放的时候依旧为128M】。低时延的数据访问。

重要的三个节点

NameNode节点
DataNode节点
SecondaryNameNode节点【辅助源操作信息】

1.3 三种节点的功能

I、NameNode节点

NameNode节点：

NameNode负责存储数据文件的元数据
NameNode负责管理文件系统目录结构。接受客户端的文件操作请求。

NameNode维护两套数据：

一套是文件目录与数据块之间的对应关系【静态】
一套是数据块与存储节点之间的对应关系【动态】

前一套数据是静态的，存放在磁盘上，通过fsimage和edits【编辑日志文件】文件来维护；

后一套是动态的，在集群重启时会在内存自动建立这些信息。

其中fsimage存储的是某一时段NameNode内存元数据信息（配置时通过hdfs-default.xml中的dfs.name.dir选项设置）；【整个文件系统的目录结构以及文件相关信息】
edits记录操作日志文件（配置时通过hdfs-default.xml的dfs.name.edits.dir选项设置）；fstime保存最近一次checkpoint的时间。

II、fsimage与edits文件存放的内容介绍

fsimage：镜像文件实际是存放的目录结构、文件属性等相关信息，是NameNode中关于元数据的镜像。它是在NameNode启动时对整个文件系统的快照。
edits：编辑日志文件,记录对文件或者目录的修改信息，比如删除目录，修改文件等信息。编辑日志一般命名规则是“edits_*”，它在NameNode启动后，记录对文件系统的改动序列。

edits文件存放的是hadoop文件系统的所有更新操作的路径，文件系统客户端执行的所有写操作首先会被记录到edits文件中。

fsimage和edits文件都是经过序列化的，在NameNode启动的时候，它会将fsimage文件中的所有内容加载到内存中，之后再执行edits文件中的各项操作。使得内存中的元数据和实际的数据同步，存在内存中的元数据支持客户端的读操作。

III、DataNode节点

DataNode负责按Block存储数据文件。每一个数据文件都会按照Block大小进行划分。每个Block都会进行多副本备份（一般为三份），通常多个副本会按照一定的策略(机架感知策略)放在不同的DataNode节点上。

IV、SecondaryNameNode节点【辅助管理员信息】

SecondaryNameNode作为NameNode的冷备份。负责合并NameNode上的fsimage和edits文件。集群启动会交给namenode存到内存里面。

SecondaryNameNode的本质作用是辅助NameNode进行fsimage和editlogs的合并操作。

首先，它定时到NameNode去获取edit logs，并更新到fsimage上。[注：Secondary NameNode自己的fsimage]
一旦它有了新的fsimage文件，它将其拷贝回NameNode中。
NameNode在下次重启时会使用这个新的fsimage文件，从而减少重启的时间。

Secondary NameNode的整个目的是在HDFS中提供一个检查点。它只是NameNode的一个助手节点。这也是它在社区内被认为是检查点节点的原因。

1.4 HDFS的读写流程

1、读操作

① 客户端向NameNode请求读取文件

② NameNode检查该文件是否存在以及该客户端是否具有读权限，有一个不满足则返回报错信息两者都有则根据“机架感知原理”和“网络拓补图”，返回存储该文件的块地址（存储该文件的DataNode列表）

③ 客户端拿到返回的块地址后，并行的读取DataNode列表中对应的块信息如果之前读取的是部分块的信息，则在这些块数据读取完毕后会重新请求NameNode 获取剩下的块地址重新读取，直至所有数据块的信息读取完毕

⑤ 最后拼接块信息得到最终的文件

至此，读取文件操作完成

2、写操作

① 客户端向NameNode请求上传文件

② NameNode检查是否已存在要上传的文件，如果已有则拒绝请求如文件不存在则继续检查该客户端在待上传的目录下是否有写权限，如果无权限则返回报错信息，有权限则给客户端返回可以上传的信息

③ 客户端接收可以上传的信息后，对文件进行切块

④ 客户端重新请求NameNode，询问第一个数据块的上传位置

⑤ NameNode接收到客户端的请求后，根据副本机制、负载均衡、机架感知原理和网络拓补图，找到存储第一个数据块的DataNode列表（例如node1、node2、node3）后告知客户端

⑥ 客户端根据接收到的DataNode列表，连接就近的节点（例如node1）

⑦ 第一个节点收到请求后会与DataNode列表中的其他节点进行连接，形成“传输管道”，然后客户端通过数据报包（对数据块再进行切分）的方法开始给节点传输第一个数据块

⑧ 节点接收到数据块后，需要告知客户端块信息已上传成功所以node3接收到信息后会反馈给node2已接收，node2再反馈给node1已接收，最后node1告知客户端已上传成功这一步也称为【构建反向应答机制】

⑨ 第一个数据块上传完成后，客户端继续请求NameNode询问第二个数据块的上传位置，重复第四到第八步的操作，直至所有的数据块上传成功

至此，写文件操作完成

1.5 HDFS元数据管理机制

HDFS元数据按类型划分为两部分

持久化存储：

文件、目录自身的属性信息，例如文件名，目录名，修改信息
文件存储的相关信息，例如存储块信息，分块情况，副本个数

非持久化存储： DataNode节点中的数据块信息

1、如何持久化存储数据？

答：通过fsimage和edits log

fsimage(镜像文件)

保存Hadoop文件系统中的所有目录和元数据信息，但不保存文件块位置的信息文件块位置信息只存储在内存中，是Namenode在DataNode加入集群时询问得到，并且间断的更新

edits log(编辑日志)

保存客户端对Hadoop集群的事务性操作记录（增、删、改）

2、SeconderyNameNode辅助管理元数据的流程

图解

原理

第一阶段：启动NameNode

① 如果是首次启动namenode格式化，则新建fsimage（镜像文件）和edits log（编辑日志）如果是非首次启动，则直接加载fsimage和edits log到内存中
② 客户端对元数据的增删改操作会实时的写入到edits log

第二阶段：SecondaryNameNode开始工作

③ SecondaryNameNode会实时检查edits log的状态，只要满足一定阈值时（1小时或修改达到100W次）后就通知NameNode重新生成一个新的edits log文件，后续将操作记录写入新文件中
④ SecondaryNameNode通过HTTP协议拉取NameNode中的fsimage和edits log到本地
⑤ 对拉取过来的edits log和fsimage加载到内存中进行合并操作（这个过程也成为Checkpoint），形成新的fsimage文件
⑥ 把新的fsimage推送给NameNode，替换旧fsimage

3. 小细节

① 产生的edits log和fsiamge不会被立即删除，而是在集群重启或者这些文件达到一定量级后才会删除
② 对edits log和fsimage的合并操作实在SecondaryNameNode实现的，整个过程NameNode不参与
③ 实际开发中，NameNode和SecondaryNameNode一般部署在不同的服务器上，两者的配置几乎一样，只是SecondaryNameNode内存要稍微大点
④ 紧急情况下，SecondaryNameNode可以用来恢复NameNode的元数据

二 HDFS的五大机制

1、切片机制

HDFS中的文件在物理上是分块（block）存储的，块的大小可以通过配置参数来规定，在hadoop2.x版本中默认大小是128M

2、汇报机制

① HDFS集群重新启动的时候，所有的DataNode都要向NameNode汇报自己的块信息 ② 当集群在正常工作的时，间隔一定时间（6小时）后DataNode也要向NameNode汇报一次自己的块信息

3、心跳检测机制

NameNode与DataNode依靠心跳检测机制进行通信

① DataNode每3秒给NameNode发送自己的心跳信息 ② 如果NameNode没有收到心跳信息，则认为DataNode进入“假死”状态。DataNode在此阶段还会再尝试发送10次（30s）心跳信息 ③ 如果NameNode超过最大间隙时间（10分钟）还未接收到DataNode的信息，则认为该DataNode进入“宕机”状态 ④ 当检测到某个DataNode宕机后，NameNode会将该DataNode存储的所有数据重新找台活跃的新机器做备份

4、负载均衡

让集群中所有的节点（服务器）的利用率和副本数尽量都保持一致或在同一个水平线上

5、副本机制

① 副本的默认数量为3 ② 当某个块的副本小于3份时，NameNode会新增副本 ③ 当某个块的副本大于3份时，NameNode会删除副本 ④ 当某个块的副本数小于3份且无法新增的时候，此时集群会强制进入安全模式（只能读，不能写）

三 Hadoop安装

3.1 集群规划列表

检查我们的hadoop包对本地库的支持：切换到hadoop安装目录下，执行bin/hadoopchecknative回车即可。

3.2 上传压缩包

上传我们编译好的apache hadoop包并解压缩（下图红色标记的）

解压hadoop的压缩包

修改配置文件 /etc/profile ，后使用source命令使其生效。

3.3 配置相关的文件

（1）修改core-site.xml配置文件

  vim /opt/hadoop的安装路径/etc/hadoop/core-site.xml

定义hadoop集群系统的文件类型是一个分布式文件系统

 定义hadoop集群系统的文件类型是一个分布式文件系统
 
 定义hadoop集群中文件的类型，说明我们用的是分布式文件系统，该文件系统的主节点的node01节点上，分布式文件系统的服务端口号为8020。
     fs.default.name
     hdfs://node01:8020
 
 
     hadoop.tmp.dir
     /opt/software/hadoop-2.7.5/hadoopDatas/tempDatas
 
 定义文件缓冲区大小，实际工作中根据服务器性能动态调整
 
     io.file.buffer.size
     4096
 
 开启hdfs垃圾桶机制，删除掉的数据可以从垃圾桶中回收，单位：分钟
 删除掉的文件会先放在垃圾桶里面，而不是立刻从机器上删除掉。10080是七天，也就是说7天之后，会清理垃圾桶中超过7天的数据。一天是1440.
 
     fs.trash.interval
     10080

（2）修改hdfs-site.xml

 设定辅助管理节点的主机和端口号
 
     dfs.namenode.secondary.http-address
     node01:50090
 
 设定NameNode（HDFS）主节点的访问地址（即：主机和端口号）——会非常常用可以通过网页查看分布式文件系统中的数据。
 
     dfs.namenode.http-address
     node01:50070
 
 指定namdenode存储元数据的位置，这个文件是不存在的，我们需要创建它。
 
     dfs.namenode.name.dir
     file:///export/opt/software/hadoop-2.7.5/hadoopDatas/namenodeDatas,file:///export/opt/software/hadoop-
 2.7.5/hadoopDatas/namenodeDatas2
 
 定义datanode数据存储的节点位置，实际工作中，一般先确定磁盘的挂载目录，然后多个目录用，进行分割。
 
     dfs.datanode.name.dir
     file:///export/opt/software/hadoop-2.7.5/hadoopDatas/datanodeDatas,file:///export/opt/software/hadoop-
 2.7.5/hadoopDatas/datanodeDatas2
 
 定义namenode编辑日志文件的存放目录
 
     dfs.namenode.edits.dir
     file:///export/opt/software/hadoop-2.7.5/hadoopDatas/nn/edits
 
 定义检查点的存放位置（定期从活动的NameNode下载fsimage和editlog，在本地合并它
 们，并将新映像上传回活动的NameNode）
 
     dfs.namenode.checkpoint.dir
     file:///export/opt/software/hadoop-2.7.5/hadoopDatas/dfs/snn/name
 
 
     dfs.namenode.checkpoint.edits.dir
     file:///export/opt/software/hadoop-2.7.5/hadoopDatas/dfs/snn/edits
 
 指定一个文件切片存储的副本个数
 
     dfs.replication
     3
 
 设置HDFS文件权限，暂时关闭，后期需要，可以再开启
 
     dfs.permissions
     false
 
 指定一个文件切片的大小，这里面指定的大小为128M
 
     dfs.blocksize
     134217728

（3）配置hadoop-env.sh

 export JAVA_HOME=/opt/software/jdk1.8.0_281

（4）配置mapred-site.xml

开启mapreduce的小任务模式，该模式是 2.x 开始引入的；以Uber模式运行 MR 作业，所
有的 Map Tasks 和 Reduce Tasks 将会在 ApplicationMaster 所在的容器（container）中运行。如果数据量不是非常大，我们就可以开启小任务模式，这样可以提高2-3倍的效率。


     mapreduce.job.ubertask.enable
     true
 
 历史任务服务器的主机地址，通过该地址可以访问到我们曾经计算过的任务、结果及信
 息。
 
     mapreduce.jobhistory.address
     node01:10020
 
 设置通过网页访问历史任务的主机和端口
 
     mapreduce.jobhistory.webapp.address
     node01:19888

（5）配置yarn-site.xml文件

 配置yarn主节点的位置
 
     yarn.resourcemanager.hostname
     node01
 
 NodeManager上运行的附属服务，只有我们配置为下方的值，才可以运行MR程序，默
 认值是””。
 
     yarn.nodemanager.aux-services
     mapreduce_shuffle
 
 开启日志聚合功能，将各种日志汇总在一起，进行显示。
 
     yarn.log-aggregation-enable
     true
 
 设置聚合日志保存的时间（单位：秒）
 
     yarn.log-aggregation.retain-seconds
     604800
 
 设置yarn集群的内存分配方案
 表示在节点上Yarn可使用的物理内存（M）
 
     yarn.nodemanager.resource.memory-mb
     20480
 
 单个容器可申请的最小与最大内存
 
     yarn.scheduler.minimum-allocation-mb
     2048
 
 在物理内存不够用的情况下，如果占用了大量虚拟内存并且超过了一定阈值，那么就认
 为当前集群的性能比较差，直接让你的终端报个错提醒你。
 
     yarn.nodemanager.vmem-pmem-ratio
     2.1

（6）修改mapred-env.sh

 export JAVA_HOME=/opt/software/jdk1.8.0_281

（7）修改slaves（配置我们的从机）

node01
node02
node03

（8）前面配置好后，我们需要自己创建目录

目录结构如下：

 [root@node01 hadoop-2.7.5]# mkdir hadoopDatas
 [root@node01 hadoop-2.7.5]# cd hadoopDatas/
 [root@node01 hadoopDatas]# ls
 [root@node01 hadoopDatas]# mkdir datanodeDatas
 [root@node01 hadoopDatas]# mkdir datanodeDatas2
 [root@node01 hadoopDatas]# mkdir namenodeDatas2
 [root@node01 hadoopDatas]# mkdir namenodeDatas
 [root@node01 hadoopDatas]# mkdir -p dfs/snn
 [root@node01 hadoopDatas]# cd dfs/snn/
 [root@node01 snn]# mkdir edits
 [root@node01 snn]# mkdir name
 [root@node01 snn]# cd ..
 [root@node01 dfs]# cd ..
 [root@node01 hadoopDatas]# mkdir -p nn/edits
 [root@node01 hadoopDatas]# mkdir tempDatas
 [root@node01 hadoopDatas]# tree
 .
 ├── datanodeDatas
 ├── datanodeDatas2
 ├── dfs
 │?? └── snn
 │??     ├── edits
 │??     └── name
 ├── namenodeDatas
 ├── namenodeDatas2
 ├── nn
 │?? └── edits
 └── tempDatas
 11 directories, 0 files

PS：注意此处的文件夹在你的Hadoop安装路径下面

（9）分发安装内容

做一个文件的分发，将整个hadoop安装目录分发给node02和node03节点上去。进入opt目录后，执行分发命令：

 scp -r hadoop-2.7.5 node02:/opt/software

此处选择需要Copy到node02节点的那个目录当中。

 scp -r hadoop-2.7.5 node03:/opt/software

（10）三台机器配置hadoop环境变量

 export JAVA_HOME=/opt/software/jdk1.8.0_281
 export ZOOKEEPER_HOME=/opt/software/zookeeper
 export HADOOP_HOME=/opt/software/hadoop-2.7.5
 export PATH=:$JAVA_HOME/bin:$PATH:$ZOOKEEPER_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

别忘记用source /etc/profile使环境变量生效。

（11）启动集群

概述：主要是启动两个模块，hdfs和yarn。一定要注意：首次启动HDFS的时候，一定要对其进行格式化操作。本质上是一些清理和准备工作（会准备一些集群必备的文件等），因为此时的HDFS在物理上还是不存在的。第一台机器执行如下操作：进入到hadoop的安装目录中

 cd /opt/software/hadoop-2.7.5

进行格式化

 bin/hdfs namenode -format
 sbin/start-dfs.sh

停止命令只要把start换成stop即可从节点，用jps看一下，启动成功，有一个DataNode。

 sbin/start-yarn.sh
 sbin/mr-jobhistory-daemon.sh start historyserver

三个端口查看界面

 http://node01:50070/explorer.html# 查看hdfs
 http://node01:8088/cluster 查看yarn集群
 http://node01:19888/jobhistory 查看历史完成的任务

windows访问不到node01，所以需要配置hosts 可以换成

 http://192.168.1.131:50070/explorer.html#/
 http://192.168.1.131:8088/cluster
 http://192.168.1.131:19888/jobhistory

备注：配置文件太多，所以，我们要远程修改Linux的文件，太麻烦了，所以，我们采用npp进行远程登录。

总结

以上就是今天的内容~

欢迎大家点赞，收藏⭐，转发，
如有问题、建议，请您在评论区留言哦。

最后：转载请注明出处！！！

你可能感兴趣的:(分布式,hadoop,大数据,centos,Linux,zookeeper,分布式集群)

python 推荐算法库_[译] 详解个性化推荐五大最常用算法 weixin_39612733 python 推荐算法库
允中若朴编译自Stats&Bots量子位出品|公众号QbitAI推荐系统，是当今互联网背后的无名英雄。我们在某宝首页看见的商品，某条上读到的新闻，甚至在各种地方看见的广告，都有赖于它。昨天，一个名为Stats&Bots的博客详解了构建推荐系统的五种方法。量子位编译如下：现在，许多公司都在用大数据来向用户进行相关推荐，驱动收入增长。推荐算法有很多种，数据科学家需要根据业务的限制和要求选择最好的算法。
Open WebUI：开源AI交互平台的全面解析
目录核心功能安装指南Linux/macOSWindows进阶特性管理与安全生态系统集成持续更新核心功能️交互体验类ChatGPT界面:提供直观的聊天界面设计跨平台响应式设计:完美适配桌面/移动端即时响应:毫秒级响应速度富文本支持:代码语法高亮完整Markdown/LaTeX渲染语音输入支持（支持静音自动提交）模型管理多模型切换:支持不同LLM模型即时切换GGUF模型创建:支持直接上传/从Huggi
端到端自动驾驶的分布式传感器融合架构 AI智能涌现深度研究计算机软件编程原理与应用实践 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
自动驾驶,分布式传感器融合,深度学习,计算机视觉,雷达,lidar,惯性导航,Kalman滤波,决策控制1.背景介绍自动驾驶技术作为未来交通运输的重要发展方向，近年来取得了显著进展。然而，实现真正安全的自动驾驶仍然面临着诸多挑战，其中之一就是如何有效地融合来自不同传感器的数据，构建一个可靠的感知、决策和控制系统。传统的自动驾驶系统通常依赖于单一传感器，例如摄像头或雷达，这会导致感知信息的缺失和鲁棒
配置yum阿里源 warton88 Linux linux centos 服务器
1、首先备份原有的CentOS_Base.repomv /etc/yum.repos.d/CentOS-Base.repo/etc/yum.repos.d/CentOS-Base.repo.bak2、下载阿里云的镜像wgethttp://mirrors.aliyun.com/repo/Centos-7.repo3、清除缓存yumcleanall4、生成缓存yummakecache5、升级更新yum
centos 安装Nodejs v20.11.1 warton88 Nodejs node.js centos 服务器
centos方法curl直接安装[root]curl-fsSLhttps://github.com/Schniz/fnm/raw/master/.ci/install.sh|bashCheckingdependenciesfortheinstallationscript...Checkingavailabilityofcurl...OK!Checkingavailabilityofunzip...
liunx基本操作峰过林 liunx 服务器 linux 运维
Linux关机,重启#关机shutdown-hnow#重启shutdown-rnow查看系统,CPU信息查看系统内核版本cat/proc/version查看系统内核信息uname-a查看当前用户环境变量envcat/proc/cpuinfo查看有几个逻辑cpu,包括cpu型号cat/proc/cpuinfo|grepname|cut-f2-d:|uniq-c查看有几颗cpu,每颗分别是几核cat/
linux环境docker安装minio(在线安装docker) 小徐敲java linux docker 运维
最好查看官网的操作方式，因为每一个版本的配置文件和存储文件路径都可能有修改，minio官网linux下使用docker安装miniodocker安装minio检测linux是否安装dockerdocker-v如果没安装就安装docker,在线安装dockeryuminstalldocker启动dockersystemctlstartdocker查看docker版本docker-v拉取minio镜像
计算机网络 - HTTP 协议和万维网 Loop Lee java 网络协议 tomcat servlet
基本概念万维网(WorldWideWeb,WWW)定义：一个大规模的分布式信息系统，由全球范围内无数个网络站点和网页组成特点：基于超文本技术，支持多媒体内容的展示和交互URL(UniformResourceLocator)定义：统一资源定位符，用于标识和定位互联网上的资源，不区分大小写基本格式：://[:]/协议：如http、https、ftp等主机：域名或IP地址端口号：（可选）默认HTTP为8
python编写liunx服务器登陆自动巡检脚本运维_攻城狮 liunx linux 服务器运维人工智能
前言：用户需要一份用Python编写的Linux系统巡检脚本，检查内存、磁盘、CPU使用率，还有网络连通性。首先，我得确定用户的使用场景。可能用户是系统管理员，需要定期监控服务器状态，确保系统正常运行。或者是开发人员，想自动化巡检流程，减少手动检查的工作量。接下来，用户提到的具体指标有内存、磁盘、CPU和网络。我需要考虑如何用Python获取这些信息。对于Linux系统，通常可以通过读取/proc
如何使用Spark Streaming将数据写入HBase Java资深爱好者 spark hbase 大数据
在SparkStreaming中将数据写入HBase涉及到几个步骤。以下是一个基本的指南，帮助你理解如何使用SparkStreaming将数据写入HBase。1.环境准备HBase：确保HBase集群已经安装并运行。Spark：确保Spark已经安装，并且Spark版本与HBase的Hadoop版本兼容。HBaseConnectorforSpark：你需要使用HBase的SparkConnecto
如何在CentOS使用Docker搭建MinIO容器并实现无公网ip远程访问本地服务秋说内网穿透 centos docker tcp/ip
文章目录前言1.Docker部署MinIO2.本地访问MinIO3.Linux安装Cpolar4.配置MinIO公网地址5.远程访问MinIO管理界面6.固定MinIO公网地址前言MinIO是一个开源的对象存储服务器，可以在各种环境中运行，例如本地、Docker容器、Kubernetes集群等。它兼容AmazonS3API，因此可以与现有的S3工具和库无缝集成。MinIO的设计目标是高性能、高可用
项目经验之LZO压缩？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
LZO（LightweightZip/Unzip）是一种高效的压缩算法，它以快速解压缩著称，适用于需要频繁读取和处理的数据。在Hadoop生态系统中，使用LZO压缩可以显著减少存储空间，并且由于其快速的解压速度，对于大规模数据处理任务来说是非常有利的。以下是关于LZO压缩的项目经验总结、思维导图描述以及Java代码示例。项目经验之LZO压缩LZO的优势快速解压：LZO算法设计时优先考虑了解压速度，
Vscode插件历史版本下载骜蛟排错与其他 vscode ide 编辑器
Vscode一、获取vscode版本获取当前版本vscode的commit_id：Help->About->Commit二、指定版本下载WinX64Systemhttps://update.code.visualstudio.com/版本号/win32-x64-user/stableLinuxX64https://update.code.visualstudio.com/版本号/linux-deb
如何使用rust开发gui Jay星晴 rust 开发语言后端
使用Rust开发GUI程序有很多方法。一种常用的方法是使用一个GUI库，比如GTK、Qt或者wxWidgets，它们都有Rust的绑定。为了使用这些库，首先你需要在你的Rust项目中添加对应的依赖。接下来你就可以像使用其它库一样使用GUI库了。在这些GUI库中，GTK和Qt在Linux上都很流行，而wxWidgets在Windows和MacOS上很流行。这意味着你可以使用这些库开发跨平台的GUI程
【09】属性注解 & 断言 & 自动化测试憨憨2号 RUST rust 开发语言
文章目录属性注解条件编译`#[cfg(target_os="linux")]`派生宏`#[derive(...)]`禁用标准库`#![no_std]`禁用警告：`#[allow(...)]`或`#![allow(...)]`标机测试`#[test]`内联优化`#[inline]`内存布局控制`#[repr(...)]`过程宏标记`#[proc_macro]`自定义属性宏断言检查panic调试断言宏
【MySQL】在 Centos7 环境安装 MySQL -- 详细完整教程 m0_74825526 面试学习路线阿里巴巴 mysql webview android
说明：安装与卸载中，用户全部切换成为root，一旦安装，普通用户就能使用。一、卸载内置环境1、卸载不要的环境[root@VM-8-5-centos~]$psajx|grepmariadb#先检查是否有mariadb存在13134148441484313134pts/014843S+10050:00grep--color=automariadb19010191871901019010?-1Sl271
SkyWalking Server配置文件五百年前FHYA 数据监测 skywalking
application.yml/config/application.yml1、cluster集群相关配置#集群配置cluster:#选择哪一种集群模式selector:${SW_CLUSTER:standalone}#单机版standalone:#zk注册集群配置，zk版本保证在3.5以上，oap-libs中也对3.4进行了支持zookeeper:nameSpace:${SW_NAMESPACE
瑞芯微RK安卓Android主板GPIO按键配置方法，触觉智能嵌入式开发 Industio_触觉智能嵌入式开发 RK3562 RK3568 RK3566 串口调试开发板外设
触觉智能分享，瑞芯微RK安卓Android主板GPIO按键配置方法，方便大家更好利用空闲IO！由触觉智能PurplePiOH鸿蒙开发板演示，搭载了瑞芯微RK3566四核处理器，树莓派卡片电脑设计，支持安卓Android、开源鸿蒙OpenHarmony、Linux多系统，适合嵌入式开发入门学习。设备树修改空闲IO选择由下图可得当前IO是主板上一个没有用到的IO，对应的GPIO为：GPIO4_A4。设
SkyWalking Dream答案 SpringCloud Alibaba学习之旅 skywalking 分布式链路追踪
一、APM系统APM（ApplicationPerformanceMonitoring）即应用程序性能监控系统，是对企业系统即时监控以实现对应用程序性能管理和故障管理的系统化的解决方案。应用性能管理，主要指对企业的关键业务应用进行监测、优化，提高企业应用的可靠性和质量，保证用户得到良好的服务，降低IT成本；二、分布式链路追踪分布式链路追踪通过跟踪和记录请求在分布式系统中的传播路径和性能数据，帮助开
数据库分类与数据库基本原则（ACID、CAP、BASE）气运2020 Redis 数据库数据库 nosql database
分布式系统中ACID和CAP有什么区别-知乎(zhihu.com)关系型数据库遵循ACID规则&&NoSQL数据库BASECAP-玲汐-博客园(cnblogs.com)分布式系统设计时，遵循CAP原则_alpha_2017的博客-CSDN博客1、数据库与数据库规则1.1数据库1）关系型数据库SQL：传统的SQL数据库的事务通常都是支持ACID的强事务机制关系型数据库：-高度组织化结构化数据-结构化
数据库必知必会系列：数据库分片与分布式事务 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
文章目录1.背景介绍分库分表分片集群分布式事务数据迁移2.核心概念与联系主从复制活动复制CAP原则BASE理论3.核心算法原理和具体操作步骤以及数学模型公式详细讲解分库分表水平分表垂直分库分片集群垂直拆分水平切分垂直切分水平拆分根据主键范围根据业务字段划分分布式事务两阶段提交协议三阶段提交协议可靠消息最终一致性ACID四要素4.具体代码实例和详细解释说明MyCat配置文件server.xml文件s
利用Python生成器和迭代器高效处理大数据文件清水白石008 计算机 Python题库 python python
利用Python生成器和迭代器高效处理大数据文件在Python中，处理大型数据文件时，内存管理是一个重要的考虑因素。传统的数据处理方法可能会一次性将整个文件加载到内存中，这在数据量较小时是可行的，但当数据量变得非常大时，这种方法就不再适用。幸运的是，Python提供了生成器和迭代器的概念，它们可以帮助我们在处理大型数据集时节省内存。本文将详细介绍如何使用这些工具来高效地处理大数据文件。什么是生成器
判断一个文件中以三个＃号开头有多少行的shell脚本怎么写 taoyong001 服务器运维
在Linux中，你可以使用grep命令结合正则表达式来统计一个文件中以三个＃号开头的行数。以下是一个简单的命令：grep-c'^###'filename这里的grep是搜索工具，-c选项表示统计匹配的行数，'###'是正则表达式，表示行的开头（）紧跟着三个＃号（###），filename是你要搜索的文件名。例如，如果你的文件名是example.txt，你可以运行：grep-c'^###'examp
玩转Java微服务：架构设计与实战进阶终极指南 Light60 低代码实战篇技能篇 Java微服务 Spring Cloud 分布式架构容器化部署服务治理
摘要本文深入解析Java微服务核心原理与落地实践，涵盖SpringCloudAlibaba生态体系实战技巧。通过全链路代码示例演示服务注册发现、分布式配置、熔断限流等关键模块实现，结合电商案例阐述DDD领域驱动设计在微服务拆分的应用。提供可落地的性能优化方案与云原生演进路线，助您构建高可用、易扩展的现代化分布式系统。关键词：Java微服务、SpringCloud、分布式架构、容器化部署、服务治理一
Linux系统中shell处理变量详解江湖有缘 linux 运维服务器
Linux系统中shell处理变量详解一、shell中变量介绍1.1变量简介1.2环境变量和本地变量1.3预定义变量二、本地变量的使用2.1本地变量介绍2.2定义本地变量2.3查看本地变量2.4取消环境变量2.5查询变量值2.6本地变量的使用三、环境变量3.1环境变量介绍3.2定义环境变量3.3查看环境变量3.4取消环境变量3.5查询设置的环境变量值3.6变量在shell脚本使用四、使用echo输
【Linux基操】‘cat /etc/passwd‘命令解读 chiak7 linux 运维服务器
在Linux中，'cat'（concatenate）命令主要用于连接文件并打印它们的内容。在Linux系统中，用户账户信息通常存储在'/etc/passwd'文件中。这个文件包含每个用户的一行记录，记录中包含了有关用户的各种信息，例如用户名、用户ID（UID）、组ID（GID）、用户描述、主目录和登录Shell等。'username':用户的登录名。'password':密码字段，通常是“x”或一
基于Linux环境下Jenkins自动化部署【springBoot+Maven+SVN】详细教程(一) xiaoming行走的力量项目管理项目自动化部署 jenkins maven svn spring boot
1.引言在实际项目管理工作中，项目经理除了具有基本的项目管理知识以外，应当熟练使用一些项目管理工具来提高项目管理效率。项目管理工具除了甘特图、PERT、WBS、日历、思维导图、时间线、状态表等基本应用性管理工具，也熟悉一些关于代码整合及发布的常用工具。在软件公司中是熟悉和熟练使用关于软件开发整合部署的一些常用工具(NAVCAT、SSH、FinalShell、JENKINS等)，不仅可以提高项目管理
Linux部署elasticsearch集群西望千秋雪 es es elasticsearch
操作系统CentOS7.61.安装jdk环境直接使用yum安装yuminstalljava-1.8.0-openjdk*配置环境变量vim/etc/profile#添加：JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.282.b08-1.el7_9.x86_64/CLASS_PATH=.:$JAVA_HOME/libPATH=$JAVA_HOME/b
Linux进程控制：深入探索与实践金外飞176 网络空间安全 linux ubuntu
Linux进程控制：深入探索与实践引言在现代操作系统中，进程是程序运行的基本单位，而进程控制则是操作系统管理资源、调度任务的核心机制。Linux作为全球广泛使用的开源操作系统，其进程控制机制不仅高效、灵活，还为开发者提供了丰富的工具和接口。本文将深入探讨Linux进程控制的各个方面，包括进程的创建、管理、调度以及终止，同时结合实际案例，帮助读者更好地理解和应用这些技术。一、进程的基本概念在Linu
Elasticsearch集群部署详解 Jeffrey_Zeng_ elasticsearch linux
文章目录Elasticsearch功能与特性：Elasticsearch单节点安装部署Elasticsearch集群安装部署附件1、安装Java（JDK）2、问题一2、问题二Elasticsearch功能与特性：（1）分布式搜索和分析引擎（2）全文检索，结构化检索，数据分析（3）对海量数据进行近实时的处理分布式：ES自动可以将海量数据分散到多台服务器上存储和检索海量数据的处理：分布式后，可采用大量
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1