夜间沐水人

Hadoop三大组件之HDFS

阅读本文之前，默认已经搭建好了Hadoop集群。

文章目录

前言
- 一、HDFS
- - 概述：
  - 优点：
  - 缺点：
  - HDFS组成：
  - - NameNode：
    - DataNode：
    - Client：
    - Secondary NameNode：
  - HDFS工作机制：
  - - NN于DN工作机制：
    - NN与2NN工作机制：
    - - 拓展，NameNode被格式化后，会生成以下几个文件：
  - HDFS文件块：
  - HDFS的shell操作：
  - HDFS数据完整性：
  - - HDFS的保持数据完整性的方法：
  - HDFS读写流程：
  - - HDFS中读写流程涉及的数据单位：
    - HDFS写数据流程：
    - HDFS读数据流程：
  - 常见报错：
总结

前言

提示：以下是本篇文章正文内容，下面案例可供参考

一、HDFS

概述：

HDFS是hadoop的一个分布式文件系统，用于存储文件，通过目录树目录树来定位文件。因为HDFS是分布式的，那么就需要多台服务器配合来完成文件的存储。

HDFS适用于一次写入，多次读出的场景。一个文件一旦经过创建，写入，关闭之后就不需要改变。比如一个文件已经写入部分数据，后续如果想要修改原来的数据，是不支持的，但是可以继续往这个文件后边追加数据。

优点：

高容错性，数据会自动保存多个副本，从而通过增加副本的形式，提高容错性。当某一个副本丢失时，会自动恢复。
适用于大数据，当数据量达到GB，TB甚至PB的时候，使用HDFS能能够很好的处理。
适用于大量文件，当文件数量达到百万规模甚至更高，HDFS也能处理。
可以构建在廉价机器上。

缺点：

不适用于低延迟的数据访问。比如毫秒级别的数据存储以及访问，是无法做到的。
无法高效的处理大量小文件的存储。因为文件太小，存储在NameNode上的块信息就越多，会导致NameNode的内存大量的被占用。并且小文件贝多，占用的块信息就比较多，那么查找块信息的时间可能都要比读取文件的时间都要多。
不支持多线程写文件，一个文件只能由一个线程来写，不允许有多个线程同时写。
只支持文件的追加，但是不支持文件的修改。

HDFS组成：

NameNode：

Master角色，就是一个管理者。监听DataNode的活动，NameNode每3秒会收到DataNode心跳检测，如果超过10分钟没有收到DataNode的心跳，那么会继续等待30秒，如果还是没有收到DataNode的心跳，那么此时才会判定该DataNode不可用。

管理HDFS的名称空间
管理副本策略，管理每一个文件块的副本数量，不同的文件块可以设定不同的副本数。
管理的文件块的存储信息，每一个文件块大小默认为128M。
处理客户端的读写请求，因为NameNode中存储了所有的文件块的信息。

DataNode：

Slave角色，NameNode下达读写命令，DataNode执行实际的操作。在DataNode启动后，会主动向NameNode注册，注册成功后，周期性（默认6小时）的上报自已所存放的所有的block块的信息，并且每3秒和NameNode进行心跳检测，同时带回NameNode给DataNode下达的命令。

储存实际是的数据。
执行实际的读写操作。

Client：

就是客户端。

文件切分，文件在上传的时候，根据NameNode的文件块的大小进行文件切分，文件块大小默认为128M，最常见的还有256M大小的文件块。
与NameNode进行交互，查找文件位置信息。
与DataNode进行交互，实际上读写文件。
提供API管理DataNode。

Secondary NameNode：

不属于NameNode的热备份，也就是说，当NameNode奔溃之后，不能立即取代NameNode，它只是分担NameNode的工作量，并且在紧急情况下，协助恢复NameNode。2NN会定期的对NN的数据进行合并处理。

HDFS工作机制：

NN于DN工作机制：

NN启动后，会将fsimage和edits加载到内存，生成一份完成的元数据信息。
后续client端的操作，NN会先记录日志，追加到Edits中，再更新内存。
DN启动后，会立即主动向NN进行注册，幷且附带自己节点上的block信息，以后会周期性的向NN汇报自己的block信息（默认6小时，dfs.blockreport.intervalMsec，汇报前，DN会自查自己的block信息，默认6小时，dfs.datanode.directoryscan.interval）。
DN会周期性的和NN保持心跳（默认3秒，dfs.heartbeat.interval），过程中会附带NN下发给DN的命令，NN如果超过10分钟没有收到DN的心跳，在等待30秒后，认定该DN不可用，并将该DN从集群中剔除。计算公式：

TimeOut = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval = 10分钟 + 30秒。

NN与2NN工作机制：

NN启动后，会将fsimage和edits加载到内存，生成一份完成的元数据信息。
后续client端的操作，NN会先记录日志，追加到Edits中，再更新内存。
2NN会周期性的访问NN（checkPoint）：（1）定时任务时间到（默认1小时，dfs.namenode.checkpoint.period）。（2）Edits中日志写满了（一百万条记录，dfs.namenode.checkpoint.txns，也是周期性的去检查文件是否达到一百万条记录，（默认60秒，dfs.namenode.checkpoint.check.period））。访问期间，NN会先滚动edits_inprogress_0000000000000000184日志文件生成edits_inprogress_0000000000000000185，并同时将edits_inprogress_0000000000000000184文件修改成edits_0000000000000000021-0000000000000000184文件，那么从此刻开始，后续的的客户端的操作将会别记录到edits_inprogress_0000000000000000185文件中。
同时，2NN将拷贝fsimage_0000000000000000183和edits_inprogress_0000000000000000184到自己的服务器上并加载到内存，生成fsimage.checkpoint，那么此时的fsimage.checkpoint就是当前时点最新的元数据信息。并将fsimage.checkpoint拷贝到NN，幷修改名称覆盖原来NN上的最新的fimage。此时的fimage镜像和edits_inprogress_0000000000000000185组合起来将会是下一个时点最新的元数据，也是下一次2NN将要进行合并的文件。

拓展，NameNode被格式化后，会生成以下几个文件：
- fimage文件：HDFS文件数据的一个永久性检查点，保存了HDFS文件系统的所有的目录信息以及文件inode的序列化信息。可使用hdfs oiv -p XML -i fsimage_0000000000000000183 -o /opt/fsimage_0000000000000000183.xml命令将fimage文件转化成xml文件查看（hdfs oiv -p 文件类型 -i 镜像文件 -o 转换后的文件路径）。
- edits文件：保存了对集群的中数据的操作记录，只能不断的追加操作。可使用hdfs oev -p XML -i edits_inprogress_0000000000000000273 -o /opt/edits_inprogress_0000000000000000273.xml命令将edits文件转化成xml文件查看（hdfs oev -p 文件类型 -i edits文件 -o 转换后的文件路径）。
- seen_txid文件：保存的是一个数字，这个数据就是当前最新的fimage编号。
- VERSION：保存了当前NameNode空间ID，集群ID等。NameNode就是通过jiqunID和DataNode进行交互的。

HDFS文件块：

HDFS在物理上是分块村存储数据，块的大小可以通过参数（dfs.blocksize）设置，Hadoop2.X/3.x中默认是128M，1.X默认是64M。

如果寻址时间为10ms，那么就是说从查找block1到目标block的时间为10ms。
寻址时间为传输时间的1%时为最佳状态，因此，传输时间=10ms/1%=1000ms=1s。

总结：文件块的大小设置应该取决与磁盘的读写速率。

HDFS的shell操作：

hadoop fs 或者hdfs dfs，用法都是一样的。

(1). -mkdir

创建一个测试文件夹：hadoop fs -mkdir /xiyouji

(2). -moveFromLocal

将本地文件sunwukong.txt剪贴上传到hdfs：hadoop fs -moveFromLocal ./sunwukong.txt /xiyouji

(3). -copyFromLocal

将本地文件sunwukong.txt复制上传到hdfs：hadoop fs -copyFromLocal ./shaseng.txt /xiyouji

(4). -put （和-copyFromLocal效果是一样的）

将本地文件zhubajie.txt复制上传到hdfs：hadoop fs -put ./zhubajie.txt /xiyouji

(5). -appendToFile

追加一个文件到已经存在的文件末尾，将jingunbang.txt追加到sunwukong.txt后边：hadoop fs -appendToFile ./jingunbang.txt /xiyouji/sunwukong.txt

(6). -copyToLocal

从HDFS上拷贝文件到本地，可以更改文件名字。：hadoop fs -copyToLocal /xiyouji/sunwukong.txt ./sunwukong1.txt

(7). -get(用法和-copyToLocal一样)

从HDFS上拷贝文件到本地，可以更改文件名字。：hadoop fs -get /xiyouji/sunwukong.txt ./sunwukong2.txt

(8). -ls | -cat | -chmod | -chown | -mkdir | -cp | -mv | -tail | -rm | -rm -r(递归删除目录里面的所有文件)

这些命令和linux命令功能用法是一样的。

(9). -du

统计文件夹的总的大小信息： hadoop fs -du -s -h /xiyouji

统计文件夹中的每个文件的大小信息： hadoop fs -du -h /xiyouji

(10). -setrep

设置文件的副本数量：hadoop fs -setrep 5 /xiyouji/sunwukong.txt

这里虽然设置里sunwukong.txt的副本数量为5，但是因为只有三台机器，那么实际上sunwukong.txt的副本数量还是3，直到机器数量达到5台的时候，sunwukong.txt的副本数量才能真正的变成5。

HDFS数据完整性：

奇偶位校验：数据传输时，后边增加一个校验位，存放2进制数据中的1的个数标志，如果为偶数，则为0，否则为1。

crc校验位：和奇偶位校验原理相同，但是要比奇偶位校验更加准确，具备更高的差错检测能力，是一种普遍的数据校验方式。

HDFS的保持数据完整性的方法：

DN读取block的时候，计算数据的CheckSum。
如果计算出的CheckSum和存储数据的时候创建的CheckSum不一致，则数据无效。此时从其他的DN上读取block数据。
常见的数据校验方式：crc(32位)，md5(128位)。
DN会周期性的检验block数据块的CheckSum。

HDFS读写流程：

HDFS中读写流程涉及的数据单位：

block：客户端上传文件时的最大的数据单位，默认为128M，可以通过参数修改，和磁盘的读写速率有关。block太大，会导致Map任务数少，导致任务执行速度慢，block太小，存放的位置就多，会增加寻址时间。
packet：数据传输的第二个单位，实际上客户端的数据大小达到一个packet的时候才会发送数据包到DN，默认64KB。每一个packet由多个chunk填充。
chunk：数据传输的最小的单位，作用是对数据进行校验，默认512Byte，附带4个字节的校验位，实际上写入packet的时候就是516Byte。pakcet和chunk占比位约为128:1（64 * 1024 / 512）。

HDFS写数据流程：

1、客户端通过Distributed FileSystem向NN发送上传文件请求，例如上传"/红楼梦/林黛玉.txt"。

2、NN接受到请求1后，检查文件是否可以上传并返回检查结果给客户端：

检查是否有权限上传文件。
检查文件目录树是否存在。

3、客户端得到NN可以上传该文件的响应后，继续向NN发送请求上传该文件的第一个block块的请求，并要求NN返回可使用的DN有序列表。

4、NN接受到请求3后，根据副本策略（副本数默认为3），计算出可以使用的DN1，DN2，DN3，并将可使用的DN有序列表返回给客户端。

副本策略：假设有两个机架，总共六台机器，每个机架上三台机器，r1(r1dn1，r1dn2，r1dn3)，r2(r2dn1，r2dn2，r2dn3).
- 假如上传文件的请求就是在r1dn1发起的，那么第一个副本就保存在r1dn1。即第一个副本保存在客户端所在机架并且所在节点上（客户端直接在自己所在的节点上写数据，是最节省资源的）。
- 第二个副本保存在与第一个副本不同的机架的节点上（r1dn1向r2dn1中写数据是为了保证可靠性，如果r1挂了，那么r2dn1中还有一个副本）。
- 第三个副本保存在第二个副本所在机架的不同的节点上（r2dn1向r2dn2中的节点写数据是为了节约资源，r2dn1向r2dn2中写数据不需要出跨机架）。
- 更多节点、更多机架的情况下，节点随机选择。

5、客户端得到NN返回的可使用的DN有序列表后，创建DFSOutputStream，开始和可使用的DN有序列表中的第一个DN1建立Pipline，这里也会考虑负载均衡，然后再由DN1和DN2建立Pipline，再由DN2和DN3建立Pipline。

6、客户端与DN1建立Pipline后，开始向DN1发送packet，DN1接受到packet后，先写EditsLog，然后更新内存，再将packet通过Pipline发送到DN2，那么此时客户端就可以继续发送第二个packet到DN1，DN2接受到packet后，DN2做同样的操作，再发送到DN3，那么此时DN1就可以继续发送第二个packet到DN2。

7、当DN3，DN2，DN1处理完后，会逐级向上应答处理结果，最后由DN1向客户端反馈，之后客户端向NN反馈。

注意：其中，当客户端发送packet的时候，会将packet放在一个dataqueue中，由DataStreamer不断的拉取，并发送给DN1，并且同时会将该packet对象移动到ackququeue中等待所有的节点的应答结果，只要有一个节点应答成功，那么就将该packet从ackqueue中移除。如果其中有一个节点应答失败，那么会将ackququeue中的packet移动到dataqueue中，并提出故障节点，重新建立Pipline进行传输。传输第二个block的时候，重复上述所有的步骤。

HDFS读数据流程：

1、客户端通过Distributed FileSystem向NN发送下载文件请求，例如下载"/红楼梦/林黛玉.txt"。

2、 NN接受到请求1后，检查文件是否可以上传，并且通过查询元数据信息，找到该文件的元数据，包括所有的block块的信息所在的DN位置信息，并排序后返回。

检查是否有权限下载文件。
检查文件目录树是否存在。

3、客户端开始向DN（就近原则选择一个DN）发起下载文件的请求，DN从本地文件系统读取文件信息后，以packet为单位返回给客户端。

注意：因为NN返回的是元数据，那么客户端也可以做到读取指定位置的文件信息，也就说，客户端A可以读取block1的信息，客户端B可以读取block2的信息，最后将读取的所有的信息进行汇总，那么也能得到整个文件的信息，这里体现了一个分治的思想，也是支持分布式计算的核心。

常见报错：

1.hadoop集群启动后，jps发现所有的nodemanager都没有显示，查看nodemanager日志，发现如下报错，原因是yarn.nodemanager.aux-services的值在高版本的Hadoop中只能包含a-zA-Z0-9_,不能以数字开头,改为mapreduce_shuffle

2021-12-12 01:36:37,592 INFO org.apache.hadoop.service.AbstractService: Service NodeManager failed in state INITED
java.lang.IllegalArgumentException: The ServiceName: mapreduce.shuffle set in yarn.nodemanager.aux-services is invalid.The valid service name should only contain a-zA-Z0-9_ and can not start with numbers
at com.google.common.base.Preconditions.checkArgument(Preconditions.java:141)
at org.apache.hadoop.yarn.server.nodemanager.containermanager.AuxServices.serviceInit(AuxServices.java:146)
at org.apache.hadoop.service.AbstractService.init(AbstractService.java:164)
at org.apache.hadoop.service.CompositeService.serviceInit(CompositeService.java:108)
at org.apache.hadoop.yarn.server.nodemanager.containermanager.ContainerManagerImpl.serviceInit(ContainerManagerImpl.java:323)
at org.apache.hadoop.service.AbstractService.init(AbstractService.java:164)
at org.apache.hadoop.service.CompositeService.serviceInit(CompositeService.java:108)
at org.apache.hadoop.yarn.server.nodemanager.NodeManager.serviceInit(NodeManager.java:519)
at org.apache.hadoop.service.AbstractService.init(AbstractService.java:164)
at org.apache.hadoop.yarn.server.nodemanager.NodeManager.initAndStartNodeManager(NodeManager.java:977)
at org.apache.hadoop.yarn.server.nodemanager.NodeManager.main(NodeManager.java:1057)

2.执行官方提供的wordcount时，出现以下错误提示，原因etc/hadoop/mapred-site.xml文件中需要配置hadopp的根目录。报错信息中出现三个属性增加到etc/hadoop/mapred-site.xml中即可。

[2021-12-12 01:53:05.088]Container exited with a non-zero exit code 1. Error file: prelaunch.err.
Last 4096 bytes of prelaunch.err :
Last 4096 bytes of stderr :
Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

Please check whether your etc/hadoop/mapred-site.xml contains the below configuration:

yarn.app.mapreduce.am.env
HADOOP_MAPRED_HOME= $HADOOP_MAPRED_HOME=$ {full path of your hadoop distribution directory}

mapreduce.reduce.env
HADOOP_MAPRED_HOME=${full path of your hadoop distribution directory}

3.namende和datanode同时只能启动一个

原因是namenode挂机之后，直接格式化format后启动了namenode。因为namenode第一format之后会生成集群ID，再次格式化会生成新的集群ID，导致datanode中的集群ID和新启动的namenode中集群ID不一致。

解决方法：在所有的节点上删除datanode中所有的信息（默认在temp目录下，如果自行配置了，那么就在对应的目录下全部删除），然后在format namenode。

总结

本文着重讲解了HDFS的一些简单操作以及浅显的说明了下HDFS在存储数据时的一些工作原理。

【Linux】Hadoop-3.4.1的伪分布式集群的初步配置孤独打铁匠Julian Linux linux hadoop ubuntu
配置步骤一、检查环境JDK#目前还是JDK8最适合Hadoopjava-versionecho$JAVA_HOMEHadoophadoopversionecho$HADOOP_HOME二、配置SSH免密登录Hadoop需要通过SSH管理节点（即使在伪分布式模式下）sudoaptinstallopenssh-server#安装SSH服务（如未安装）cd~/.ssh/ssh-keygen-trsa#生
VSCode python 遇到的问题：vscode can't open file '': [Errno 2] No such file or dire... weixin_33984032 python 开发工具 json
代码很简单，就两行：importpandasaspdimportnetCDF4asncdataset=nc.Dataset('20150101.nc')环境：在VSCode中左下角把原环境的Python3.6.532-bit切换为Anaconda中的Python3.6.564-bit('base':conda)过程中有两种错误：（忘记截图了，都是历史记录中的google网页搜索栏找到的搜索记录）1
如何用 Python 实现树结构不辉放弃 python 开发语言
一、树结构基础认知1.1树的四大特征层级关系：父子节点的从属关系唯一根节点：访问起点无循环：从根到叶的路径不形成环N叉分支：每个节点可有多个子节点1.2核心组件解析classTreeNode:def__init__(self,data):self.data=data#节点存储的数据self.children=[]#子节点容器（多叉树特性）defadd_child(self,node):self.c
【网络】数据流（Data Workflow）Routes（路由）、Controllers（控制器）、Models（模型）和 Middleware（中间件）一袋米扛几楼98 网络工程/安全中间件
在图片中，数据流（DataWorkflow）描述了应用程序中数据的流动过程，涉及Routes（路由）、Controllers（控制器）、Models（模型）和Middleware（中间件）。作为初学者，理解这些组件及其联系是掌握Web应用程序开发的关键。以下是对每个技术点的详细解释，以及它们如何相互关联的分析。1.Routes（路由）定义：路由定义了应用程序的URL端点（Endpoints）以及服
dv-scroll-board 鼠标移入单元格显示单元格所有数据 mengfei-super 计算机外设前端 vue.js
前言：在使用大屏组件库data-v开发大屏驾驶舱系统，dv-scroll-board实现表格数据滚动的效果，但是某一列数据较多，需求提出：鼠标移上去要显示对应的问题，完全展示出来。奈何以前没有搞过这个问题，随即立马找向百度麻麻！实现效果及方法如下：{{dvTextName}}exportdefault{data(){return{dvText:{keyX:"15px",keyY:"0px",},d
mysql数据库学号数据类型_MySQL数据库学习笔记（二）----MySQL数据类型艾萨里昂之光 mysql数据库学号数据类型
【正文】上一章节中，我们学习了MySQL软件的安装，既然软件都装好了，现在就正式开始MySQL的基础知识的学习吧，即使是零基础，也要一步一个脚印。恩，首先要学习的就是MySQL的数据类型。一、数据类型：1、整型(xxxint)2、浮点型(float和double)3、定点数(decimal)4、字符串(char,varchar,xxxtext)5、二进制数据(xxxBlob)6、日期时间类型二、数
my.ini mysql_怎么修改mysql的my.ini文件周海棣 my.ini mysql
步骤：1、查找my.ini位置，可通过windows服务所对应mysql启动项，查看其对应属性->可执行文件路径，获取my.ini路径。"D:\MySQL\MySQLServer5.5\bin\mysqld"--defaults-file="D:\MySQLData\my.ini"MySQL552、编辑my.ini中对应datadir改前：datadir="D:\MySQLData\data\"改
MySql的my.ini文件位置货物搬运工 mysql 数据库 java
MySql的my.ini文件位置PS:搜了好多文章。说什么你在xx目录下没有my.ini文件就需要新建。简直是在恶心人。（他都不知道我咋按得就叫我新建，这不有什么大病么？）my.ini位置（这就是你数据库的数据存放目录）C:\ProgramData\MySQL\MySQLServer8.0由于我当时将两个安装位置相同（DataDirectory路径下最后没有\data），导致下面的DataDire
学习笔记——GPU 鹤岗小串 gpu算力分布式信息与通信系统架构硬件架构运维笔记
本文为学习笔记，故只对知识点依据自己的理解作概要总结，方便以后复习激活记忆。注：本文中GPU的讲解以A100型号为例，V100跟A100的架构差别不大也可适用，但是其他架构可能会有所出入。一、GPU硬件结构NVIDIAA100GPU的硬件结构HBM2：显存MemoryController：负责控制HBM2和L2Cache之间的通信High-SpeedHub：GPU总线，将NVLink、PCIE、E
echarts map3D区域颜色单独设置浪漫不敌风月 echarts echarts 前端 3d
效果图：实现：用的是map3D，之前试了下geo3d因为版本问题不好控制（地图上字体颜色都没法设置）只需要在series的data中加上你要标色的区域名称和颜色即可。此效果实现的是无图例着色。series:[{type:"map3D",//系列类型name:"map3D",//系列名称map:"yuhang",//地图类型。data:[{name:"鸬鸟镇",itemStyle:{color:"#
C# 调用 VITS，推理模型将文字转wav音频调试 -数字人分支未来之窗软件服务 c#开发语言人工智能数字人
Microsoft.ML.OnnxRuntime.OnnxRuntimeException:[ErrorCode:InvalidArgument]Inputname:'input_name'isnotinthemetadata在Microsoft.ML.OnnxRuntime.InferenceSession.LookupInputMetadata(StringnodeName)位置D:\a\_w
侯捷 C++ 课程学习笔记：深入掌握 C++ 高阶特性 —— 实践与心得分享清水白石008 C++学习笔记课程教程 c++学习笔记
侯捷C++课程学习笔记：深入掌握C++高阶特性——实践与心得分享自从开始接触侯捷C++系列精品课程以来，我对C++语言有了全新的认识与深入理解。这套课程不仅系统地梳理了C++的基础知识，更从实际案例中展示了许多高阶特性和工程实战技巧。作为一名长期从事C++开发的专业人士，我深深感受到侯捷老师讲解中那种由浅入深、逻辑严密的魅力，也正是这种教学风格让我在短时间内掌握了不少难以琢磨的知识点。今天，我将结
Windows Docker Desktop 无法启动报错 Docker Desktop is shutting down 的可能解决办法 Bruce-li__ Docker docker 容器运维
直接把整个AppData\Roaming\Docker目录删了，然后立刻就好了……这里还有一些其他的解决方案，Docker社区论坛也供参考：检查一下daemon.json配置文件是否有问题https://forums.docker.com/t/solved-docker-failed-to-start-docker-desktop-for-windows/106976
Linux find 命令完全指南可问可问春风 Linux从新手到入门 linux chrome 运维
find是Linux系统最强大的文件搜索工具，支持嵌套遍历、条件筛选、执行动作。以下通过场景分类解析核心用法，涵盖高效搜索、文件管理及高级技巧：一、基础搜索模式1.按文件名搜索（精确/模糊匹配）find/path-name"*.log"#精确匹配.log后缀（区分大小写）find/home-iname"*.TXT"#模糊匹配.txt后缀（忽略大小写）find.-name"data_[0-9].cs
达梦主备集群部署 sunny05296 数据库数据库达梦
DM数据守护（DataWatch）介绍DM数据守护（DataWatch）是一种集成化的高可用、高性能数据库解决方案，是数据库异地容灾的首选方案。达梦数据守护可快速恢复服务，只需数秒时间就可以将备库切换为主库对外提供数据库服务。DM数据守护提供多种解决方案，可以配置成实时主备、MPP主备、DMDSC主备或读写分离集群。实时主备由一个主库以及一个或者多个配置了实时（Realtime）归档的备库组成，其
C++和标准库速成(十一)——简单雇员系统梦醒沉醉 C++20 c++
目录1.雇员记录系统2.Employee类2.1Employee模块接口文件2.1.1实现细节2.1.2完整代码2.2Employ模块实现文件2.2.1实现细节2.2.2完整代码2.3Employee测试文件3.Database类3.1Database模块接口文件3.1.1实现细节3.1.2完整代码3.2Database模块实现文件3.2.1实现细节3.2.2完整代码3.3Database测试文件
C++：类（通识版）愚戏师 C++c++开发语言数据结构算法
类的基本思想是数据抽象（dataabstraction）和封装（encapsulation）。数据抽象是一种依赖于接口（interface）和实现（implementation）分离的编程（以及设计）技术。类的接口包括用户所能执行的操作；类的实现则包括类的数据成员、负责接口实现的函数体以及定义类所需的各种私有函数。封装实现了类的接口和实现的分离。封装后的类隐藏了它的实现细节，也就是说，类的用户只能
Excel-to-JSON 2.1.0: Your Privacy-First Excel Add-in for JSON Conversion wtsolutions excel与json互相转换 excel json
IntroductionExcel-to-JSONisapowerfulMicrosoftExceladd-inthatseamlesslyconvertsExceldataintoJSONformat.Version2.1.0bringsenhancedfeatureswhilemaintainingourcommitmenttodataprivacyandcross-platformacces
基于QScriptEngine的简单解释器有追求的菜鸟 qt 解释器模式
需求：voidDataFormatPipline::DataFormatPipline(QMapdata,QStringListtarger){}data中保存元素数据，类似Fe-1.2,Cu-2.4，Mn3.5,QStringList中的为Fe/Cu，Fe/Cu-Mn，Fe*Cu+Mn，如何利用解释器或者其它简单的方法完成这个需求？解决方案：现在项目中添加scriptQT+=corescript
达梦数据库学习笔记 lwq979991632 数据库
达梦数据库学习资料一、操作系统安装1、配置信息CPU：4核心内存：4G网络：NAT2.安装包选择选择带GUI的服务器，勾选Java平台、KDE二、安装前准备1.数据库远程访问：关闭防火墙systemctlstopfirewalld（禁用）systemctldisablefirewalld(停止，关闭开机自启动)systemctlstatusfirewalld（查看状态）2.安装gcc包rpm-qa
pytorch v1.4.0安装问题大柠丶 pytorch 人工智能 python
直接使用conda安装报错：(CenterNet)C:\Users\16323>condainstallpytorch==1.4.0torchvision==0.5.0cudatoolkit=10.1-cpytorch-cconda-forgeChannels:-pytorch-conda-forge-defaultsPlatform:win-64Collectingpackagemetadata
Spring Boot 中的 @ConditionalOnBean 注解详解 weixin_44563169 spring boot java 后端
SpringBoot中的@ConditionalOnBean注解详解1.前言2.`@ConditionalOnBean`作用与基本用法2.1`@ConditionalOnBean`的作用2.2基本用法示例：当`DataSource`Bean存在时，才创建`MyService`Bean3.`@ConditionalOnBean`详解3.1`value`和`type`属性（指定Bean类型）3.2`n
Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
MySQL 到 Hadoop：Sqoop 数据迁移 ETL Ice星空 ETL
文章目录ETL：Extract-Transform-Load数据迁移过程一、Extract数据抽取1.ODS：OperationalDataStore-可操作数据存储2.DW：DataWarehouse-数据仓库3.DM：DataMart-数据集市二、Transform数据清洗和转换1.数据清洗2.数据转换三、Load数据加载四、数据迁移方法1.Sqoop1.1MySQL->Hive1.1.1im
Flink CDC 与 SeaTunnel CDC 简单对比窝窝和牛牛 flink 大数据 cdc SeaTunnel
FlinkCDC与SeaTunnelCDC简单对比CDC技术概述变更数据捕获（ChangeDataCapture，简称CDC）是一种用于捕获数据库中数据变更的技术，能够实时识别、捕获并输出数据库中的插入、更新和删除操作。CDC技术在现代数据架构中扮演着至关重要的角色，特别是在实时数据集成、数据同步和事件驱动架构等场景中。CDC的工作原理CDC主要通过以下几种方式捕获数据变更：基于日志的CDC：直接
Azure Delta Lake、Databricks和Event Hubs实现实时欺诈检测 weixin_30777913 azure 云计算
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合AzureEventHubs/Kafka摄入实时数据，通过DeltaLake实现Exactly-Once语义，实时欺诈检测（流数据写入DeltaLake，批处理模型实时更新），以及具体实现的详细步骤和关键PySpark代码。完整实现代码需要根据具体数据格式和业务规则进行调整，建议通过DatabricksR
nested exception is redis.clients.jedis.exceptions.JedisDataException: NOAUTH Authentication requir qianyel springboot redis
springboot1.5X升级2.0时，redis配置密码报错org.springframework.dao.InvalidDataAccessApiUsageException:NOAUTHAuthenticationrequired.;nestedexceptionisredis.clients.jedis.exceptions.JedisDataException:NOAUTHAuthen
SpringBoot中Redis报错：NOAUTH Authentication required.； nested exception is redis.clients.jedis.exceptio 大象_ 本地缓存 DB-NoSQL 数据仓库
SpringBoot中Redis报错：NOAUTHAuthenticationrequired.;nestedexceptionisredis.clients.jedis.exceptions.JedisDataException:NOAUTHAuthenticationrequired.1、复现org.springframework.dao.InvalidDataAccessApiUsageEx
【Azure 架构师学习笔记】- Azure Networking(1) -- Service Endpoint 和 Private Endpoint 發糞塗牆 Azure 架构师学习笔记 Azure 网络安全 azure Network
本文属于【Azure架构师学习笔记】系列。本文属于【AzureNetworking】系列。前言最近公司的安全部门在审计云环境安全性时经常提到serviceendpoint（SE）和priavateendpoint（PE）的术语，为此做了一些研究储备。云计算的本质就是网络，默认情况下资源间及外部都是通过公网也就是互联网访问。为了安全，Azure引入了SE和PE等服务。云环境网络流动主要有两个：inb
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本