李姓门徒

HDFS高可用架构涉及常用功能整理

1. hdfs的高可用系统架构和相关组件
2. hdfs的核心参数
- 2.1 常规配置
- 2.2 特殊优化配置
- - 2.1.1 NN优化
  - 2.1.2 DN优化
3. hdfs常用命令
- 3.1 常用基础命令
- 3.2 常用运维命令
4. 事务性
- 4.1 数据写流程
- 4.2 数据读流程
5. 疑问和思考
- 5.2. hdfs集群初始化部署流程？
- 5.4. hdfs是如何选择DN进行数据读写的?
- 5.3. hdfs在读写过程中如果出现异常该如何处理？
- 5.4 hdfs不擅长处理哪些场景？
6. 参考文档

探讨hdfs的系统架构以及以及整体常用的命令和系统分析，本文主要探讨高可用版本的hdfs集群，并基于日常工作中的沉淀进行思考和整理。更多关于分布式系统的架构思考请参考文档关于常见分布式组件高可用设计原理的理解和思考

1. hdfs的高可用系统架构和相关组件

NameNode 的高可用发展史在 Hadoop2.0 以前，每个 HDFS 集群只有一个 NameNode，一旦这个节点不可用，则整个HDFS集群将处于不可用状态(即HDFS2.0以前，NameNode存在单点故障风险)。在HDFS集群中同时运行两个NameNode,通过HA的方式进行集群切换，从而达到高可用的目的。

NN节点有如下2种状态:

Active（活跃）状态：负责集群中所有客户端的操作（修改命名空间、删除备份数据块等操作）；
Standby（备份）状态：充当从服务器，和 Active NameNode 有相同的命名空间和元数据。

当 Active NameNode 停止服务时，Standby NameNode 能够快速进行故障切换，以保证 HDFS 集群服务不受影响。

hdfs的系统架构如下

相关核心的组件和角色作用如下

组件	部署模式	组件作用	备注
NN（active）	单机部署	存储集群的元数据，具体集群数据的全局视角	给客户端提供请求服务等，和standby节点进行形成主备
NN（standby）	单机部署	存储集群的元数据，具体集群数据的全局视角	配合active完成checkpoints，合并editlog和fimage，和active节点进行形成主备
zk	多节点部署	zk提供hdfs的NN选主锁和消息通知，zkfc接受相关zk进行主从切换	通过Zab 协议来保证分布式事务的最终一致性
zkfc	和NN部署	和zk交互，通过zk的消息通知，并调用NN的rpc接口实现集群选主和切主	fencing NN，防止出现多active形成脑裂
jn	多节点部署	active和standby节点的editlog数据桥梁，通过rpc完成数据传输	通过paxos协议选主，建议单数节点部署（3/5/7等）
DN	单机部署	数据的存储节点，会定期上报心跳和当前节点的block信息给NN	保存当前节点的块信息，并监控块状态

2. hdfs的核心参数

2.1 常规配置

hdfs-site.xml配置

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
 Licensed ...
-->

<configuration>
    <!-- 定义hdfs的namespace，可以配置多个，使用","分隔 -->
    <property>
        <name>dfs.nameservices</name>
        <value>cluster</value>
    </property>
    <!-- 定义hdfs的NN节点 -->
    <property>
        <name>dfs.ha.namenodes.cluster</name>
        <value>namenode1,namenode2</value>
    </property>
    <!-- 定义hdfs的副本数量 -->
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <!-- 定义是否开启web监控页面 -->
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
    <property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
    </property>
    <!-- 定义hdfs的NN的editlog保存路径 -->
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/data2/hadoop/dfs/name</value>
    </property>
    <!-- 定义hdfs的NN1，NN2节点信息 -->
    <property>
        <name>dfs.namenode.rpc-address.cluster.namenode1</name>
        <value>xx.xx.xx.xx:9000</value>
    </property>
    <property>
        <name>dfs.namenode.rpc-address.cluster.namenode2</name>
        <value>xx.xx.xx.xx:9000</value>
    </property>
    <property>
        <name>dfs.namenode.servicerpc-address.cluster.namenode1</name>
        <value>namenode1:53310</value>
    </property>
    <property>
        <name>dfs.namenode.servicerpc-address.cluster.namenode2</name>
        <value>namenode2:53310</value>
    </property>
    <property>
        <name>dfs.namenode.http-address.cluster.namenode1</name>
        <value>xx.xx.xx.xx:50070</value>
    </property>
    <property>
        <name>dfs.namenode.http-address.cluster.namenode2</name>
        <value>xx.xx.xx.xx:50070</value>
    </property>
    <property>
        <name>dfs.namenode.https-address.cluster.namenode1</name>
        <value>xx.xx.xx.xx:9871</value>
    </property>
    <property>
        <name>dfs.namenode.https-address.cluster.namenode2</name>
        <value>xx.xx.xx.xx:9871</value>
    </property>
    <!-- 定义hdfs的jn节点信息 -->
    <property>
        <name>dfs.namenode.shared.edits.dir</name>
        <value>qjournal://xx.xx.xx.xx:8485;xx.xx.xx.xx:8485;xx.xx.xx.xx:8485/cluster</value>
    </property>
    <property>
        <name>dfs.journalnode.edits.dir</name>
        <value>/data2/hadoop/journal</value>
    </property>
    <property>
        <name>dfs.client.failover.proxy.provider.cluster</name>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    </property>
    <!-- 定义hdfs的NN的fencing信息，NN通过切主时会获取原主的信息，如果调用rpc原主降为standby失败，就会通过fencing ssh到对应的服务器杀死原主的NN进程 -->
    <property>
        <name>dfs.ha.fencing.methods</name>
        <value>sshfence(root:36000)&#xA;shell(/bin/true)
    </property>
    <property>
        <name>dfs.ha.fencing.ssh.private-key-files</name>
        <value>/root/.ssh/id_rsa</value>
    </property>
    <property>
        <name>dfs.ha.fencing.ssh.coNNect-timeout</name>
        <value>30000</value>
    </property>
    <property>
        <name>dfs.ha.automatic-failover.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>ha.failover-controller.cli-check.rpc-timeout.ms</name>
        <value>60000</value>
    </property>
    <property>
        <name>ipc.client.coNNect.timeout</name>
        <value>60000</value>
    </property>
    <!-- 定义hdfs的DN数据保存目录，可以配置多个路径，用","分割 -->
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/hdfsdata1/hadoop/dfs/data</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>xx.xx.xx.xx:9868</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.https-address</name>
        <value>xx.xx.xx.xx:9869</value>
    </property>
    <property>
        <name>dfs.namenode.datanode.registration.ip-hostname-check</name>
        <value>false</value>
    </property>
    <property>
        <name>dfs.namenode.rpc-bind-host</name>
        <value>0.0.0.0</value>
    </property>
    <!-- 定义hdfs的DN内部的平衡、同步fimage的带宽限制 -->
    <property>
        <name>dfs.image.transfer.bandwidthPerSec</name>
        <value>52428800</value>
    </property>
    <property>
        <name>dfs.datanode.balance.bandwidthPerSec</name>
        <value>52428800</value>
    </property>
    <property>
        <name>dfs.datanode.balance.max.concurrent.moves</name>
        <value>50</value>
    </property>
    <!-- 定义hdfs的需要下线的机器列表 -->
    <property>
        <name>dfs.hosts.exclude</name>
        <value>/usr/local/services/hadoop-3.2.1/etc/hadoop/excludes_datanodes</value>
    </property>
    <property>
        <name>dfs.namenode.http-bind-host</name>
        <value>0.0.0.0</value>
    </property>
    <property>
        <name>dfs.namenode.https-bind-host</name>
        <value>0.0.0.0</value>
    </property>
    <!-- 定义hdfs的zk路径，通过在该路径下创建临时节点选主 -->
    <property>
        <name>ha.zookeeper.parent-znode</name>
        <value>/hadoop-hdfs-ha</value>
    </property>
    <property>
        <name>dfs.datanode.https.address</name>
        <value>0.0.0.0:9865</value>
    </property>
    <property>
        <name>dfs.block.access.token.enable</name>
        <value>true</value>
    </property>
    <!-- 定义hdfs的kerberos鉴权，如果设置鉴权可以不配置 -->
    <property>
        <name>dfs.namenode.keytab.file</name>
        <value>/usr/local/services/hadoop-3.2.1/etc/hadoop/hdfs.keytab</value>
    </property>
    <!-- 定义hdfs的kerberos用户，_HOST代表本机的hostname，因此没台DN的用户hdfs/[email protected]有差别，需要针对每个DN单独配置证书 -->
    <property>
        <name>dfs.namenode.kerberos.principal</name>
        <value>hdfs/[email protected]</value>
    </property>
    <property>
        <name>dfs.namenode.kerberos.https.principal</name>
        <value>HTTP/[email protected]</value>
    </property>
    <property>
        <name>dfs.namenode.kerberos.internal.spnego.principal</name>
        <value>HTTP/[email protected]</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir.perm</name>
        <value>755</value>
    </property>
    <property>
        <name>dfs.datanode.address</name>
        <value>0.0.0.0:9866</value>
    </property>
    <property>
        <name>dfs.datanode.keytab.file</name>
        <value>/usr/local/services/hadoop-3.2.1/etc/hadoop/hdfs.keytab</value>
    </property>
    <property>
        <name>dfs.datanode.kerberos.principal</name>
        <value>hdfs/[email protected]</value>
    </property>
    <property>
        <name>dfs.datanode.kerberos.https.principal</name>
        <value>HTTP/[email protected]</value>
    </property>
    <property>
        <name>dfs.journalnode.keytab.file</name>
        <value>/usr/local/services/hadoop-3.2.1/etc/hadoop/hdfs.keytab</value>
    </property>
    <property>
        <name>dfs.journalnode.kerberos.principal</name>
        <value>hdfs/[email protected]</value>
    </property>
    <property>
        <name>dfs.journalnode.kerberos.internal.spnego.principal</name>
        <value>HTTP/[email protected]</value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.principal</name>
        <value>HTTP/[email protected]</value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.keytab</name>
        <value>/usr/local/services/hadoop-3.2.1/etc/hadoop/hdfs.keytab</value>
    </property>
    <property>
        <name>dfs.data.transfer.protection</name>
        <value>integrity</value>
    </property>
    <!-- 定义hdfs的DN的最大文件数量 -->
    <property>
        <name>dfs.namenode.fs-limits.max-directory-items</name>
        <value>3200000</value>
    </property>
</configuration>

core-site.xml配置

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--
  Licensed ...
-->

<configuration>
    <!-- 定义hdfs的zk配置 -->
    <property>
        <name>ha.zookeeper.auth</name>
        <value>digest:zk_user:zk_passwd</value>
    </property>
    <property>
        <name>ha.zookeeper.acl</name>
        <value>digest:zk_user:Yg6OG5Tas/LEH5bd73noFMYG3xo=:rwcda</value>
    </property>
    <property>
        <name>hadoop.http.filter.initializers</name>
        <value>org.apache.hadoop.security.AuthenticationFilterInitializer</value>
    </property>
    <property>
        <name>hadoop.http.authentication.type</name>
        <value>kerberos</value>
    </property>
    <property>
        <name>hadoop.http.authentication.signature.secret.file</name>
        <value>/usr/local/services/hadoop-3.2.1/etc/hadoop/secret</value>
    </property>
    <property>
        <name>hadoop.http.authentication.simple.anonymous.allowed</name>
        <value>false</value>
    </property>
    <!-- 定义hdfs的kerberos认证信息 -->
    <property>
        <name>hadoop.security.authentication</name>
        <value>kerberos</value>
    </property>
    <property>
        <name>hadoop.security.authorization</name>
        <value>true</value>
    </property>
    <property>
        <name>hadoop.http.authentication.kerberos.principal</name>
        <value>HTTP/[email protected]</value>
    </property>
    <property>
        <name>hadoop.http.authentication.kerberos.keytab</name>
        <value>/usr/local/services/hadoop-3.2.1/etc/hadoop/hdfs.keytab</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/data2/hadoop/tmp</value>
    </property>
    <!-- 定义hdfs的namespace集群信息，和hdfs-site.xml定义一致 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://cluster</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hadoop.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hadoop.groups</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.mapred.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.mapred.groups</name>
        <value>*</value>
    </property>
    <!-- 定义hdfs的zk访问地址 -->
    <property>
        <name>ha.zookeeper.quorum</name>
        <value>xx.xx.xx.xx:2181,xx.xx.xx.xx:2181,xx.xx.xx.xx:2181</value>
    </property>
    <property>
        <name>ha.zookeeper.session-timeout.ms</name>
        <value>30000</value>
    </property>
    <!-- 定义hdfs的机架topo配置 -->
    <property>
        <name>topology.script.file.name</name>
        <value>/usr/local/services/hadoop-3.2.1/etc/hadoop/hdfs_rack_info.py</value>
    </property>
    <!-- 定义hdfs的DN 汇报心跳配置 -->
    <property>
        <name>ipc.client.coNNect.max.retries</name>
        <value>10</value>
    </property>
    <property>
        <name>ipc.client.coNNect.retry.interval</name>
        <value>5000</value>
    </property>
    <property>
        <name>ipc.client.coNNect.max.retries.on.timeouts</name>
        <value>3</value>
    </property>
</configuration>

2.2 特殊优化配置

2.1.1 NN优化

对于NN来说，最大的问题还是响应客户端的rpc请求，由于只能单点响应客户端请求，因此单个NN的需要进行系统优化响应服务请求。

1， dfs.namenode.handler.count

参数：namenode的服务器线程数。

NameNode有一个工作线程池用来处理客户端的远程过程调用及集群守护进程的调用。处理程序数量越多意味着要更大的池来处理来自不同DataNode的并发心跳以及客户端并发的元数据操作。对于大集群或者有大量客户端的集群来说，通常需要增大参数dfs.namenode.handler.count的默认值10。设置该值的一般原则是将其设置为集群大小的自然对数乘以20，即20logN，N为集群大小。

<property>
    <name>dfs.namenode.handler.count</name>
    <value>200</value>
</property>

2.1.2 DN优化

1， dfs.datanode.balance.bandwidthPerSec
参数： datanode 平衡带宽
描述：指定每个datanode可以利用每秒字节数来平衡目标的最大带宽。

<property>
    <name>dfs.datanode.balance.bandwidthPerSec</name>
    <value>52428800</value>
</property>

2，dfs.datanode.max.transfer.threads
参数：datanode 最大传输线程数
描述：指定用于传输数据进出DN的最大线程数。集群中如果不一致，会造成数据分布不均。

<property>
    <name>dfs.datanode.max.transfer.threads</name>
    <value>100</value>
</property>

3. hdfs常用命令

hdfs dfs
 
下面为显示的内容：

Usage: hadoop fs [generic options]
	[-appendToFile <localsrc> ... <dst>]
	[-cat [-ignoreCrc] <src> ...]
	[-checksum <src> ...]
	[-chgrp [-R] GROUP PATH...]
	[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
	[-chown [-R] [OWNER][:[GROUP]] PATH...]
	[-copyFromLocal [-f] [-p] [-l] <localsrc> ... <dst>]
	[-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
	[-count [-q] [-h] <path> ...]
	[-cp [-f] [-p | -p[topax]] <src> ... <dst>]
	[-createSnapshot <snapshotDir> [<snapshotName>]]
	[-deleteSnapshot <snapshotDir> <snapshotName>]
	[-df [-h] [<path> ...]]
	[-du [-s] [-h] <path> ...]
	[-expunge]
	[-find <path> ... <expression> ...]
	[-get [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
	[-getfacl [-R] <path>]
	[-getfattr [-R] {-n name | -d} [-e en] <path>]
	[-getmerge [-nl] <src> <localdst>]
	[-help [cmd ...]]
	[-ls [-d] [-h] [-R] [<path> ...]]
	[-mkdir [-p] <path> ...]
	[-moveFromLocal <localsrc> ... <dst>]
	[-moveToLocal <src> <localdst>]
	[-mv <src> ... <dst>]
	[-put [-f] [-p] [-l] <localsrc> ... <dst>]
	[-renameSnapshot <snapshotDir> <oldName> <newName>]
	[-rm [-f] [-r|-R] [-skipTrash] <src> ...]
	[-rmdir [--ignore-fail-on-non-empty] <dir> ...]
	[-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]
	[-setfattr {-n name [-v value] | -x name} <path>]
	[-setrep [-R] [-w] <rep> <path> ...]
	[-stat [format] <path> ...]
	[-tail [-f] <file>]
	[-test -[defsz] <path>]
	[-text [-ignoreCrc] <src> ...]
	[-touchz <path> ...]
	[-truncate [-w] <length> <path> ...]
	[-usage [cmd ...]]

3.1 常用基础命令

整理日常操作hdfs常用的命令，便于针对hdfs的文件操作

1, –ls：查看指定目录下内容
eg：hadoop fs –ls /user/wangwu

2, –cat：显示文件内容
eg:hadoop fs -cat /user/wangwu/data.txt

3, –put：将本地文件存储至hadoop
eg：hadoop fs –put /home/t/file.txt  /user/t

4, –put：将本地文件夹存储至hadoop
eg：hadoop fs –put /home/t/dir_name /user/t

5, -get：将hadoop上某个文件down至本地已有目录下
eg：hadoop fs –get /user/t/ok.txt /home/t

6, –rm：删除hadoop上指定文件或文件夹
eg：hadoop fs –rm /user/t/ok.txt

7, 删除hadoop上指定文件夹（包含子目录等）
eg：hadoop fs –rm /user/t

8, –mkdir：在hadoop指定目录内创建新目录
eg：hadoop fs –mkdir /user/t

9, -touchz：在hadoop指定目录下新建一个空文件
eg：hadoop  fs  -touchz  /user/new.txt

10, –mv：将hadoop上某个文件重命名
eg：hadoop  fs  –mv  /user/test.txt  /user/ok.txt

11, -setrep：设置HDFS中文件的副本数量
eg：hadoop fs -setrep 10 /tmp/tt/student.txt

12, 将正在运行的hadoop作业kill掉
eg：hadoop job –kill  [job-id]

13, -help：输出这个命令参数
eg：hadoop fs -help rm

14, -moveFromLocal：从本地剪切粘贴到HDFS
eg：hadoop fs  -moveFromLocal  ./stuDNet.txt  /tmp/test/

15, -appendToFile：追加一个文件到已经存在的文件末尾
eg：hadoop fs -appendToFile liubei.txt /sanguo/shuguo/zhangsan.txt

16, -chgrp , -chmod, -chown：Linux文件系统中的用法一样，修改文件所属权限
eg：hadoop fs  -chmod  666  /sanguo/shuguo/zhangsan.txt

17, -copyFromLocal：从本地文件系统中拷贝文件到HDFS路径去
eg：hadoop fs -copyFromLocal README.txt /

18, -copyToLocal：从HDFS拷贝到本地
eg：hadoop fs -copyToLocal /sanguo/shuguo/zhangsan.txt ./

19, -cp ：从HDFS的一个路径拷贝到HDFS的另一个路径
eg：hadoop fs -cp /sanguo/shuguo/zhangsan.txt /zhuge.txt

20, -tail：显示一个文件的末尾
eg：hadoop fs -tail /sanguo/shuguo/zhangsan.txt

21, -rmdir：删除空目录
eg：hadoop fs -rmdir /test

22, -du：统计文件夹的大小信息
eg：hadoop fs -du  -h /user/itcast/test
	1.3 K  /user/itcast/test/README.txt
	15     /user/itcast/test/jinlian.txt
	1.4 K  /user/itcast/test/nihao.txt

3.2 常用运维命令

用于日常运维命令，便于进行服务运维，提升系统稳定性。

1, 设置文件副本数量
如果hdfs的磁盘使用率过高，可以临时调整大文件副本，注意如果调整的副本数量过小，可能会面临数据可靠性风险，慎重！

hadoop fs -setrep 10 /sanguo/shuguo/kongming.txt

2, 检查hdfs的是否有坏块或者副本缺失

hdfs fsck / -list-corruptfileblocks

3, 检查hdfs的文件是否有坏块或者副本缺失

hdfs fsck / -files  -blocks -locations
hdfs fsck /user/root/hello/yarn-demo-1.0-SNAPSHOT-jar-with-dependencies.jar -files  -blocks -locations

也可以通过该命令查看对应的文件的block所在的位置

3, 执行hdfs执行格式化
执行格式化操作，会清理当前集群的所有数据，重新创建一个新的集群，一般只在新部署hdfs集群时使用，一定要慎重！！！

# 格式化zk，会在zk上创建临时目录，用于选主
hdfs zkfc -formatZK

# 格式化整个hdfs系统
hdfs namenode -format

4, 同步active的元数据
完成active部署后，standby需要跟active同步元数据，才能达成一致，该操作需要再standby节点执行，否则可能会造成元数据丢失.

hdfs namenode -bootstrapStandby

5, hdfs安全模式
当hdfs集群的数据副本丢失过多，或者集群存活的DN数量到达阈值时，就会主动进入安全模式，集群只读，需要人工修复。

# 检查是否进入安全模式
hdfs dfsadmin -safemode get

# 如何离开安全模式
hdfs dfsadmin -safemode leave

6，强行切换NN

# 强行指定某个节点为active
hdfs haadmin -transitionToActive -forcemanual namenode1

# 强行指定某个节点为standby
hdfs haadmin -transitionToStandby -forcemanual namenode2

7，获取nn的集群节点状态

# 获取所有的nn节点状态
hdfs haadmin -getAllServiceState

#获取单个nn的节点状态
hdfs haadmin -getServiceState nn1
hdfs haadmin -getServiceState nn2

5，刷新节点信息
通常使用于下线节点

# 配置完exclude后，通过手动刷新配置生效
hdfs dfsadmin -refreshNodes

4. 事务性

4.1 数据写流程

hdfs的数据写流程，整体流程如下。

客户端写入的总体流程如下

客户端向NameNode发出写文件请求。
检查是否已存在文件、检查权限。若通过检查，直接先将操作写入EditLog，并返回输出流对象。（注：WAL，write ahead log，先写Log，再写内存，因为EditLog记录的是最新的HDFS客户端执行所有的写操作。如果后续真实写操作失败了，由于在真实写操作之前，操作就被写入EditLog中了，故EditLog中仍会有记录，我们不用担心后续client读不到相应的数据块，因为在第5步中DataNode收到块后会有一返回确认信息，若没写成功，发送端没收到确认信息，会一直重试，直到成功）
client端按block切分文件（通常一个block是128M）
client将NameNode返回的分配的可写的DataNode列表和Data数据一同发送给最近的第一个DataNode节点，此后client端和NameNode分配的多个DataNode构成pipeline管道，client端向输出流对象中写数据。client每向第一个DN写入一个packet，这个packet便会直接在pipeline里传给第二个、第三个…DataNode（满足一个packet就会发送数据，而不是一个block）
在pipeline反方向上,逐个发送ack(命令正确应答),最终由pipeline中第一个DataNode节点将ack发送给client。（注：并不是每写完一个packet后就返回确认信息，个人觉得因为packet中的每个chunk都携带校验信息，没必要每写一个就汇报一下，这样效率太慢。正确的做法是写完一个block块后，对校验信息进行汇总分析，就能得出是否有块写错的情况发生）
写完数据，关闭输输出流。
发送完成信号给NameNode。

这里面有几个关键概念，需要进行整理

block
这个大家应该知道，文件上传前需要分块，这个块就是block，一般为128MB（可以改，但是不推荐）。client完成1个block写入后，所有的DN返回后，进行一次数据确认。
packet
packet是第二大的单位，它是client端向DataNode，或DataNode的PipLine之间传数据的基本单位，默认64KB。当客户端的输出流（outputstream）满足1个packet后，就会开始进行数据发送给DN。
chunk
chunk是最小的单位，它是client向DataNode，或DataNode的PipLine之间进行数据校验的基本单位，默认512Byte，因为用作校验，故每个chunk需要带有4Byte的校验位。所以实际每个chunk写入packet的大小为516Byte。由此可见真实数据与校验值数据的比值约为128 : 1（即64*1024 / 512）

客户端在给DN发送数据时，

以chunk单位进行数据校验，完成chunk（516Bytes）数据校验后，写入到packet（64KB）
当64*1024 / 512=128个chunk写入到packet后，packet满足要求，并输出到outputstream发送给DN
多个DN之间形成pipeline，并以packet作为基础单元接受数据，DN以3->2->1的顺序反向确认消息返回ack
当1个block（128MB/64KB=2048个packet）写入，并所有的DN返回ack后，统一返回给client，确认1个block数据写完成

4.2 数据读流程

读相对于写，简单一些

读详细步骤：

客户端访问NameNode，查询元数据信息，获得这个文件的数据块位置列表，返回输入流对象。
客户端就近挑选一台datanode服务器，请求建立输入流。
DataNode向输入流中中写数据，以packet为单位来校验。

5. 疑问和思考

5.2. hdfs集群初始化部署流程？

hdfs namenode -format

hadoop-daemon.sh start namenode

hdfs namenode -bootstrapStandby

hdfs zkfc -formatZK

hadoop-daemon.sh start zkfc

hadoop-daemon.sh start datanode

启动zk

启动jn

格式化hdfs

启动第一个节点NN

第二个节点NN同步元数据

格式化zkfc

启动zkfc

启动DN

结束

5.4. hdfs是如何选择DN进行数据读写的?

Hadoop 默认的副本数为3，并且在机架的存放上也有一定的策略。优先按照如下策略选择合适的DN节点：
（1）第 1 个副本存放在 HDFS 客户端所在的节点上。
（2）第 2 个副本存放在与第1个副本不同的机架上，并且是随机选择的节点。
（3）第 3 个副本存放在与第2个副本相同的机架上，并且是不同的节点。

5.3. hdfs在读写过程中如果出现异常该如何处理？

1，如果DN收到一半 DN挂了了的处理流程

client发送数据以block作为基础单元。

假如一个packet在发送后，在收到DN返回的ack确认消息时超时，传输中止，将此时所有DN中正在传输的packet剔除，并进行回滚。
重新选择DN节点（剔除坏的DN节点，包括里面的所有信息）内部重新建立pipeline建立完成之后，继续传输（客户端不需要重新跟NN交互获取新的DN列表）
只要有一个DN节点收到了数据，DN上报NN已经收完此块，NN就认为当前block已经传输成功！
NN会自动维护副本数！

2，读取文件时DN挂了
DataNode 挂了只需要失败转移到其他副本所在的 DataNode 继续读取

3.读取到的文件数据损坏

读取到的文件数据块若校验失败可认定为损坏，依然可以转移到读取其他完好的副本
并向 NameNode 汇报该文件 block 损坏，后续处理由 NameNode 通知 DataNode 删除损坏文件 block，并根据完好的副本来复制一份新的文件 block 副本。

5.4 hdfs不擅长处理哪些场景？

hdfs擅长处理大数据规模场景下的数据处理场景，常规的接口响应是秒级（几秒到十几秒），数据处理、清晰等场景下，相对于数据的处理和聚合运算，这些时间相对客户忽略不计。有些场景不适用于hdfs集群，总结如下

http请求加载图片等： http请求的接口响应是毫秒级别，hdfs是秒级，相差比较大，响应时间相对较长，事实上很多http请求都配置了超时时间（如设置为3s），会导致图片经常加载不成功。
小文件、大量请求: 小文件会占用NN的大量内存，同时由于NN只有1个节点在响应相关的接口，因此NN很容易成为瓶颈。如果NN的内存heap配置过小，容易oom；如果配置过大，会导致长GC，同时节点异常时的恢复时间比较长；

6. 参考文档

联邦-模式搭建指南
hfds保证数据一致性
HDFS读写流程以及异常处理

你可能感兴趣的:(大数据,Hdfs,hdfs,hadoop,大数据)

数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
国产开源高性能对象存储RustFS保姆级上手指南光爷不秃对象存储 rust 国产开源软件 rust 云计算开源软件 github 开源数据仓库 database
在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust
通过YashanDB提升大数据处理能力的指南数据库
数据的急剧增长给数据库技术领域带来了诸多挑战，包括性能瓶颈、数据一致性问题及处理效率低下等。为了应对这些挑战，企业需采取有效的技术手段来提升大数据处理能力。YashanDB作为一款高性能的数据库产品，通过其先进的体系架构、优化的数据存储形式以及强大的并发控制能力，有效地提升了大数据环境下的处理性能。本文旨在为技术人员和决策者提供深入的技术分析和可操作的建议，通过YashanDB的功能特性来实现大数
Java多线程实战指南：从基础到高并发的核心技术解析添砖Java中 java python 开发语言 spring boot spring cloud spring
一、为什么必须掌握多线程？在单核CPU时代，多线程主要用于提高程序响应速度；在如今的多核处理器时代，多线程已成为榨干硬件性能的必备技能。无论是高并发Web服务器、实时数据处理系统，还是游戏引擎，都离不开多线程技术的支撑。典型案例：电商秒杀系统：1秒内处理10万+请求大数据处理：并行计算TB级数据金融交易系统：毫秒级订单撮合二、线程创建的四大核心方式1.继承Thread类（不推荐）classMyTh
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
3D 可视化技术开启污水治理全新发展阶段广州华锐视点 3d
3D可视化大屏展示技术在污水厂的应用，已然开启了污水处理的全新篇章。它不仅为污水厂解决了当下管理和展示的难题，更如同一座灯塔，照亮了未来污水处理领域的发展道路。随着科技的持续进步，3D可视化大屏展示技术必将迎来更加辉煌的发展。一方面，其与人工智能、大数据、物联网等前沿技术的融合将愈发紧密。借助人工智能算法，大屏系统将具备更强大的自主学习和分析能力，能够根据实时数据和历史经验，自动优化污水处理工艺参
UI前端大数据可视化实战策略：如何设计交互式数据探索界面？ UI前端开发工作室 ui 前端信息可视化
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“被动观看”到“主动探索”的可视化革命传统大数据可视化常陷入“图表堆砌”的困境：企业dashboard上布满折线图、饼图，却难以回答“销售额下降的核心区域是哪里”“用户流失与哪个行为强相关”等深度问题。
【HTML网页】智能健康监测——全方位健康管理专家（包含网页源代码）
智能健康监测分析系统智能健康监测分析系统是一种基于物联网、大数据、人工智能等技术的综合性健康管理解决方案。它具有以下六大核心功能：实时监测系统通过智能传感器和可穿戴设备，实时采集用户的生理数据，例如心率、血压、血氧饱和度、血糖水平和睡眠质量等，确保用户随时掌握自己的身体状况。健康数据分析利用人工智能和大数据分析技术，系统对采集到的数据进行处理和分析，提取有价值的健康信息，如心率变异性、呼吸频率等，
ftp文件服务器有连接数限制,查看ftp服务器连接数命令赵承铭 ftp文件服务器有连接数限制
查看ftp服务器连接数命令内容精选换一换本章节适用于MRS3.x之前版本。Loader支持以下多种连接，每种连接的配置介绍可根据本章节内容了解。obs-connectorgeneric-jdbc-connectorftp-connector或sftp-connectorhbase-connector、hdfs-connector或hive-connectorOBS连接是Loa“数据导入”章节适用于
Elasticsearch 高可用实战：架构设计与场景化解决方案辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch wpf 大数据全文检索搜索引擎 restful java
Elasticsearch高可用实战：架构设计与场景化解决方案本文深入探讨Elasticsearch在高并发、大数据量场景下的高可用架构设计，结合电商搜索、日志分析等真实案例，提供可落地的技术方案与Java实现。一、高可用架构设计原则1.分布式架构核心要素客户端负载均衡层协调节点数据节点-分片1数据节点-分片2数据节点-分片3副本分片副本分片副本分片2.高可用黄金法则冗余设计：至少3节点集群+1副
oracle 数据库迁移expdp，impdp（数据泵导出导入）方法小张是铁粉 oracle 数据库
一.优缺点优点：1.高效性能：expdp，impdp使用并行技术，可以显著提高导出导入速度，尤其适用于大数据量的迁移。支持压缩和加密，减少导出文件的大小并提高安全性。2.灵活的对象选择：可以导出整个数据库、特定表空间、用户（Schema）或单个表。支持过滤条件，例如只导出特定表的数据或元数据。3.跨平台兼容性：支持跨平台迁移（例如从Linux到Windows），但需要注意字节序（endiannes
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f