臭臭GE

Ha 高可用hadoop集群安装

1 HDFS高可用分布式搭建

1.1 NameNode HA 实现原理

通过Journal Node实现NameNode集群启动时，可以通过动手方式来实现NameNodeHA也可以通过自动方式实现NameNodeHA.
NameNode HA实现可以同时启动2个NameNode，这些NameNode只有一个是active的，另一个属于standby状态。active状态意味着提供服务，standby状态意味着处于休眠状态，只进行数据同步，进行数据合并工作，时刻准备着提供服务。
手动实现NameNode原理如下图所示：

实现NameNode高可用大体步骤如下：

一个NameNode进程处于Active状态，另1个NameNode进程处于Standby状态。Active的NameNode负责处理客户端的请求。
Active的NameNode修改了元数据之后，会在JNs的半数以上的节点上记录这个日志。Standby状态的NameNode会监视任何对JNs上edit log的更改。一旦edits log出现更改，Standby的NN就会根据edits log更改自己记录的元数据。
当发生故障转移时，Standby主机会确保已经读取了JNs上所有的更改来同步它本身记录的元数据，然后由Standby状态切换为Active状态。
为了确保在发生故障转移操作时拥有相同的数据块位置信息，DNs向所有NN发送数据块位置信息和心跳数据。
JNs只允许一台NameNode向JNs写edits log数据，这样就能保证不会发生“脑裂”。

以上手动方式需要我们手动将Standby NamNode切换成Active NameNode，对于高可用场景时效性较低。那么可以通过zookeeper进行协调自动实现NameNode HA，实现代码通过Zookeeper来检测Activate NameNode节点是否挂点，如果挂掉立即将Standby NameNode切换成Active NameNode，原理如下：

ZooKeeper Failover Controller：监控NameNode健康状态，并向Zookeeper注册NameNode。NameNode挂掉后，ZKFC为NameNode竞争锁，获得ZKFC 锁的NameNode变为active。
手动切换NameNode场景一般用于HDFS升级场合，绝大多数我们都是基于Zookeeper来实现自动NameNode HA切换。

2 搭建前环境准备

2.1 关闭防火墙

环境中要关闭防火墙，防止后续查看web页面访问受阻。

systemctl stop firewalld    #临时关闭

systemctl disable firewalld  #禁止开机启动

systemctl status firewalld #查看防火墙是否关闭

2.2 配置静态ip和主机映射

输入下面命令进入配置文件

vi etc/sysconfig/network-scripts/ifcfg-ens33

修改配置文件

TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
# 将动态IP设置为static(静态)
BOOTPROTO=static     
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
UUID=dea19265-ddfe-4de3-ba50-c627093fd7c0
DEVICE=ens33
#系统启动时是否激活网卡 这里改为yes
ONBOOT=yes  
#IP地址可以自定义，必须和VMnet8的子网在同一网段
IPADDR=192.168.81.10   
#网关，这个值与我们在NAT设置的网关一样
GATEWAY=192.168.81.2  
#子网掩码
NETMASK=255.255.255.0  
#DNS的值也跟设置的的网关一样
DNS1=192.168.81.2  
PREFIX=24
#表示该接口将通过该配置文件进行设置，而不是通过网络管理器进行管理
NM_CONTROLLED=no   
DNS=8.8.8.8
DNS2=114.114.114.114

配置主机名和主机映射
进入后删除原配置文件输入要更改的主机名

vim /etc/hostname

删除原配置文件，输入命令后进入文件

vim /etc/hosts

修改为静态ip地址和对应主机名，如下

192.168.81.142 hadoop3
192.168.81.141 hadoop2
192.168.81.140 hadoop1

重启网络

systemctl start network.service

注意：配置完成后其他节点也要按照如上所述进行配置，但是ip地址不能相同
此时能ping通百度和其他节点即代表静态配置完成

ping www.baidu.com

ping 其他节点映射或IP地址

2.3 免密钥设置

在Hadoop集群中，需要各个节点之间是有通信的，这里需要设置节点之间免密通信，为了后期操作方便，三台服务器之间需互相均可以免密登录。

首先在三台服务器上都要执行：

ssh-keygen  -t  rsa  -P  ''  -f  ~/.ssh/id_rsa

分别将hadoop1,hadoop2,hadoop3节点上的公钥复制到hadoop1节点上：

[root@hadoop1.ssh] ssh-copy-id hadoop1

[root@hadoop2 .ssh] ssh-copy-id hadoop2

[root@hadoop3 .ssh] ssh-copy-id hadoop3

将hadoop1节点上的authorized_keys文件发送到hadoop2、hadoop3节点上：

[root@hadoop1 .ssh]scp  ~/.ssh/authorized_keys  hadoop2:`pwd`

[root@hadoop1 .ssh]scp  ~/.ssh/authorized_keys  hadoop3:`pwd`

经过以上步骤，可以测试两两节点已将完成免密配置。

2.4 JDK安装环境变量配置

HDFS 安装需要jdk，这里在hadoop1-hadoop3每台节点需要安装jdk8。
hadoop1-hadoop3节点上执行如下命令，创建目录：

mkdir -p /opt/app

将jdk-8u181-linux-x64.rpm上传到hadoop1 /opt/app目录下
将/opt/app/下的jdk*.rpm scp到hadoop2、hadoop3的对应目录中

scp jdk-8u181-linux-x64.rpm hadoop2:/opt/app

scp jdk-8u181-linux-x64.rpm hadoop3:/opt/app

在hadoop1、hadoop2、hadoop3上安装jdk并配置profile文件

rpm -ivh jdk-8u181-linux-x64.rpm

hadoop1上修改环境变量
java
vim /etc/profile

export JAVA_HOME=/opt/app/java/jdk1.8.0_181-amd64
export PATH=$PATH:$JAVA_HOME/bin

初始化使修改的环境变量生效

source /etc/profile

将hadoop1的/etc/profile拷贝到hadoop2、hadoop3上并执行 source /etc/profile，完成JDK安装。

scp /etc/profile hadoop[23]:`pwd`

2.5 Zookeeper集群配置

从上图中,我们可以很明显地看出现有的HDFS数据管理，数据存储2层分层的结构。也就是说,所有关于存储数据的信息和管理是放在NameNode这边,而真实数据的存储则是在各个DataNode下。而这些隶属于同一个NameNode，所管理的数据都是在同一个命名空间下的“NS”,以上结构是一个NameNode管理集群中所有元数据信息。
举个例子，一般1GB内存放1，000，000 block元数据。200个节点的集群中每个节点有24TB存储空间，block大小为128MB，能存储大概4千万个block（或更多）：200241024*1024M/128 约为4千万。100万需要1G内存存储元数据，4千万大概需要40G内存存储元数据，假设节点数如果更多、存储数据更多的情况下，需要的内存也就越多。
通过以上例子可以看出，单NameNode的架构使得 HDFS 在集群扩展性和性能上都有潜在的问题，当集群大到一定程度后，NameNode进程使用的内存可能会达到上百G，NameNode 成为了性能的瓶颈。这时该怎么办？元数据空间依然还是在不断增大,一味调高NameNode的JVM大小绝对不是一个持久的办法，这时候就诞生了 HDFS Federation 的机制。
HDFS Federation是解决namenode内存瓶颈问题的水平横向扩展方案。Federation中文意思为联邦、联盟，HDFS Federation是NameNode的Federation,也就是会有多个NameNode。这些 namenode之间是联合的，他们之间相互独立且不需要互相协调，各自分工，管理自己的区域。分布式的datanode被用作通用的数据块存储存储设备。每个datanode要向集群中所有的namenode注册，且周期性地向所有 namenode 发送心跳和块报告，并执行来自所有 namenode的命令。

NameNode节点之间是相互独立的联邦的关系，即它们之间不需要协调服务。
DataNode向集群中所有的NameNode注册，发送心跳和block块列表报告，处理来自NameNode的指令。
用户可以使用ViewFs创建个性化的命名空间视图，ViewFs类似于在Unix/Linux系统中的客户端挂载表。

HBase主要用ZooKeeper来实现HA选举与主备集群主节点的切换、系统容错、RootRegion管理、Region状态管理和分布式SplitWAL任务管理,所以我们必须要配置ZoopKeeper集群。
1.1.3.1 集群配置准备工作
我们这里使用3.4.10，选择与hadoop相对应的zookeeper版本，下载网址：https://archive.apache.org/dist/zookeeper/zookeeper-3.4.10/
在hadoop1、hadoop2和hadoop3三个节点上部署Zookeeper。

# 解压Zookeeper安装包到/opt/app/目录下
    tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/app/

# 在/opt/app/zookeeper-3.4.10/这个目录下创建zkData
    mkdir -p zkData

1.1.3.2配置文件

配置zoo.cfg文件

重命名/opt/app/zookeeper-3.4.10/conf这个目录下的zoo_sample.cfg为zoo.cfg

mv zoo_sample.cfg zoo.cfg

# The number of milliseconds of each tick
    # 通信心跳数，服务器心跳时间，单位毫秒
    tickTime=2000
    # The number of ticks that the initial
    # synchronization phase can take
    #  initLimit：LF初始通信时限
    initLimit=10
    # The number of ticks that can pass between
    # sending a request and getting an acknowledgement
    # 同步通信时限
    syncLimit=5
    # the directory where the snapshot is stored.
    # do not use /tmp for storage, /tmp here is just
    # example sakes.
    #安装数据目录,最好不要用默认值
    dataDir=/opt/app/zookeeper/zkData
    # the port at which the clients will connect
    #默认客户端端口号
    clientPort=2181

        #######################集群配置##########################

        server.1=hadoop1:2888:3888

        server.2=hadoop2:2888:3888

        server.3=hadoop3:2888:3888

参数解读
Server.A=B:C:D。A:是一个数字，表示这个是第几号服务器；B:是这个服务器的IP地址；C:是这个服务器与集群中的Leader服务器交换信息的端口；D:是万一集群中的Leader服务器挂了，需要一个端口来重新进行选举，选出一个新的Leader，而这个端口就是用来执行选举时服务器相互通信的端口。集群模式下配置一个文件myid，这个文件在dataDir目录下，这个文件里面有一个数据就是A的值，Zookeeper启动时读取此文件，拿到里面的数据与zoo.cfg里面的配置信息比较从而判断到底是哪个server。
配置myid
在/opt/app/zookeeper-3.4.10/zkData目录下创建一个myid的文件,在文件中添加与server对应的编号：如1

echo "1" > myid

1.1.3.1 拷贝和启动

scp -r zookeeper-3.4.10/ root@hadoop2:/opt/app/
    
scp -r zookeeper-3.4.10/ root@hadoop3:/opt/app/
    
# 并分别修改myid文件中内容为2、3

[root@hadoop1 zookeeper-3.4.10]# bin/zkServer.sh start

[root@hadoop2 zookeeper-3.4.10]# bin/zkServer.sh start

[root@hadoop3 zookeeper-3.4.10]# bin/zkServer.sh start

使用命令后，只要所有结果里面出现一个leader多个follower就表示集群基本成功

bin/zkServer.sh status

scp -r zookeeper-3.4.10/ hadoop@hadoop3:/opt/app/

2.6 Hadoop集群节点规划

在前面课程中，我们知道Hadoop集群中有Namenode，SecondaryNameNode，DataNode各个角色，这里我们需要搭建Hadoop集群，在我们现有Linux集群中节点对应角色划分如下：

节点	NN	DN	ZK	ZKFC	JN
mynode1	★	★	★	★	★
mynode2	★	★	★	★	★
mynode3		★	★		★

2.7 修改的windows上的hosts映射

找到这个路径下C:\Windows\System32\drivers\etc的hosts，打开，添加如
下映射：

192.168.179.13 hadoop1
192.168.179.14 hadoop2
192.168.179.15 hadoop3

添加的目的是为了以后要在浏览器中查看HDFS中的数据信息，需要通过IP地址加上端口进行访问，添加完成之后我们可以直接通过节点名称和端口进行访问。(这一步不配，就直接使用ip地址)

2.8 三台机器拍摄快照

快照名称为zookeeper完成。为什么要拍摄快照，因为以后我们搭建HDFS HA的时候要使用快照，在关键位置快照，可以省下很多问题

3 搭建详细步骤

3.1 下载Hadoop安装包

我们安装Hadoop2.7.2，此版本目前是比较稳定的版本，搭建HDFS集群前，首先需要在官网下载安装包，地址如下：https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/，进入到网站之后，选择二进制的下载。

下载完成安装包后，上传到hadoop1节点的/opt/app目录下

3.2 解压安装

将下载好的安装包上传到/opt/app目录下，并解压

cd /opt/app

tar -zxvf ./hadoop-2.7.2.tar.gz

3.3 配置Hadoop环境变量

解压完成之后，配置Hadoop的环境变量，方便后期操作HDFS。

[root@hadoop1 app]# vim /etc/profile

export HADOOP_HOME=/opt/app/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

使配置生效

source /etc/profile

#完成之后输入hd 然后按一下tab，如下图说明配置成功

3.4 配置hadoop-env.sh

由于通过SSH远程启动进程的时候默认不会加载/etc/profile设置，JAVA_HOME变量就加载不到，而Hadoop启动需要读取到JAVA_HOME信息，所有这里需要手动指定。在对应的$HADOOP_HOME/etc/hadoop路径中，找到hadoop-env.sh文件加入以下配置（大概在54行有默认注释配置的JAVA_HOME）:

export JAVA_HOME=/opt/app/java/jdk1.8.0_181-amd64/

3.5 配置

3.5 配置slaves指定datanode的位置

进入 $HADOOP_HOME/etc/hadoop路径下，修改slaves配置文件，(3.0之后的hadoop此文件改名为wroks)删掉localhost并加入以下内容：

hadoop1
hadoop2
hadoop3

3.6 配置hdfs-site.xml

进入 $HADOOP_HOME/etc/hadoop路径下，修改hdfs-site.xml文件，指定NN1，NN2的位置：

<configuration>
  <property>
    <name>dfs.nameservicesname>
    <value>myclustervalue>
  property>

  
  <property>
    <name>dfs.ha.namenodes.myclustername>
    <value>nn1,nn2value>
  property>

  
  <property>
    <name>dfs.namenode.rpc-address.mycluster.nn1name>
    <value>hadoop1:9000value>
  property>

  
  <property>
    <name>dfs.namenode.rpc-address.mycluster.nn2name>
    <value>hadoop2:9000value>
  property>

  
  <property>
    <name>dfs.namenode.http-address.mycluster.nn1name>
    <value>hadoop1:50070value>
  property>

  
  <property>
    <name>dfs.namenode.http-address.mycluster.nn2name>
    <value>hadoop2:50070value>
  property>

  
  <property>
    <name>dfs.namenode.shared.edits.dirname>
    <value>qjournal://hadoop1:8485;hadoop2:8485;hadoop3:8485/myclustervalue>
  property>

  
  <property>
    <name>dfs.ha.fencing.methodsname>
    <value>sshfencevalue>
  property>

  
  <property>
    <name>dfs.ha.fencing.ssh.private-key-filesname>
    <value>/root/.ssh/id_rsavalue>
  property>

  
  <property>
    <name>dfs.journalnode.edits.dirname>
    <value>/opt/app/ha/hadoop/data/jnvalue>
  property>

  
  <property>
    <name>dfs.permissions.enablename>
    <value>falsevalue>
  property>

  
  <property>
    <name>dfs.client.failover.proxy.provider.myclustername>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvidervalue>
  property>
  <property>
    <name>dfs.ha.automatic-failover.enabledname>
    <value>truevalue>
  property>
configuration>

3.7 配置core-site.xml

进入 $HADOOP_HOME/etc/hadoop路径下，修改core-site.xml文件

<configuration>

  <property>
        <name>fs.defaultFSname>
        <value>hdfs://myclustervalue>
property>

  
<property>
        <name>hadoop.tmp.dirname>
        <value>/opt/app/ha/hadoop272/data/tmpvalue>
 property>
<property>
    <name>ha.zookeeper.quorumname>
    <value>hadoop1:2181,hadoop2:2181,hadoop3:2181value>
property>
configuration>

3.8配置yarn-site.xml

注意：Hadoop框架自身集成了很多第三方的JAR包库。Hadoop框架自身启动或者在运行用户的MapReduce等应用程序时，会优先查找Hadoop预置的JAR包。这样的话，当用户的应用程序使用的第三方库已经存在于Hadoop框架的预置目录，但是两者的版本不同时，Hadoop会优先为应用程序加载Hadoop自身预置的JAR包，这种情况的结果是往往会导致应用程序无法正常运行，使用下面的命令，获取jar包路径，添加到配置文件中

hadoop classpath

<configuration>

<!-- Site specific YARN configuration properties -->
<!-- 设置该属性通知NodeManager需要实现名为mapreduce.shuffle的辅助服务-->
 <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop2</value>
  </property>
 <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
  </property>
<property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
  </property>
<property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
  </property>
<!-- 配置日志聚集属性-->
<property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
</property>
<!-- 配置日志聚集的时间 -->
<property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
  </property>
    <!-- 指定jar路径 -->
    <property>
        <name>yarn.application.classpath</name>
        <value>/opt/app/hadoop272/etc/hadoop:/opt/app/hadoop272/share/hadoop/common/lib/*:/opt/app/hadoop272/share/hadoop/common/*:/opt/app/hadoop272/share/hadoop/hdfs:/opt/app/hadoop272/share/hadoop/hdfs/lib/*:/opt/app/hadoop272/share/hadoop/hdfs/*:/opt/app/hadoop272/share/hadoop/yarn/lib/*:/opt/app/hadoop272/share/hadoop/yarn/*:/opt/app/hadoop272/share/hadoop/mapreduce/lib/*:/opt/app/hadoop272/share/hadoop/mapreduce/*:/opt/app/hadoop272/contrib/capacity-scheduler/*.jar

3.9配置mapred-site.xml

进入 $HADOOP_HOME/etc/hadoop路径下cp一份mapred-site.xml.template为mapred-site.xml

cp mapred-site.xml.template mapred-site.xml

<configuration>
<!-- 配置MapReduce的计算框架,可以是local,classic,yarn,如果不配置,默认是local -->
  <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
<!-- 配置历史服务器的地址 -->
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>192.168.81.140:10020</value>
    </property>
</configuration>

3.10 配置start-dfs.sh&stop-dfs.sh(这一步可以省略)

进入到/opt/app/hadoop-2.7.2/sbin/文件夹下，有一个start-all.sh文件，可以启动所有节点，实际上调用了start-dfs.sh。下面是配置操作各个不同节点角色的用户。

vim /opt/app/hadoop-2.7.2/sbin/start-dfs.sh

vim /opt/app/hadoop-2.7.2/sbin/stop-dfs.sh

HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

3.11 发送安装包到其他节点

直接使用命令发送到其他节点

scp -r ./hadoop-2.7.2 hadoop2:/opt/app

scp -r ./hadoop-2.7.2 hadoop3:/opt/app

将安装包发送到hadoop2-hadoop3每台节点上，这里由于Hadoop安装包文件比较多，如果直接发送时间较长，这里可以先将之打成压缩包：

[root@hadoop1 app]# tar -zcvf hadoop-2.7.2-config.tar.gz hadoop-2.7.2/

将/opt/app/hadoop-2.7.2-config.tar.gz 使用以下命令发送到hadoop2、hadoop3的对应目录中:

scp ./hadoop-2.7.2-config.tar.gz hadoop2:`pwd`

scp ./hadoop-2.7.2-config.tar.gz hadoop3:`pwd`

hadoop2、hadoop3分别解压，并分别在各个节点上配置Hadoop环境变量,直接复制粘贴hadoop1中的hadoop配置即可。

tar -zxvf hadoop-2.7.2-config.tar.gz

3.13 格式化并启动集群

注意:如果是安装的mini版本的centos,里面会缺一个fuser的命令,错误可以在logs/hadoop-root-zkfc-s1.log发现下面的错误:PATH=$PATH:/sbin:/usr/sbin fuser -v -k -n tcp 9000 via ssh: bash: fuser: command not found
在三台机上面要安装这个fuser命令即可，如下

yum install -y psmisc

注意：如果是二次格式化，要删除hadoop2.7.2文件下的data和logs文件，防止脏数据导致namenode和datanode id不匹配。如果为第一次格式化，那么则不需要做此步操作

rm -r data logs

在各个JournalNode节点上，输入以下命令启动journalnode服务

sbin/hadoop-daemon.sh start journalnode

格式化，可以在格式化的时候创建集群号，很多配置的路径会自动创建，在hadoop1上执行如下命令：

hdfs namenode -format

在hadoop1节点上执行如下命令启动namenode：

sbin/hadoop-daemon.sh start namenode

在[nn2]上，同步nn1的元数据信息

bin/hdfs namenode -bootstrapStandby

启动[nn2]

sbin/hadoop-daemon.sh start namenode

启动所有datanode

sbin/hadoop-daemons.sh start datanode

3.14 开启故障自动转移

关闭所有HDFS服务：

sbin/stop-dfs.sh

分别启动Zookeeper集群：

bin/zkServer.sh start

初始化HA在Zookeeper中状态：

bin/hdfs zkfc -formatZK

启动HDFS服务：

sbin/start-dfs.sh

启动yarn服务:

sbin/start-yarn.sh

3.15 HDFS HA 测试

测试HDFS HA 可以直接将对应的active NameNode节点的NameNode进程杀掉，观察Standby NameNode节点状态会自动切换成Active状态，说明NameNode HA 没有问题，否则就需要查看各个NameNode节点$HADOOP_HOME/logs目录下对应的进行日志解决问题。
1，查看NN1和NN2那个为Active

bin/hdfs haadmin -getServiceState nn1

bin/hdfs haadmin -getServiceState nn2

2，将Active NameNode进程kill

kill -9 namenode的进程id

然后就会看到standby的状态的namenode状态变为Active

3.16 HDFS启动脚本和停止脚本编写

每次启动HDFS集群需要首先去各个zookeeper节点上启动zookeeper，然后再去namenode节点上启动HDFS集群，关闭集群时也是一样，先在namenode节点上停止HDFS集群，然后去zookeeper每台节点上关闭zookeeper。为了操作方便我们可以编写HDFS启动脚本和HDFS关闭脚本来方便以上操作。
打印节点环境变量:

echo $PATH

在hadoop1节点/root下创建bin目录，在此目录下编写启动和关闭HDFS集群脚本。

mkdir -p /root/bin

HDFS 集群启动脚本如下：

#!/bin/bash
for zknode in hadoop1 hadoop2 hadoop3
do
    ssh $zknode "source /etc/profile;zkServer.sh start"
done

sleep 1

start-dfs.sh
sleep 1

echo "=====hadoop1 jps====="
jps

for other_node in hadoop2 hadoop3
do
   echo "=====$other_node jps====="
   ssh $other_node "source /etc/profile;jps"
done

HDFS集群关闭脚本如下：

#!/bin/bash
stop-dfs.sh
sleep 1

for zknode in hadoop1 hadoop2 hadoop3
do
    ssh $zknode "source /etc/profile;zkServer.sh stop"
done

echo "=====hadoop1 jps====="
jps

for other_node in hadoop1 hadoop3
do
   echo "=====$other_node jps====="
   ssh $other_node "source /etc/profile;jps"
done

建议初学者按照原始方式来启动关闭集群，可以加深HDFS原理的理解。

4 Hadoop 3.x 新特性【了解内容】

将默认的最低jdk从7升级到8。
纠删码可以将3倍副本占据的空间压缩到1.5倍，并保持3倍副本的容错。由于在读取数据的时候需要进行额外的计算，用于存储使用不频繁的数据
通过扩展YARN的资源类型，支持CPU和内存之外的其他资源，如GPU、FPGA、软件许可证、本地存储等。
重写了hadoop中的shell脚本，修复了很多长期存在的bug并添加了新特性。有一些改进兼容老版本，有一些不兼容。
对map阶段的输出收集器增加了本地实现，对于洗牌密集型工作，可以提高30%以上的性能。
hadoop2.x中NameNode的HA包含一个active的NameNode和一个Standby的NameNode。解决了系统中NameNode的单点故障问题。在hadoop3中允许多个standby状态的NameNode以达到更高级别容错的目的。
以前，多个Hadoop服务的默认端口位于Linux临时端口范围（32768-61000）。这意味着在启动时，由于与另一个应用程序的冲突，服务有时无法绑定到端口。这些冲突的端口已移出临时范围，影响NameNode，Secondary NameNode，DataNode和KMS。
Hadoop现在支持与Microsoft Azure Data Lake和Aliyun对象存储系统的集成，作为替代Hadoop兼容的文件系统。
单个DataNode管理多个磁盘。在正常写入操作期间，磁盘将被均匀填充。但是，添加或替换磁盘可能会导致DataNode内的严重数据偏斜。旧的HDFS平衡器不能处理，旧的HDFS平衡器处理DN之间而非内部的数据偏斜。
对Hadoop守护进程以及MapReduce任务的堆管理做了一系列更改。现在可以根据主机的内存大小进行自动调整，并且不推荐使用HADOOP_HEAPSIZE变量。简化了map和reduce任务堆空间的配置，在任务中不再需要以java选项的方式进行指定。
为Amazon S3存储的S3A客户端添加了一个可选功能：能够将DynamoDB表用于文件和目录元数据的快速一致存储。
HDFS基于路由器的联邦添加了一个RPC路由层，该层提供多个HDFS命名空间的联合视图。这与现有的ViewFs和HDFS联合功能类似，不同之处在于安装表由路由层而不是客户端在服务器端进行管理，简化了对现有HDFS客户端对联邦群集的访问。

你可能感兴趣的:(hadoop,大数据)

Angular中`trackBy`函数的独特性与性能优化 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在Angular项目中，优化性能是每一个开发者都需要考虑的问题。特别是在处理大数据量或动态变化的列表时，Angular的trackBy函数成为了我们手中的利器。然而，当我们面对多个列表使用相同trackBy函数时，可能会产生一些疑问：如果这些列表中的项有相同的ID，是否会影响Angular的变更检测？本文将详细探讨trackBy函数在这种情境下的表现及其带来的性能优化。trackBy函数简介tra
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
人民日报报道，华为云赋能智能制造助力图扑软件构造数字孪生场景智慧园区华为人工智能物联网
2021年12月22日，《人民日报》头版头条刊登了《华为云赋能智能制造，助力图扑软件构造数字孪生场景》一文，聚焦数据可视化建设发展。报道指出，数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神;高效便捷管控的背后，是云端平台各大企业的互助共赢;高质精准2D、3D数据可视图的背后，是专注于数据可视化Web组态开发的厦门图扑软件科技有限公司。并对厦门图扑软件科技有限公司进
华为云赋能智能制造，助力图扑软件构造数字孪生场景 36Kr网科技华为云制造 big data
出行手机查看交通方案、物业管理的智能可视勘察管控、疫情地图提前预知危害……这些曾经存在于科幻片中的高科技场景一一在现代生活得到了应用与普及，其背后的数据可视化应用，正贯穿于当今大数据时代的各行各业，成为人们洞察数据内涵的有力工具，推动数字经济发展驶入“快车道”。数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神；高效便捷管控的背后，是云端平台各大企业的互助共赢；高质精
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】待磨的钝刨 linux bash windows
文章目录报错原因：解决办法：方法一：用`dos2unix`修复方法二：手动转换换行符方法三：VSCode或其他编辑器手动改总结这个错误很常见，原因是你的wait_for_gpu.sh脚本文件格式不对，具体来说是Windows的CRLF换行符问题导致的，Linux下的bash无法正常解析。hadoop@hadoop:~/anaconda3$bashwait_for_gpu.sh:invalidopt
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
【Hive】-- hive 3.1.3 伪分布式部署（单节点） oo寻梦in记 Apache Paimon 大数据服务部署 hive 分布式 hadoop
1、环境准备1.1、版本选择apachehive3.1.3apachehadoop3.1.0oraclejdk1.8mysql8.0.15操作系统：Macos10.151.2、软件下载https://archive.apache.org/dist/hive/https://archive.apache.org/dist/hadoop/1.3、解压tar-zxvfapache-hive-4.0.0-
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
【Linux】Hadoop-3.4.1的伪分布式集群的初步配置孤独打铁匠Julian Linux linux hadoop ubuntu
配置步骤一、检查环境JDK#目前还是JDK8最适合Hadoopjava-versionecho$JAVA_HOMEHadoophadoopversionecho$HADOOP_HOME二、配置SSH免密登录Hadoop需要通过SSH管理节点（即使在伪分布式模式下）sudoaptinstallopenssh-server#安装SSH服务（如未安装）cd~/.ssh/ssh-keygen-trsa#生
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
MySQL 到 Hadoop：Sqoop 数据迁移 ETL Ice星空 ETL
文章目录ETL：Extract-Transform-Load数据迁移过程一、Extract数据抽取1.ODS：OperationalDataStore-可操作数据存储2.DW：DataWarehouse-数据仓库3.DM：DataMart-数据集市二、Transform数据清洗和转换1.数据清洗2.数据转换三、Load数据加载四、数据迁移方法1.Sqoop1.1MySQL->Hive1.1.1im
HBase安装 lianhedaxue Hadoop hbase
HBase安装本章将介绍如何安装HBase和初始配置。需要用Java和Hadoop来处理HBase，所以必须下载java和Hadoop并安装系统中。安装前设置安装Hadoop在Linux环境下之前，需要建立和使用LinuxSSH(安全Shell)。按照下面设立Linux环境提供的步骤。创建一个用户首先，建议从Unix创建一个单独的Hadoop用户，文件系统隔离Hadoop文件系统。按照下面给出创建
HBase的架构介绍，安装及简单操作 pk_xz123456 大数据 hbase 架构数据库
一、HBase安装1.环境准备Java环境：确保系统中已经安装了Java8或更高版本。可以通过在命令行中输入java-version来检查Java版本。Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。2.下载HBase从HBase官方网站（https://hbase.apache.org/）下载适
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持（146）青云交大数据新视界 Java 大视界 java 大数据智能医疗远程会诊专家协作数据安全病例诊断
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep