浮生(FS)

hadoop1.2.1+zookeeper-3.4.5+hbase-0.94.1集群安装

　　一，环境:

　　1，主机规划：

　　集群中包括3个节点：hadoop01为Master，其余为Salve，节点之间局域网连接，可以相互ping通。

机器名称	IP地址
hadoop01	192.168.1.31
hadoop02	192.168.1.32
hadoop03	192.168.1.33

　　三个节点上均是CentOS6.3 x86_64系统，并且有一个相同的用户hadoop。hadoop01做为master配置NameNode和JobTracker的角色，负责总管分布式数据和分解任务的执行；另外两台配置DataNode和TaskTracker的角色，负责分布式数据存储以及任务的执行。安装目录统一为/usr/local下

　　2，软件版本：

　　hadoop-1.2.1.tar.gz，jdk-7u25-linux-x64.rpm

　　二，准备工作，三台机器都需要做，将三台机器selinux，iptables停用。

　　1，安装jdk

　　[root@hadoop01 ~]# rpm -ivh jdk-7u25-linux-x64.rpm

　　[root@hadoop01 ~]# cd /usr/java/

　　[root@hadoop01 java]# ls

　　default jdk1.7.0_25 latest

　　[root@hadoop01 java]# ln -s jdk1.7.0_25 jdk

　　[root@hadoop01 java]# vim /etc/profile

　　[root@hadoop01 java]# source /etc/profile让其java命令立即生效

　　[root@hadoop01 java]# java 执行java命令，如果能正常执行就表示java安装完成

　　2，添加一个hadoop用户，用来运行hadoop集群

　　3，做三台机器之间做双机互信，原因master通过远程启动datanode进程和tasktracker进程，如果不做双机互信，会导致每次启动集群服务都会需要密码

　　[root@hadoop01 ~]# vim /etc/hosts

　　将hosts文件分别复制到另外两台。

　　4，切换到hadoop用户，对其用做双机互信，先在三台机器先执行ssh-keygen生成公钥与私钥。

　　将公钥复制到别的机器，需要对hadoop01，hadoop03，都做相同的动作。

　　[hadoop@hadoop02 ~]$ ssh-copy-id -i hadoop01

　　[hadoop@hadoop03 ~]$ ssh-copy-id -i hadoop01

　　5，同步时间，三台机器启用ntpd服务，另外两台执行相同的操作

　　[root@hadoop01 ~]# crontab -e

　　*/5 * * * * /usr/sbin/ntpdate ntp.api.bz &> /dev/null

　　三，配置master，也就hadoop01

　　[root@hadoop01 ~]# tar xf hadoop-1.2.1.tar.gz -C /usr/local/

　　[root@hadoop01 ~]# chown -R hadoop:hadoop /usr/local/hadoop-1.2.1

　　[root@hadoop01 ~]# su - hadoop

　　[hadoop@hadoop01 ~]$ cd /usr/local/hadoop-1.2.1/

　　(1)Hadoop的配置文件都存储在conf下，配置文件解释

　　hadoop-env.sh:用于定义hadoop运行环境相关的配置信息，比如配置JAVA_HOME环境变量、为hadoop的JVM指定特定的选项、指定日志文件所在的目录路径以及master和slave文件的位置等；

　　core-site.xml: 用于定义系统级别的参数，它作用于全部进程及客户端，如HDFS URL、Hadoop的临时目录以及用于rack-aware集群中的配置文件的配置等，此中的参数定义会覆盖core-default.xml文件中的默认配置；

　　hdfs-site.xml: HDFS的相关设定，如文件副本的个数、块大小及是否使用强制权限等，此中的参数定义会覆盖hdfs-default.xml文件中的默认配置；

　　mapred-site.xml：mapreduce的相关设定，如reduce任务的默认个数、任务所能够使用内存的默认上下限等，此中的参数定义会覆盖mapred-default.xml文件中的默认配置；

　　masters: hadoop的secondary-masters主机列表，当启动Hadoop时，其会在当前主机上启动NameNode和JobTracker，然后通过SSH连接此文件中的主机以作为备用NameNode;

　　slaves：Hadoop集群的slave(datanode)和tasktracker的主机列表，master启动时会通过SSH连接至此列表中的所有主机并为其启动DataNode和taskTracker进程；

　　Hadoop-metrics2.properties:控制metrics在hadoop上如何发布属性

　　Log4j.properties：系统日志文件、namenode审计日志、tarsktracker子进程的任务日志属性

　　(2)修改hadoop-env.sh

　　[hadoop@hadoop01 hadoop-1.2.1]$ vim conf/hadoop-env.sh

　　(3)修改core-site.xml

　　[hadoop@hadoop01 hadoop-1.2.1]$ vim conf/core-site.xml

　　 hadoop.tmp.dir

　　 /data/hadoop/tmp

　　 fs.default.name

　　 hdfs://hadoop01:9000

　　hadoop.tmp.dir属性用于定义Hadoop的临时目录，其默认为/tmp/hadoop-${username}。HDFS进程的许多目录默认都在此目录中，/hadoop/tmp目录，需要注意的是，要保证运行Hadoop进程的用户对其具有全部访问权限。

　　fs.default.name属性用于定义HDFS的名称节点和其默认的文件系统，其值是一个URI，即NameNode的RPC服务器监听的地址(可以是主机名)和端口(默认为8020)。其默认值为file:///，即本地文件系统。

　　(4)修改hdfs-site.xml文件

　　[hadoop@hadoop01 hadoop-1.2.1]$ vim conf/hdfs-site.xml

　　 dfs.data.dir

　　 /data/hadoop/data

　　 dfs.replication

　　dfs.name.dir属性定义的HDFS元数据持久存储路径,默认为${hadoop.tmp.dir}/dfs/name

　　dfs.replication属性定义保存副本的数量，默认是保存3份,由于这里只有两台slave。所以设置2。

　　(5)修改mapred-site.xml文件

　　[hadoop@hadoop01 hadoop-1.2.1]$ vim conf/mapred-site.xml

　　 mapred.job.tracker

　　 http://hadoop01:9001

　　（6）编辑masters文件

　　masters用于指定，辅助名称节点(SecondaryNameNode)的主机名或主机地址

　　[hadoop@hadoop01 hadoop-1.2.1]$ vim conf/masters

　　hadoop01

　　(7)编辑slaves文件，这个文件只需在master主机上编辑就行

　　用于指定各从服务器(TaskTracker或DataNode)的主机名或主机地址

　　hadoop02

　　hadoop03

　　在三台机器上分别创建两个目录：

　　[root@hadoop01 local]# mkdir -p /hadoop/data

　　[root@hadoop01 local]# mkdir -p /hadoop/tmp

　　[root@hadoop01 local]# chown -R hadoop:hadoop /hadoop/

　　[root@hadoop02 local]# mkdir -p /hadoop/data

　　[root@hadoop02 local]# mkdir -p /hadoop/tmp

　　[root@hadoop02 local]# chown -R hadoop:hadoop /hadoop/

　　[root@hadoop03 local]# mkdir -p /hadoop/data

　　[root@hadoop03 local]# mkdir -p /hadoop/tmp

　　[root@hadoop03 local]# chown -R hadoop:hadoop /hadoop/

　　(8)配置slave：将配置的hadoop整个目录复制到hadoop02，haoop03

　　[root@hadoop01 ~]# scp -rp /usr/local/hadoop-1.2.1 hadoop02:/usr/local/

　　[root@hadoop01 ~]# scp -rp /usr/local/hadoop-1.2.1 hadoop03:/usr/local/

　　修改权限：

　　[root@hadoop02 ~]# chown -R hadoop:hadoop /usr/local/hadoop-1.2.1/

　　[root@hadoop03 ~]# chown -R hadoop:hadoop /usr/local/hadoop-1.2.1/

　　四，启动集群：

　　1、格式化名称节点

　　与普通文件系统一样，HDFS文件系统必须要先格式化，创建元数据数据结构以后才能使用。

　　[hadoop@hadoop01 hadoop-1.2.1]$ bin/hadoop namenode -format

　　如果格式化出错，一般会提示错误，就像下面，已经在提示哪个文件，第几行，根据提示检查即可。

　　[hadoop@hadoop01 ~]$ bin/start-all.sh

　　[hadoop@hadoop01 ~]$ jps查看进程是否起来。secondarynamenode，nomenode，jobtracker三个进程必须都有，才正常。

　　8549 SecondaryNameNode

　　8409 NameNode

　　8611 JobTracker

　　8986 Jps

　　或者这种方式查看集群是否正常

　　[hadoop@hadoop01 hadoop-1.2.1]$ bin/hadoop dfsadmin -report

　　Safe mode is ON

　　Configured Capacity: 37073182720 (34.53 GB)

　　Present Capacity: 32421658624 (30.2 GB)

　　DFS Remaining: 32421576704 (30.19 GB)

　　DFS Used: 81920 (80 KB)

　　DFS Used%: 0%

　　Under replicated blocks: 0

　　Blocks with corrupt replicas: 0

　　Missing blocks: 0

　　-------------------------------------------------

　　Datanodes available: 2 (2 total, 0 dead)

　　Name: 192.168.0.33:50010

　　Decommission Status : Normal

　　Configured Capacity: 18536591360 (17.26 GB)

　　DFS Used: 40960 (40 KB)

　　Non DFS Used: 2325061632 (2.17 GB)

　　DFS Remaining: 16211488768(15.1 GB)

　　DFS Used%: 0%

　　DFS Remaining%: 87.46%

　　Last contact: Sat Aug 31 22:25:13 CST 2013

　　Name: 192.168.0.32:50010

　　Decommission Status : Normal

　　Configured Capacity: 18536591360 (17.26 GB)

　　DFS Used: 40960 (40 KB)

　　Non DFS Used: 2326462464 (2.17 GB)

　　DFS Remaining: 16210087936(15.1 GB)

　　DFS Used%: 0%

　　DFS Remaining%: 87.45%

　　Last contact: Sat Aug 31 22:25:12 CST 2013

　　测试集群：

　　[hadoop@hadoop01 hadoop-1.2.1]$ bin/hadoop jar hadoop-test-1.2.1.jar DFSCIOTest -write -nrFiles 10 -filesize 1000

　　[hadoop@hadoop01 hadoop-1.2.1]$ bin/hadoop jar hadoop-test-1.2.1.jar DFSCIOTest -read -nrFiles 10 -filesize 1000

　　hadoop默认监听的端口：

　　Hadoop进程监听的地址和端口

　　Hadoop启动时会运行两个服务器进程，一个为用于Hadoop各进程之间进行通信的RPC服务器，另一个是提供了便于管理员查看Hadoop集群各进程相关信息页面的HTTP服务器。

　　用于定义各RPC服务器所监听的地址和端口的属性有如下几个:

　　fs.default.name：定义HDFS的NameNode用于提供URI所监听的地址和端口，默认端口为8020；

　　dfs.datanode.ipc.address：DataNode上RPC服务器监听的地址和端口，默认为0.0.0.0:50020；

　　mapred.job.tracker：JobTracker的PRC服务器所监听的地址和端口，默认端口为8021；

　　mapred.task.tracker.report.address：TaskTracker的RPC服务器监听的地址和端口；TaskTracker的子JVM使用此端口与TaskTracker进行通信，它仅需要监听在本地回环地址127.0.0.1上，因此可以使用任何端口；只有在当本地没有回环接口时才需要修改此属性的值；

　　除了RPC服务器之外，DataNode还会运行一个TCP/IP服务器用于数据块传输，其监听的地址和端口可以通过dfs.datanode.address属性进行定义，默认为0.0.0.0:50010。

　　可用于定义各HTTP服务器的属性有如下几个：

　　dfs.http.address：NameNode的HTTP服务器地址和端口，默认为0.0.0.0:50070；

　　dfs.secondary.http.address：SecondaryNameNode的HTTP服务器地址和端口，默认为0.0.0.0:50090；

　　mapred.job.tracker.http.addrss：JobTracker的HTTP服务器地址和端口，默认为0.0.0.0:50030；

　　dfs.datanode.http.address：DataNode的HTTP服务器地址和端口，默认为0.0.0.0:50075；

　　mapred.task.tracker.http.address：TaskTracker的HTTP服务器地址和端口，默认为0.0.0.0:50060；上述的HTTP服务器均可以通过浏览器直接访问以获取对应进程的相关信息，访问路径为http://Server_IP:Port。如namenode的相关信息：

　　四，排错思路

　　1，是否是hadoop.tmp.dir，dfs.data.dir属性，如果定义在别的目录需要在集群中所有节点都创建，并让hadoop用户能够访问

　　2，查看进程对应的端口是否有在监听。在上面配置中将namenode的端口定义9000，jobtracker定义成9001

　　[hadoop@hadoop01 hadoop-1.2.1]$ netstat -tunlp |grep 9000

　　tcp 0 0 ::ffff:192.168.0.31:9000 :::* LISTEN 22709/java

　　[hadoop@hadoop01 hadoop-1.2.1]$ netstat -tunlp |grep 9001

　　tcp 0 0 ::ffff:192.168.0.31:9001 :::* LISTEN 22924/java

　　3，查看日志，哪个服务没起来就查看对应的日志。

　　4，查看集群中所有节点的时间是不是一致。

　　5，iptable与selinux是否阻止。

　　6，/etc/hosts是否正确。

　　五，添加节点，删除节点

　　添加节点
1.修改host
和普通的datanode一样。添加namenode的ip
2.修改namenode的配置文件conf/slaves
添加新增节点的ip或host
3.在新节点的机器上，启动服务

　　[hadoop@hadoop04 hadoop]# ./bin/hadoop-daemon.sh start datanode
[hadoop@hadoop04 hadoop]# ./bin/hadoop-daemon.sh start tasktracker

　　4.均衡block

　　[hadoop@hadoop04 hadoop]# ./bin/start-balancer.sh
1）如果不balance，那么cluster会把新的数据都存放在新的node上，这样会降低mapred的工作效率
2）设置平衡阈值，默认是10%，值越低各节点越平衡，但消耗时间也更长

　　[root@slave-004 hadoop]# ./bin/start-balancer.sh -threshold 5

　　3）设置balance的带宽，默认只有1M/s

　　
dfs.balance.bandwidthPerSec
1048576

　　Specifies the maximum amount of bandwidth that each datanode
can utilize for the balancing purpose in term of
the number of bytes per second.

　　注意：
1. 必须确保slave的firewall已关闭;
2. 确保新的slave的ip已经添加到master及其他slaves的/etc/hosts中，反之也要将master及其他slave的ip添加到新的slave的/etc/hosts中

　　删除节点

　　1.集群配置
修改conf/hdfs-site.xml文件

　　
dfs.hosts.exclude
/data/soft/hadoop/conf/excludes
Names a file that contains a list of hosts that are
not permitted to connect to the namenode. The full pathname of the
file must be specified. If the value is empty, no hosts are
excluded.

2确定要下架的机器
dfs.hosts.exclude定义的文件内容为,每个需要下线的机器，一行一个。这个将阻止他们去连接Namenode。如：

　　haoop04
3.强制重新加载配置

　　[root@master hadoop]# ./bin/hadoop dfsadmin -refreshNodes

　　它会在后台进行Block块的移动
4.关闭节点
等待刚刚的操作结束后，需要下架的机器就可以安全的关闭了。

　　[root@master hadoop]# ./bin/ hadoop dfsadmin -report

　　可以查看到现在集群上连接的节点

　　正在执行Decommission，会显示：
Decommission Status : Decommission in progress
执行完毕后，会显示：
Decommission Status : Decommissioned
5.再次编辑excludes文件
一旦完成了机器下架，它们就可以从excludes文件移除了
登录要下架的机器，会发现DataNode进程没有了，但是TaskTracker依然存在，需要手工处理一下

　　六，安装zookeeper:

　　1，zookeeper概述：

　　ZooKeeper是一个分布式开源框架，提供了协调分布式应用的基本服务，它向外部应用暴露一组通用服务——分布式同步（Distributed Synchronization）、命名服务（Naming Service）、集群维护（Group Maintenance）等，简化分布式应用协调及其管理的难度，提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行，不过它的长处在于通过分布式ZooKeeper集群（一个Leader，多个Follower），基于一定的策略来保证ZooKeeper集群的稳定性和可用性，从而实现分布式应用的可靠性。

　　hadoop01为zookeeper1，hadoop02为zookeeper2，hadoop03为zookeeper3。zookeerper

　　2，下载zookeeper-3.4.4解压到/usr/local/下，并修改权限

　　# chown -R hadoop:hadoop /usr/local/zookeeper-3.4.4/

　　# The number of milliseconds of each tick

　　tickTime=2000

　　# The number of ticks that the initial

　　# synchronization phase can take

　　initLimit=10

　　# The number of ticks that can pass between

　　# sending a request and getting an acknowledgement

　　syncLimit=5

　　# the directory where the snapshot is stored.

　　# do not use /tmp for storage, /tmp here is just

　　# example sakes.

　　dataDir=/hadoop/zookeeper

　　# the port at which the clients will connect

　　clientPort=2181

　　server.1=hadoop01:28888:38888

　　server.2=hadoop02:28888:38888

　　server.3=hadoop03:28888:38888

　　# Be sure to read the maintenance section of the

　　# administrator guide before turning on autopurge.

　　# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance

　　# The number of snapshots to retain in dataDir

　　#autopurge.snapRetainCount=3

　　# Purge task interval in hours

　　# Set to "0" to disable auto purge feature

　　#autopurge.purgeInterval=1

　　注解：

　　tickTime发送心跳时间间隔，单位毫秒

　　initlimit和sysnclimit，两者都是以ticktime的总数进行度量(上面的时间为10*2000=20s)。initLimit参数设定了允许所有跟随者与领导者进行连接并同步的时间，如果在设定的时间内内，半数以上的跟随者未能完成同步，领导者便会宣布放弃领导地位，然后进行另外一次领导者选举。如果这种情况经常发生，通过查看日志中的记录发现，则表明设定的值太小。

　　syscLimit参数设定了允许一个跟随者与领导者进行同步的时间。如果在设定的时间内，一个跟随者未能完成同步，它将会自己重启，所有关联到这个跟随者的客户端将连接到另外一个跟随者。

　　datadir保存的zk中持久化的数据，zk中存在两种数据，一种用完即消失，一种需要持久存在，zk的日志也保存在这

　　[hadoop@hadoop01 ~]$ mkdir /hadoop/zookeeper/

　　[hadoop@hadoop01 ~]$ echo "1" > /hadoop/zookeerper/myid

　　将zookeeper目录分别复制到hadoop02，hadoop03，并创建/hadoop/zookeeper目录，并在其目录下创建其myid。

　　3，在对应的节点上启动服务

　　[hadoop@hadoop01 zookeeper-3.4.4]$ sh bin/zkServer.sh start

　　三个节点启动完之后，查看

　　[hadoop@hadoop01 zookeeper-3.4.4]$ jps

　　1320 NameNode

　　2064 Jps

　　1549 JobTracker

　　1467 SecondaryNameNode

　　1996 QuorumPeerMain

　　[hadoop@hadoop01 zookeeper-3.4.4]$ sh bin/zkServer.sh status 查看当前节点是否是leader

　　[hadoop@hadoop01 zookeeper-3.4.4]$ sh bin/zkServer.sh status

　　JMX enabled by default

　　Using config: /usr/local/zookeeper-3.4.4/bin/../conf/zoo.cfg

　　Mode: follower 表示是跟从

　　七，安装hbase

　　HBase集群需要依赖于一个Zookeeper ensemble。HBase集群中的所有节点以及要访问HBase

　　的客户端都需要能够访问到该Zookeeper ensemble。HBase自带了Zookeeper，但为了方便

　　其他应用程序使用Zookeeper，最好使用单独安装的Zookeeper ensemble。

　　此外，Zookeeper ensemble一般配置为奇数个节点，并且Hadoop集群、Zookeeper ensemble、

　　HBase集群是三个互相独立的集群，并不需要部署在相同的物理节点上，他们之间是通过网

　　络通信的。

　　一，下载hbase-0.94.1 ，并解压到/usr/local下，hbase的版本需要与hadoop对应，查看是否对应只需要看hbase-0.94.1/lib/hadoop-core后面的版本号是否与hadoop的版本对应，如果不对应，可以将hadoop下hadoop-core文件复制过来，但是不能保证不会有问题

　　[hadoop@master hbase-0.94.12]$ vim conf/hbase-env.sh

　　export JAVA_HOME=/usr/java/jdk

　　export HBASE_CLASSPATH=/usr/local/hadoop-1.0.4/conf

　　export HBASE_MANAGES_ZK=false

　　export HBASE_HEAPSIZE=2048

　　tips:

　　其中，HBASE_CLASSPATH指向存放有Hadoop配置文件的目录，这样HBase可以找到HDFS

　　的配置信息，由于本文Hadoop和HBase部署在相同的物理节点，所以就指向了Hadoop安

　　装路径下的conf目录。HBASE_HEAPSIZE单位为MB，可以根据需要和实际剩余内存设置，

　　默认为1000。HBASE_MANAGES_ZK=false指示HBase使用已有的Zookeeper而不是自带的。

　　[root@hadoop01 ~]# source /etc/profile

　　在hbase-094.1/src/main/resources/hbasse-default.xml可以将这个文件复制到conf目录下，进行修改

　　[hadoop@hadoop01 hbase-0.94.1]$ vim conf/hbase-site.xml

　　 hbase.rootdir

　　 hdfs://hadoop01:9000/hbase

　　 The directory shared by region servers.

　　 hbase.hregion.max.filesize

　　 1073741824

　　 Maximum HStoreFile size. If any one of a column families' HStoreFiles has

　　 grown to exceed this value, the hosting HRegion is split in two.

　　 Default: 256M.

　　 hbase.hregion.memstore.flush.size

　　 134217728

　　 Memstore will be flushed to disk if size of the memstore

　　 exceeds this number of bytes. Value is checked by a thread that runs

　　 every hbase.server.thread.wakefrequency.

　　 hbase.cluster.distributed

　　 true

　　 The mode the cluster will be in. Possible values are

　　 false: standalone and pseudo-distributed setups with managed Zookeeper

　　 true: fully-distributed with unmanaged Zookeeper Quorum (see hbase-env.sh)

　　 hbase.zookeeper.property.clientPort

　　 2181

　　 Property from ZooKeeper's config zoo.cfg.

　　 The port at which the clients will connect.

　　 zookeeper.session.timeout

　　 120000

　　 hbase.zookeeper.property.tickTime

　　 6000

　　 hbase.zookeeper.quorum

　　 hadoop01,hadoop02,hadoop03

　　 Comma separated list of servers in the ZooKeeper Quorum.

　　 For example, "host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".

　　 By default this is set to localhost for local and pseudo-distributed modes

　　 of operation. For a fully-distributed setup, this should be set to a full

　　 list of ZooKeeper quorum servers. If HBASE_MANAGES_ZK is set in hbase-env.sh

　　 this is the list of servers which we will start/stop ZooKeeper on.

　　 hbase.tmp.dir

　　 /hadoop/hbase

　　注释：

　　1，hbase.rootdir：hbase所使用的文件系统为HDFS，根目录为hdfs://node0:9000/hbase，该目录应该由HBase自动创建，只需要指定到正确的HDFS NameNode上即可。

　　2，hbase.hregion.max.filesize：设置HStoreFile的大小，当大于这个数时，就会split 成两个文件

　　3，hbase.hregion.memstore.flush.size：设置memstore的大小，当大于这个值时，写入磁盘

　　4，hbase.cluster.distributed：指定hbase为分布式模式

　　5，hbase.zookeeper.property.clientPort：指定zk的连接端口

　　6，zookeeper.session.timeout：RegionServer与Zookeeper间的连接超时时间。当超时时间到后，ReigonServer会被Zookeeper从RS集群清单中移除，HMaster收到移除通知后，会对这台server负责的regions重新balance，让其他存活的RegionServer接管.

　　7，hbase.zookeeper.property.tickTime：

　　8，hbase.zookeeper.quorum：默认值是 localhost，列出zookeepr的ensemble servers

　　9，hbase.regionserver.handler.count：
默认值：10
说明：RegionServer的请求处理IO线程数。
调优：
这个参数的调优与内存息息相关。
较少的IO线程，适用于处理单次请求内存消耗较高的Big PUT场景（大容量单次PUT或设置了较大cache的scan，均属于Big PUT）或ReigonServer的内存比较紧张的场景。
较多的IO线程，适用于单次请求内存消耗低，TPS要求非常高的场景。设置该值的时候，以监控内存为主要参考。
这里需要注意的是如果server的region数量很少，大量的请求都落在一个region上，因快速充满memstore触发flush导致的读写锁会影响全局TPS，不是IO线程数越高越好。
压测时，开启Enabling RPC-level logging，可以同时监控每次请求的内存消耗和GC的状况，最后通过多次压测结果来合理调节IO线程数。
这里是一个案例?Hadoop and HBase Optimization for Read Intensive Search Applications，作者在SSD的机器上设置IO线程数为100，仅供参考。

　　10，hbase.tmp.dir：指定HBase将元数据存放路径

　　[hadoop@hadoop01 hbase-0.94.1]$ vim conf/regionservers 相当于hadoop的slave

　　hadoop02

　　hadoop03

　　11，启动所有hbase进程

　　[hadoop@master hbase-0.94.12]$ bin/start-hbase.sh

　　12，停止

　　[hadoop@master hbase-0.94.12]$ bin/stop-hbase.sh

　　13，连接hbase创建表

　　[hadoop@master hbase-0.94.12]$ bin/hbase shell

　　HBase Shell; enter 'help' for list of supported commands.

　　Type "exit" to leave the HBase Shell

　　Version 0.94.12, r1524863, Fri Sep 20 04:44:41 UTC 2013

　　hbase(main):001:0>

　　14，创建一个名为 small的表，这个表只有一个 column family 为 cf。可以列出所有的表来检查创建情况，然后插入些值。

　　hbase(main):003:0> create 'small', 'cf'
0 row(s) in 1.2200 seconds
hbase(main):003:0> list
small
1 row(s) in 0.0550 seconds
hbase(main):004:0> put 'small', 'row1', 'cf:a', 'value1'
0 row(s) in 0.0560 seconds
hbase(main):005:0> put 'small', 'row2', 'cf:b', 'value2'
0 row(s) in 0.0370 seconds
hbase(main):006:0> put 'small', 'row3', 'cf:c', 'value3'
0 row(s) in 0.0450 seconds

　　15、检查插入情况.Scan这个表

　　hbase(main):005:0> scan 'small'

　　Get一行，操作如下

　　hbase(main):008:0> get 'small', 'row1'

　　disable 再 drop 这张表，可以清除你刚刚的操作

　　hbase(main):012:0> disable 'small'
0 row(s) in 1.0930 seconds
hbase(main):013:0> drop 'small'
0 row(s) in 0.0770 seconds

　　16，导出与导入

　　[hadoop@master hbase-0.94.12]$ bin/hbase org.apache.hadoop.hbase.mapreduce.Driver export small small

　　导出的表，在hadoop文件系统的当前用户目录下，small文件夹中。例如，导出后在hadoop文件系统中的目录结构：

　　[hadoop@master hadoop-1.0.4]$ bin/hadoop dfs -ls

　　Found 1 items

　　drwxr-xr-x - hadoop supergroup 0 2013-10-22 10:44 /user/hadoop/small

　　[hadoop@master hadoop-1.0.4]$ bin/hadoop dfs -ls ./small

　　Found 3 items

　　-rw-r--r-- 2 hadoop supergroup 0 2013-10-22 10:44 /user/hadoop/small/_SUCCESS

　　drwxr-xr-x - hadoop supergroup 0 2013-10-22 10:44 /user/hadoop/small/_logs

　　-rw-r--r-- 2 hadoop supergroup 285 2013-10-22 10:44 /user/hadoop/small/part-m-00000

　　2.把这个表导入到另外一台集群中hbase中时，需要把part-m-00000先put到另外hadoop中，假设put的路径也是：

　　/user/hadoop/small/

　　而且，这个要导入的hbase要已经建有相同第表格。

　　那么从hadoop中导入数据到hbase：

　　#hbase org.apache.hadoop.hbase.mapreduce.Driver import small part-m-00000

　　这样，没有意外的话就能正常把hbase数据导入到另外一个hbase数据库。

　　17.Web UI

　　用于访问和监控Hadoop系统运行状态

	Daemon	缺省端口	配置参数
HDFS	Namenode	50070	dfs.http.address
	Datanodes	50075	dfs.datanode.http.address
	Secondarynamenode	50090	dfs.secondary.http.address
	Backup/Checkpoint node*	50105	dfs.backup.http.address
MR	Jobracker	50030	mapred.job.tracker.http.address
MR	Tasktrackers	50060	mapred.task.tracker.http.address
HBase	HMaster	60010	hbase.master.info.port
HBase	HRegionServer	60030	hbase.regionserver.info.port

　　本文出自 “smalldeng” 博客，请务必保留此出处http://smalldeng.blog.51cto.com/1038075/1329290

Facebook谈大数据：光有Hadoop还不够
Teradata称Hadoop对其数据仓库业务影响不大
Cloudera拟将Hadoop打造为万能数据解决方案
Hadoop虚拟化的性能对比和调优经验

　　【责任编辑：王程程 TEL：（010）68476606】

　　原文： hadoop1.2.1+zookeeper-3.4.5+hbase-0.94.1集群安装 返回云计算首页

你可能感兴趣的:(hadoop+Hbase,hadoop集群,分布式应用,zookeeper,hbase)

k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
Apache Dubbo实战：JavaSDK使用秃了也弱了。 Dubbo apache dubbo
文章目录一、写在前面二、基于zookeeper：快速创建dubbo应用1、maven包（客户端+服务端）（注意spring版本）2、application.yml配置文件（客户端+服务端）3、定义公共接口4、启动类添加注解@EnableDubbo5、服务端6、客户端7、启动试试吧8、拓展：使用JavaConfig代替注解三、拓展配置1、注册中心2、版本与分组3、传递调用参数4、泛化调用5、泛化实现
Kafka系列之：安装具有安全认证的kafka-2.8.2分布式集群快乐骑行^_^ 大数据 Kafka系列安全认证 kafka-2.8.2 分布式集群
Kafka系列之：安装具有安全认证的kafka-2.8.2分布式集群一、下载Zookeeper3.7.1和Kafka2.8.2二、解压Zookeeper3.7.1和Kafka2.8.2三、安装Zookeeper3.7.1详细步骤1.修改zookeeper配置文件2.创建zookeeper数据目录3.zookeeper创建myid4.设置zookeeper访问kafka认证5.拷贝zookeeper
千亿级消息引擎 Apache Pulsar 深度剖析：架构原理、设计哲学与实战实践北漂老男人 Pulsar apache 架构学习方法运维
千亿级消息引擎ApachePulsar深度剖析：架构原理、设计哲学与实战实践Pulsar不止是消息队列，更是下一代云原生流平台。本文将深入剖析其底层架构、核心特性、关键差异、源码细节、调优技巧与企业级实践路径，力求做到“知其然，知其所以然”。一、架构哲学：分层解耦+IO隔离1.1三层架构模型（Broker+BookKeeper+ZooKeeper）Pulsar基于分布式系统经典设计范式：计算与存储
ftp文件服务器有连接数限制,查看ftp服务器连接数命令赵承铭 ftp文件服务器有连接数限制
查看ftp服务器连接数命令内容精选换一换本章节适用于MRS3.x之前版本。Loader支持以下多种连接，每种连接的配置介绍可根据本章节内容了解。obs-connectorgeneric-jdbc-connectorftp-connector或sftp-connectorhbase-connector、hdfs-connector或hive-connectorOBS连接是Loa“数据导入”章节适用于
服务注册和发现组件的详细对比与选型建议（详细版）古龙飞扬 spring cloud spring 后端
服务注册和发现组件Eureka、Consul、ZooKeeper、Etcd和Nacos的区别与选型建议在微服务架构中，服务注册与发现是一个核心组件，它解决了服务实例的动态管理和自动发现的问题。目前，市场上存在多种服务注册与发现组件，其中Eureka、Consul、ZooKeeper、Etcd和Nacos较为常见。作为资深的软件架构师，本文将详细分析这些组件的区别，并提供选型建议。一、EurekaE
Kafka浅学文文Tao kafka java 分布式
Kafka应用场景？异步解耦流量消锋Kafka消息队列特点？Kafka吞吐量高：因为他存储数据时，磁盘顺序存储，磁盘的顺序存储速度很快。Kafka持久化消息：这些消息日志可以被重复读取和永久保留可以运行时动态扩展伸缩：Kafka是分布式系统：它以集群的方式运行，早期依赖Zookeeper对于Kafka的作用是什么？Zookeeper是分布式协调服务。Zookeeper作用：用于在Kafka集群中不
Zookeeper的典型应用场景?
大家好，我是锋哥。今天分享关于【Zookeeper的典型应用场景?】面试题。希望对大家有帮助；Zookeeper的典型应用场景?超硬核AI学习资料，现在永久免费了！Zookeeper是一个开源的分布式协调服务，它被广泛应用于需要分布式系统协调的场景。以下是Zookeeper的一些典型应用场景：1.分布式锁在分布式系统中，多个节点可能需要对共享资源进行访问，这时就需要确保访问的排他性。Zookeep
HBase总结
HBase1.HBase核心概念HBase的作用HBase主要用于存储和管理超大规模的结构化或半结构化数据（如PB级），特点包括：高扩展性：通过分布式架构横向扩展，支持数千台服务器高吞吐量：适合实时随机读写（如用户行为日志、实时分析）强一致性：保证同一行数据的原子性操作灵活的数据模型：支持动态列和稀疏存储典型应用场景：互联网公司的用户行为日志存储（如点击流数据）社交媒体的实时消息存储物联网设备时序
分布式生成 ID 策略的演进和最佳实践，含springBoot 实现（Java版本）
一、背景在单体架构中，ID通常使用数据库自增或UUID即可满足需求。但在微服务、分布式环境中，这些方式存在性能瓶颈、重复冲突、时序不全等问题。因此，分布式ID生成策略应运而生，用于确保在高并发、跨节点、异地部署的系统中，生成全局唯一、趋势递增、高性能的ID。二、演进历程单机自增ID（如数据库自增）Java原生UUID工具类生成（如雪花算法、KeyUtil等）中间件分布式协调（如Zookeeper、
【容器】优质文章分享
文章目录加速器Docker教程安装坑volumn网络配置踩坑其他dockerfiledocker-compose手册教程网络坑docker使用dockermysqldockermongoredisdocker-rabbitmqnginxtomcatnacoszookeeperelasticsearch加速器现在docker镜像站真的不好找了。阿里什么的加速目前只能给阿里自己的容器用了。且用且珍惜D
管理大数据存储的十大技巧 weixin_34238633 大数据数据库运维
在1990年，每一台应用服务器都倾向拥有直连式系统(DAS)。SAN的构建则是为了更大的规模和更高的效率提供共享的池存储。Hadoop已经逆转了这一趋势回归DAS。每一个Hadoop集群都拥有自身的——虽然是横向扩展型——直连式存储，这有助于Hadoop管理数据本地化，但也放弃了共享存储的规模和效率。如果你拥有多个实例或Hadoop发行版，那么你就将得到多个横向扩展的存储集群。而我们所遇到的最大挑
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
Kafka Controller 元数据解析与故障恢复实战指南磐基Stack专业服务团队 Kafka kafka linq 分布式
#作者：张桐瑞文章目录1生产案例：Controller选举在故障恢复中的关键作用1.1问题背景1.2核心操作原理：2Controller元数据全景：从ZooKeeper到内存的数据镜像2.1元数据核心载体：ControllerContext类2.2核心元数据深度解析1生产案例：Controller选举在故障恢复中的关键作用1.1问题背景某Kafka集群部分核心主题分区一直处于“不可用”状态，通过k
Zookeeper异常ConnectionLossException: KeeperErrorCode = ConnectionLoss for / 问题解决大全 takmehand Java java zookeeper
zookeeper报ConnectionLossException:KeeperErrorCode=ConnectionLossfor异常我的开发环境是Windows开发zookeeper客户端程序,zookeeper集群安装在本地虚拟机上centos7经过自己踩坑和查找博客,发现报此异常有三种原因一是:zookeeper服务没有启动,这是最low的错误二是:centos防火墙未关闭,导致连接不上
缺少关键的 MapReduce 框架文件
计算圆周率时提醒Hadoop集群缺少关键的MapReduce框架文件mr-framework.tar.gz在http://master:7180/cmf/services/4/status里直接安装再次运行代码：
【Note】《Kafka: The Definitive Guide》第二章 Installing Kafka：Kafka 安装与运行
《Kafka:TheDefinitiveGuide》第二章InstallingKafka：Kafka安装与运行本章核心目标是教读者如何在本地搭建Kafka，包括依赖安装、启动服务、测试运行等操作。一、Kafka的依赖与基本结构1.Kafka的核心组成Kafka并不是一个单独运行的进程，它依赖以下两个核心组件：组件作用ZooKeeperKafka用于存储元数据（如broker注册信息、control
利用已有的 PostgreSQL 和 ZooKeeper 服务，启动dolphinscheduler-standalone-server3.1.9 镜像云游大数据平台 zookeeper docker postgresql 工作流任务调度
ApacheDolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。ApacheDolphinScheduler旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。DolphinSchedule
安装Hadoop集群&入门&源码编译只年大数据 Hadoop hadoop 大数据分布式
安装Hadoop集群完全分布式先决条件准备三台机器NameStaticIPDESCbigdata102192.168.1.102DataNode、NodeManager、NameNodebigdata103192.168.1.103DataNode、NodeManager、ResourceManagerbigdata104192.168.1.104DataNode、NodeManager、Seco
Hadoop之HDFS 只年大数据 Hadoop HDFS hadoop hdfs 大数据
Hadoop之HDFSHDFS的Shell操作启动Hadoop集群（方便后续测试）[atguigu@hadoop102~]$sbin/start-dfs.sh[atguigu@hadoop102~]$sbin/start-yarn.sh-help：输出这个命令参数[atguigu@hadoop102~]$hadoopfs-helprm-ls：显示目录信息[atguigu@hadoop102~]$h
RPC--zookeeper服务提供类
ZKServiceProviderImpl实现类：下面三个属性，第一个serviceMap，key是服务名称，value是Object也就是服务对象，用于快速查找服务实例第二个registeredService，是已经注册的服务名称，防止重复注册服务第三个serviceRegistry是一个服务注册组件，负责将服务元数据写入Zookeeper接口方法：添加服务、获取服务、发布服务1、addServ
HBase 开发：使用Java操作HBase 睡觉的时候我不困 hbase java python
第1关：创建表任务描述相关知识如何使用Java连接HBase数据库HBaseConfigurationConnectionFactory创建表HBase2.X创建表编程要求测试说明任务描述本关任务：使用Java代码在HBase中创建表。相关知识为了完成本关任务，你需要掌握：1.如何使用Java连接HBase数据库，2.如何使用Java代码在HBase中创建表。如何使用Java连接HBase数据库J
头歌作业-HBase 开发：使用Java操作HBase http_lizi hbase java python
第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.h
PostgreSql、Hbase的安装月光一族吖 postgresql hbase 数据库
在CentOS8中安装PostgreSQL和HBase，以下是详细步骤，包括使用sudo权限的命令：安装PostgreSQL更新系统包在两台CentOS8上运行以下命令，确保系统是最新的：sudodnfupdate-y安装PostgreSQLCentOS8默认仓库提供PostgreSQL。你可以直接安装所需版本的PostgreSQL：sudodnfinstall-ypostgresql-serve
解决Windows下C++编译ZooKeeper时的`__imp_zookeeper_init`错误
本文还有配套的精品资源，点击获取简介：在Windows环境中使用C++编译ZooKeeper客户端库时，可能会遇到__imp_zookeeper_init错误，这通常是由于动态链接库（DLL）导入问题导致的。文章解释了如何处理这个错误，包括获取ZooKeeper开发库、配置编译器、链接ZooKeeper库、拷贝DLL文件以及正确使用API。此外，也提到了如何从源代码编译ZooKeeper，以确保所
HDFS与HBase有什么关系？ lucky_syq hdfs hbase hadoop
1、HDFS文件存储系统和HBase分布式数据库HDFS是Hadoop分布式文件系统。HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。Hbase是Hadoopdatabase，即Hadoop数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的而不是基于行的模式。
Hbase和关系型数据库、HDFS、Hive的区别别这么骄傲 hive hbase 数据库
目录1.Hbase和关系型数据库的区别2.Hbase和HDFS的区别3.Hbase和Hive的区别1.Hbase和关系型数据库的区别关系型数据库Hbase存储适合结构化数据，单机存储适合结构化和半结构数据的松散数据，分布式存储功能（1）支持ACID（2）支持join（3）使用主键PK（4）数据类型：int、varchar等（1）仅支持单行事务（2）不支持join，把数据糅合到一张大表（3）行键ro
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。