mexp

LVS调度算法初探、NAT与DR模型分析及基于DR动静分离部署Discuz

一、LVS简介

LVS即Linux Virtual Server的缩写，意思为Linux的虚拟服务器，是一个四层负载均衡技术的开源项目。

Linux内核从2.6.10版本之后就集成了LVS，之前的内核版本可以通过打补丁的方式安装。

LVS工作需要基于内核的Netfilter，其主要工作INPUT链上。

二、LVS几个重要概念

（一）负载调度算法

负载调度是实现在内核中，调度是以连接为粒度。LVS实现了10种静态算法和动态算法，如下：

静态算法：

轮叫调度（Round-Robin Scheduling）
加权轮叫调度（Weighted Round-Robin Scheduling）
源地址散列调度（Source Hashing Scheduling）
目标地址散列调度（Destination Hashing Scheduling）

动态算法：

最小连接调度（Least-Connection Scheduling）
加权最小连接调度（Weighted Least-Connection Scheduling）
最短预期延时调度（Shortest Expected Delay Scheduling）
不排队调度（Never Queue Scheduling）
基于局部性的最少链接（Locality-Based Least Connections Scheduling）
带复制的基于局部性最少链接（Locality-Based Least Connections with Replication Scheduling）

下面就以上算法做一个说明：

1、轮叫调度rr（Round-Robin Scheduling）

最为简单的调度算法，实现无状态的调度，也就是轮询。

挑选算法为i = (i + 1) mod n

不适用于服务器组中性能不一致的情况

不适用于请求服务时间较大的情况

不适用于使用session的站点

注：如果权重为0，则不调度。之后的所有算法都支持该规则。

2、加权轮叫调度wrr（Weighted Round-Robin Scheduling）

根据不同权重，分配较多的连接到权重大的服务器上。

算法在RR轮询调度的基础上，算出所有服务器权重的最大公约数，使用服务器最大权重和这个公约数求差求得一个调度权重，然后服务器自身权重大于这个调度权重的就可以被调度。

3、源地址散列调度（Source Hashing Scheduling）

它是针对请求的源IP地址的负载均衡，是一种静态映射算法。将源地址IP求hash值后，映射到一台服务器。以后该目标地址访问将始终使用该服务器。直到该服务器权重为0，或者超载的情况下，将重新调度到另一台服务器。

它将来自同一IP的请求尽可能的指向同一台服务器处理，这可以实现Session绑定效果。

算法中使用一个Hash表，使用源IP地址的Hash值作为key，value指向的服务器IP地址。

4、目标地址散列调度（Destination Hashing Scheduling）

它是针对目标IP地址的负载均衡，是一种静态映射算法。将目标地址IP求hash值后，映射到一台服务器。以后该目标地址访问将始终使用该服务器。直到该服务器权重为0，或者超载的情况下，将重新调度到另一台服务器。

在实际应用中，源地址散列调度和目标地址散列调度可以结合使用在防火墙集群中，它们可以保证整个系统的唯一出入口。

算法中使用一个Hash表，使用目标服务器IP地址的Hash值作为key，value中的值就是指向的服务器IP地址。

5、最小连接调度（Least-Connection Scheduling）

把新的连接请求分配到当前连接数最小的服务器。

调度器记录各个服务器的连接数，它很好的把负载分配到负载较少的服务器上。但是如果服务器性能有差异，性能好的服务器处理完请求后，处于TIME_WAIT状态的连接还占用这资源，也还算做连接数，所以此时负载还是会调度到性能差的服务器上。

overhead = (activeconns<<8) + inactconns，这相当于(activeconns*256) + inactconns

调度到overhead最小的服务器上。

注：算法取自ip_vs_lc_dest_overhead函数。

6、加权最小连接调度（Weighted Least-Connection Scheduling）

它是LC的超集。使用权重值后，算法调度新建连接尽可能保证已建立的连接和其权重成正比。

overhead = activeconns*50 + inactconns

load = overhead / weight

然后比较load的大小，取load最小的

注：算法取自ip_vs_wlc_schedule函数

7、最短预期延时调度（Shortest Expected Delay Scheduling）

server expected overhead = activeconns + 1

(server expected overhead) / weight

保证优先从权重大的服务器开始建立连接，+1是解决了起点公平，同时+1对权重小的SED值影响大，这也使得算法计算结果倾向选择权重大的服务器。此算法不使用非活动连接数。

注：算法取自ip_vs_sed_dest_overhead

8、不排队调度（Never Queue Scheduling）

SED算法的改进。

算法中保证，如果发现有一个空闲的服务器，就立即返回这个服务器给调度器使用。

如果存在空闲服务器，请求将不在性能最好的服务器后排队，而是被调度到空闲的服务器上。

如果不存在空闲的服务器，请求将被发送到最小期望延时的服务器上。

9、基于局部性的最少链接（Locality-Based Least Connections Scheduling）

它是针对请求报文的目标IP地址的负载均衡调度，目前主要用于Cache集群系统。

10、带复制的基于局部性最少链接（Locality-Based Least Connections with Replication Scheduling）

它也是针对目标IP地址的负载均衡，目前主要用于Cache集群系统。它与LBLC算法的不同之处是它要维护从一个目标IP地址到一组服务器的映射，而LBLC算法维护从一个目标IP地址到一台服务器的映射。

（二）LVS的实现模型

VS/NAT

基于NAT实现的虚拟服务器。

数据通过均衡器后，其数据报文中目标地址（VIP）或者端口将被映射为指定的IP地址（RIP）或端口，然后指定的IP地址或端口的服务器处理完客户请求后，返回给数据报文给均衡器，均衡器根据以前的记录，将响应报文的源地址或端口改回均衡器响应请求时的VIP或端口。

基于NAT技术，实现简单，对于客户端来说整个机器架构是透明的，这很好的隐藏了内部网络主机，同时节约了IP V4的地址。

请求报文和响应报文进出都要经过均衡器，而且均衡器还要修改报文，这势必会使得均衡器称为系统性能的瓶颈。

VS/DR

基于直接路由实现的虚拟服务器。

VS/NAT的好处显而易见，但也存在明显的瓶颈问题，响应能力有限。

如果能够将接收请求和响应请求的步骤分离，这样就能减轻均衡器的工作负担，让服务器多承担一点工作，这样整个集群的处理能力大大提升。
DR模型是在均衡器上，将请求报文中的帧首部的源MAC地址指向使用调度算法挑选出的真实服务器（Real Server）的MAC地址，通过本地非路由交换网络，交由Real Server处理并直接响应请求的客户端。

为了响应客户端，Real Server需要配置VIP地址，要阻止这个VIP的ARP广播和响应，使它在网络中不可见。只有均衡器的VIP才能对外可见。
DR模型解决了NAT模型的瓶颈问题，减轻了Director的压力，提高了虚拟服务器的并发处理能力。

由于修改的是MAC地址，所以不支持端口映射，且发送给Real Server的数据报文不能跨路由。

VS/TUN

基于IP隧道实现的虚拟服务器。

Director接收到客户请求之后，将根据调度方法选择合适的目标服务器，只不过这些目标服务器都不在同一网络中，可能是互联网的其他网络中的主机。使用IP隧道技术封装数据报文，也就是将报文封装在新的指向Real Server的IP报文中。这个IP报文层层路由后到达目标服务器后，目标服务器必须能够识别IP隧道封包并解开它，发现数据是发往自身具有的VIP的，就接收下来并直接响应客户端。

TUN模型，减轻了Director的压力，提高了负载均衡系统的吞吐量。

但相对于DR模型来说，其IP隧道开销较大，且广域网路由，在响应速度上可能要慢于DR模型。

所有通讯地址都要使用公网地址，这也是不小的成本。

VS/FULLNAT

NAT模型不太适合跨路由（笔者认为NAT可以在内网跨路由，但是内部路由配置较为复杂且不通用），这也限制其能够调度的服务器的个数，扩展能力有限。

FULLNAT将请求报文的源地址、源端口、目标地址、目标端口全部转换。是否端口映射视情况而定。

SNAT： CIP:CPORT-->DIP:DPORT

DNAT： VIP:VPORT-->RIP:RPORT

通过内网路由到目标服务器，目标服务器处理后将响应报文回传给Director。Director再做一次地址转换后，将数据报文发回客户端。

SNAT： RIP:RPORT-->VIP:VPORT

DNAT： DIP:DPORT-->CIP:CPORT

这种模型提高了系统的吞吐能力，使后端可以扩展更多服务器，同时允许内网拥有复杂拓扑。

但是Director的瓶颈问题没有解决。

FULLNAT已经由阿里巴巴开源，项目地址https://github.com/alibaba/LVS

（三）ARP相关内核参数

DR模型的实现，比较特殊，需要Real Server捆绑VIP，同时在网络中不可见，也就是说VIP要配置在Non-ARP网络设备上。

为了让VIP在网络不可见，可以采用以下方法：

arptables过滤arp协议相关的包

配置内核参数，阻止设备响应arp报文或者主动发布arp包。

在DR的配置中多采用第二种配置内核参数的方法。

/proc/sys/net/ipv4/conf参数

all 其参数值将应用到所有网络接口

default 用来作为缺省参数初始化一个网络接口的

eth0 这是个例子，要根据网络接口名称而定。定义某一个指定的网络接口参数。

下面以eth0来说明两个重要参数

arp_ignore

定义对目标地址为本机IP地址的ARP询问的不同应答方式。

0 - 任意网络接口收到请求，所有接口都应答

1 - 只在来访的网络接口上做出应答，但是要求目的IP配置在其上。

2 - 同1，进一步要求请求方的IP和目标IP必须属于同一子网。

3 - 如果目的IP的范围不是本地主机，才应答。

4-7 保留

8 不做任何应答

arp_announce

为网络接口上，发送ARP请求的IP包中的宣称的本地IP地址，定义不同程度的级别。

0 - 缺省，配置在任意接口上的任意本地地址。

1 - 如果可能，选择和目的地址位于同一子网内的地址。否则，使用级别2的结果。

2 - 优先使用主地址。

需要说明的是，如果在all下和eth0都定义相同的参数值，将取这个值的最大值。

在VS/DR模型中，需要配置这两个参数。

三、NAT模型实验

（一）规划

（二）测试页面test.php

 
         
          
    <?php <span style="color: #0000ff">echo</span> getenv(<span style="color: #006080">'SERVER_ADDR'</span>) ?>      
          
     
            if (!isset( $_SESSION [ 'count' ])) {      
               $_SESSION [ 'count' ] =  0 ;      
            } else {      
               $_SESSION [ 'count' ]++;      
            }      
            printf("sessionid=%s",session_id());      
            printf("Client IP is &lt;b>%s:%s",getenv('REMOTE_ADDR'),getenv('REMOTE_PORT'));      
            printf("Server IP is %s:%s",getenv('SERVER_ADDR'),getenv('SERVER_PORT'));      
            printf("Filename=%s",getenv('SCRIPT_FILENAME'));      
            printf("Conn_Count=%d",$_SESSION [ 'count' ]);      
            phpinfo();      
    ?>      
          
     
   

说明：

getenv('SERVER_ADDR')，getenv函数返回指定环境变量的值。

session_id()返回SessionID。

'REMOTE_ADDR'指的是取浏览器IP地址，'REMOTE_PORT'指的是取浏览器端端口。

'SERVER_ADDR'指的是取服务器IP地址，'SERVER_PORT'指的是取服务器端端口。

'SCRIPT_FILENAME'取请求的文件名称。

printf是格式化输出函数。

phpinfo函数返回当前php运行环境的所有信息。

$_SESSION [ 'count' ]定义一个会话变量count，每一次同一个会话访问就加1，以示区别。

（三）PHP-FPM构建

IP地址192.168.23.85

详细配置过程，请参看《LAMP的几种简单实现及drupal、WordPress、phpMyAdmin部署》。

 
    # yum -y install gcc libxml2-devel bzip2-devel openssl-devel gd-devel     
    [root@localhost php-5.6.0]# rpm -ivh ~/libmcrypt-2.5.8-9.el6.x86_64.rpm      
    warning: /root/libmcrypt-2.5.8-9.el6.x86_64.rpm: Header V3 RSA/SHA256 Signature, key ID 0608b895: NOKEY      
    Preparing...                ########################################### [100%]      
       1:libmcrypt              ########################################### [100%]      
    [root@localhost php-5.6.0]# rpm -ivh ~/libmcrypt-devel-2.5.8-9.el6.x86_64.rpm      
    warning: /root/libmcrypt-devel-2.5.8-9.el6.x86_64.rpm: Header V3 RSA/SHA256 Signature, key ID 0608b895: NOKEY      
    Preparing...                ########################################### [100%]      
       1:libmcrypt-devel        ########################################### [100%]      
    ./configure --prefix=/usr/local/php54 --enable-fpm --with-config-file-path=/etc --with-config-file-scan-dir=/etc/php.d --with-libxml-dir --with-openssl --with-pcre-regex --with-zlib --with-bz2 --with-jpeg-dir --with-png-dir -with-freetype-dir --with-mcrypt --enable-sockets --with-mysql --with-mysqli --with-pdo-mysql --enable-mysqlnd --enable-mbstring --with-gd 
      
    [root@localhost php-5.6.0]# cp sapi/fpm/init.d.php-fpm /etc/rc.d/init.d/php-fpm     
    [root@localhost php-5.6.0]# chmod +x /etc/rc.d/init.d/php-fpm      
    [root@localhost php-5.6.0]# chkconfig --add php-fpm      
    [root@localhost php-5.6.0]# chkconfig --list php-fpm      
    php-fpm            0:off    1:off    2:on    3:on    4:on    5:on    6:off 
      
    [root@localhost php-5.6.0]# cp /usr/local/php54/etc/php-fpm.conf.default /usr/local/php54/etc/php-fpm.conf     
    [root@localhost php-5.6.0]# vim /usr/local/php54/etc/php-fpm.conf      
    pid = run/php-fpm.pid      
    error_log = log/php-fpm.log 
      
    [www]     
    listen = 9000 
      
    [root@localhost ~]# service php-fpm start     
    Starting php-fpm  done      
    [root@localhost ~]# ss -tnlp | grep 9000      
    LISTEN  0 128  *:9000 *:*  users:(("php-fpm",1276,7),("php-fpm",1277,0),("php-fpm",1278,0))      
    [root@localhost ~]# service php-fpm status      
    php-fpm (pid 1276) is running...      
    [root@localhost ~]# mkdir /web/ 
   

最后在创建的/web/目录下放置测试页面test.php

（四）WEB1和WEB2配置

因为最后实现的是PHP-FPM，需要支持FastCGI，因此需要2.4版本的httpd。以前的博文中都有，请查阅。

 
    [root@localhost ~]# yum install gcc pcre-devel openssl-devel -y 
      
    [root@localhost ~]# tar xf apr-1.5.1.tar.bz2     
    [root@localhost ~]# tar xf apr-util-1.5.3.tar.bz2      
    [root@localhost ~]# tar xf httpd-2.4.10.tar.bz2      
    [root@localhost ~]# cd apr-1.5.1 
      
    [root@localhost apr-1.5.1]# ./configure 
    [root@localhost apr-1.5.1]# make && make install 
      
    [root@localhost apr-1.5.1]# cd     
    [root@localhost ~]# cd apr-util-1.5.3 
      
    [root@localhost apr-util-1.5.3]# ./configure --with-apr=/usr/local/apr/     
    [root@localhost apr-util-1.5.3]# make && make install      
      
    [root@localhost ~]# cd ~/httpd-2.4.10     
    [root@localhost httpd-2.4.10]# ./configure --prefix=/usr/local/apache24 --sysconfdir=/etc/httpd24 --enable-so --enable-ssl --enable-cgi --enable-rewrite --with-z --with-pcre --enable-mpms-shared=all --with-mpm=event --enable-modules=most 
      
    [root@localhost ~]# vim /etc/httpd24/httpd.conf 
    LoadModule proxy_module modules/mod_proxy.so    
    LoadModule proxy_fcgi_module modules/mod_proxy_fcgi.so 
      
    DocumentRoot "/usr/local/apache24/htdocs"     
    "/usr/local/apache24/htdocs">      
        Options None      
        AllowOverride None      
        Require all granted      
        
     
      
    ProxyRequests Off     
    ProxyPassMatch ^(/.*\.php)$ fcgi://192.168.23.85:9000/web$1 
      
         
        DirectoryIndex index.php  index.html      
          
          
    AddType application/x-httpd-php .php 
      
    # vim /etc/profile.d/httpd24.sh 
    export PATH=/usr/local/apache24/bin:$PATH 
    # source /etc/profile.d/httpd24.sh 
      
    # apachectl start 
   

WEB1

修改监听的在TCP的8080端口

Listen 8080

# apachectl restart

# vim /usr/local/apache24/htdocs/index.html

192.168.23.80:8080

WEB2

# vim /usr/local/apache24/htdocs/index.html

192.168.23.81:80

（五）Director

部署ipvs

# yum -y install ipvsadm

1、RR调度

 
    [root@localhost ~]# ipvsadm -A -t 172.16.23.80:80 -s rr     
    [root@localhost ~]# ipvsadm -a -t 172.16.23.80:80 -r 192.168.23.80:8080 -m      
    [root@localhost ~]# ipvsadm -a -t 172.16.23.80:80 -r 192.168.23.81:80 -m      
    [root@localhost ~]# ipvsadm -L -n      
    IP Virtual Server version 1.2.1 (size=4096)      
    Prot LocalAddress:Port Scheduler Flags      
      -> RemoteAddress:Port           Forward Weight ActiveConn InActConn      
    TCP  172.16.23.80:80 rr      
      -> 192.168.23.80:8080           Masq    1      0          0          
      -> 192.168.23.81:80             Masq    1      0          0  
   

测试一下效果：

可以看出在两台服务器间调度

2、WRR调度

更换调度算法，增加权重

 
    [root@localhost ~]# ipvsadm -E -t 172.16.23.80:80 -s wrr 
      
    [root@localhost log]# ipvsadm -e -t 172.16.23.80:80 -r 192.168.23.80:8080 -m -w 1     
    [root@localhost log]# ipvsadm -e -t 172.16.23.80:80 -r 192.168.23.81:80 -m -w 5      
    [root@localhost log]# ipvsadm -L -n      
    IP Virtual Server version 1.2.1 (size=4096)      
    Prot LocalAddress:Port Scheduler Flags      
      -> RemoteAddress:Port           Forward Weight ActiveConn InActConn      
    TCP  172.16.23.80:80 wrr      
      -> 192.168.23.80:8080           Masq    1      0          0          
      -> 192.168.23.81:80             Masq    5      0          0  
      
    [root@localhost log]# ipvsadm -L -n -c     
    IPVS connection entries      
    pro expire state       source             virtual            destination      
    TCP 14:57  ESTABLISHED 172.16.0.100:25799 172.16.23.80:80    192.168.23.80:8080      
    TCP 14:57  ESTABLISHED 172.16.0.100:25798 172.16.23.80:80    192.168.23.81:80 
   

从上面可以看到，确实调度器做到了负载均衡。来测试分析一下

从以上的图可以看出，在一定范围内做到了按照权重分配。

注意Conn_Count值的变化，测试了10次，调度192.168.23.80:8080和192.168.23.81:80的次数比值是1:5。

3、SH调度

 
    [root@localhost log]# ipvsadm -E -t 172.16.23.80:80 -s sh     
    [root@localhost log]# ipvsadm -L -n      
    IP Virtual Server version 1.2.1 (size=4096)      
    Prot LocalAddress:Port Scheduler Flags      
      -> RemoteAddress:Port           Forward Weight ActiveConn InActConn      
    TCP  172.16.23.80:80 sh      
      -> 192.168.23.80:8080           Masq    1      0          0          
      -> 192.168.23.81:80             Masq    5      0          0  
   

由上图可以看出，在一段时间内，从同一客户端发起的所有连接被定向到了同一台服务器。

（六）NAT模型的特点

实现简单，有较好的负载均衡效果。

基于NAT可以实现目标地址、目标端口的转换。

所有数据进出都要经过Director这个咽喉要道，Director就成整个系统的瓶颈所在。

在Director上所有数据都要进行NAT转换，这限制了Director处理连接的能力，不适合高负载的场景使用。

四、DR模型

（一）规划图

说明：

上图基本上模拟了公网访问内网WEB站点，使用LVS/DR来完成响应的实现规划。

首先在网络边界处，放置防火墙，并在防火墙上做DNAT。

192.168.23.0/24这个网络所有主机的默认网关都是指向192.168.23.1

图中的MAC地址，只是为了后面抓包的时候看着方便而标记在图上，实际实验中视自己网卡硬件地址而定。

有些配置都是直接使用命令即时生效的，如果需要永久生效，请写入配置文件，这些都很简单，参考文档非常多，不再赘述。

（二）WEB1和WEB2

注意下面几步骤都是在两台WEB服务器都做

1）调整内核参数

 
    # echo 1 > /proc/sys/net/ipv4/conf/all/arp_ignore     
    # echo 2 > /proc/sys/net/ipv4/conf/all/arp_annunce      
    # echo 1 > /proc/sys/net/ipv4/conf/eth0/arp_ignore      
    # echo 2 > /proc/sys/net/ipv4/conf/eth0/arp_annunce 
   

上面配置的内核参数的意义是：

发起arp请求时只能从来访的接口上响应，内部发起的ARP请求的源地址也使用出口接口上的IP地址。

这样在LVS的时候，很好的屏蔽了内部接口上的IP地址，在外部不可见。

实际上配置all就可以了，但是怕接口上参数值有其他可能，所以显式的配置在接口上，例如eth0。如果是这样配置，干脆就直接使用后两句eth0的就可以了。

也可以写在配置文件中，永久生效。

 
    # vim /etc/sysctl.conf     
    net.ipv4.conf.all.arp_announce = 2      
    net.ipv4.conf.all.arp_ignore = 1      
    net.ipv4.conf.eth0.arp_announce = 2      
    net.ipv4.conf.eth0.arp_ignore = 1      
    # sysctl -p 
   

2）配置VIP

# ip addr add 192.168.23.100/32 broadcast 192.168.23.100 dev lo
# ip route add 192.168.23.100 dev lo

3）启动WEB服务

# apachectl start

默认页面还是VS/NAT实验中的index.html页面。

（三）调度服务器IP配置

使用接口eth0上配置2个IP

DIP，192.168.23.99/24，默认网关指向192.168.23.1

VIP，192.168.23.100/32

 
    # ifconfig eth0:0 192.168.23.100 netmask 255.255.255.255 broadcast 192.168.23.100 up 
      
    # ipvsadm -A -t 192.168.23.100:80 -s rr     
    # ipvsadm -a -t 192.168.23.100:80 -r 192.168.23.81:80 -g      
    # ipvsadm -a -t 192.168.23.100:80 -r 192.168.23.80:80 -g 
      
    # ipvsadm -L -n     
    IP Virtual Server version 1.2.1 (size=4096)      
    Prot LocalAddress:Port Scheduler Flags      
      -> RemoteAddress:Port           Forward Weight ActiveConn InActConn      
    TCP  192.168.23.100:80 rr      
      -> 192.168.23.80:80             Route   1      0          0          
      -> 192.168.23.81:80             Route   1      0          0 
   

注：

这里使用rr算法，是因为后面抓包分析的方便，可以根据实际情况选择合适的算法。

Director上的VIP也可以使用24位掩码，不一定非要照着上面语句做。

一定要注意，不能把VIP放到主地址上，否则ICMP（ping）和ARP都会失败。因为这些报文中都有源地址且为VIP，Real Server收到后，认为是自己的VIP发的，Director就无法收到任何回应。

（四）防火墙DNAT

DNAT要指向VIP。

 
    # iptables -t nat -A PREROUTING -d 172.16.23.80 -p tcp --dport 80 -j DNAT --to-destination 192.168.23.100 
    # ping 192.168.23.100 
    # arp -n     
    Address                  HWtype  HWaddress           Flags Mask            Iface      
    192.168.23.100           ether   00:0c:29:06:13:ea   C                     eth1      
    192.168.23.99            ether   00:0c:29:06:13:ea   C                     eth1 
   

看到上面VIP一定要和192.168.23.99指向同一个MAC，也就是要指向Director，否则就要追查问题。看看WEB1和WEB2配置VIP是否正确。

（五）测试

为了能看出区别，我们把WEB1的配置文件的参数修改如下：

DR模型不支持端口映射，所以修改 Listen 为80。

修改 ServerName www2.test.com:8888，注意这一句不会影响监听的80端口，只是影响服务器端变量。

从图上看出，确实实现了rr的效果。注意端口号是8888的，不是真正监听在8888端口。它只是声称监听在8888端口而已。

（六）抓包分析

在防火墙的内网接口上eth1上抓包，因为这是必经之路。

考虑到版面大小，图片被限制了宽度，可以自行放大，下面表格逐句分析。

序号	说明
1、2	ssh相关的，不再解释。从序号3开始
3	192.168.23.1收到了从外围接口上的请求后，要把数据包发往192.168.23.100，所以广播发起ARP请求，询问谁拥有VIP 192.168.23.100
4	Director回应了ARP请求，看MAC地址，这时候后几位是06:13:ea
5	防火墙DNAT后的数据包（第一次握手）发给Director。源地址是CIP，目标地址是VIP。源MAC是192.168.23.1的接口的，目标MAC是Director的。
6	Director使用调度算法挑选出Real Server后，修改目标MAC为这个RS的MAC。这里MAC是WEB1的。
7	WEB1发起对网关192.168.23.1的ARP请求
8	网关回应
9	WEB1把第二次握手的回应发给网关
10	网关把第三次握手发给Director。
11	Director把第三次握手发给WEB1的
12	http请求终于来了。依然先到Director。
13	修改MAC转发WEB1
14	把对12回应送给网关
15	发回http报文包含网页内容给网关
16	发送ACK回应给Director
17	转发给WEB1
18	新的http连接的握手发给Director
19	Director修改为WEB2的MAC
20	WEB2广播ARP请求，询问网关192.168.23.1的MAC地址。以下的过程和WEB1相同。

以上的分析很好说明了RR调度算法，可以清楚的看到整个DR模型的工作流程。

五、动静分离的discuz的部署

在VS/DR实验的基础上，做一些扩展

（一）数据库服务器

使用MariaDB 5.5，使用二进制发布版本，配置简单即可使用。具体安装方法参看以前的博文。

进入管理界面后，创建数据库bbs，并授权。

> create database bbs;
> grant all on bbs.* to bbs@'192.168.23.%' identified by 'bbs';

（二）部署discuz

1、PHP-FPM上部署discuz

 
    # unzip -q Discuz_X3.2_SC_UTF8.zip    
    # cp -r ~/upload/* /web/     
    # chmod 777 -R /web/* 
   

2、在WEB1和WEB2上部署discuz

因为discuz中有一些静态资源，而非*.php的资源都要在WEB服务器上访问，因此也要在WEB服务器上部署discuz。但是由于不是非常的了解discuz的动静资源的详细路径，最简单的方式就是把upload目录下的所有文件复制到WEB1和WEB2的站点根目录下

 
    # unzip -q Discuz_X3.2_SC_UTF8.zip   
    # cp -r ~/upload/* /web/

顺便说一句，请把WEB1上的配置文件的内容修改回来。

ServerName www2.test.com:80

3、安装discuz

安装过程，如下：

安装完毕后，运行后，发现论坛首页样式错乱

这是怎么回事呢？

其实还是动静分离的问题，在安装论坛的工程中，应该是生成了一些css和图片的新的文件或者路径，而WEB1和WEB2没有。解决的办法很简单。把php-fpm上的文件tar后，在WEB1和WEB2上重新部署就行了。

 
    [root@www1 ~]# cd /usr/local/apache24/htdocs/    
    [root@www1 htdocs]# rm -rf *     
    [root@www2 ~]# cd /usr/local/apache24/htdocs/     
    [root@www2 htdocs]# rm -rf * 
      
    [root@localhost ~]# cd /web    
    [root@localhost web]# tar jcf web.tar.bz2 *     
    [root@localhost web]# scp web.tar.bz2 [email protected]:/usr/local/apache24/htdocs/     
    [root@localhost web]# scp web.tar.bz2 [email protected]:/usr/local/apache24/htdocs/ 
      
    [root@www1 htdocs]# tar xf web.tar.bz2     
    [root@www1 htdocs]# rm -f web.tar.bz2     
    [root@www2 htdocs]# tar xf web.tar.bz2      
    [root@www2 htdocs]# rm -f web.tar.bz2 
   

再次运行，首页正常表现

（三）共享存储

1、discuz的配置

进入后台管理页面，选择全局/上传设置

也就是说，data/p_w_upload目录要作为共享的存储的挂载点。看看这个目录下面有什么？

这些文件和目录都是论坛程序需要的，怎么办？还是把p_w_upload目录下所有的内容归档tar，然后挂载nfs目录，然后使用tar解压到这个目录中。

2、NFS服务器配置

 
    # yum install nfs-utils –y 
      
    # useradd nfs -u 600    
    # service nfs start      
    Starting NFS services:      [  OK  ]      
    Starting NFS mountd:        [  OK  ]      
    Starting NFS daemon:        [  OK  ]      
    Starting RPC idmapd:        [  OK  ]      
    # chkconfig nfs on      
    # chkconfig --list nfs      
    nfs   0:off    1:off    2:on    3:on    4:on    5:on    6:off      
    # mkdir /sharedir/ 
      
    # vim /etc/exports     
    /sharedir    192.168.23.0/24(rw,all_squash,anonuid=600,anongid=600) 
      
    # showmount -e 192.168.23.134     
    Export list for 192.168.23.134:      
    /sharedir 192.168.23.0/24 
      
    # chmod 777 /sharedir/ 
   

为了简单起见，没有做过多的限制，如果需要压缩所有用户权限，可以参看以前的博文。

注意：

挂载nfs目录的各个服务器要安装# yum -y install nfs-utils

3、PHP-FPM上配置nfs目录

 
    [root@localhost web]# cd data/p_w_upload/    
    [root@localhost p_w_upload]# tar jcf p_w_upload.tar.bz2 *     
    [root@localhost p_w_upload]# mv p_w_upload.tar.bz2 /tmp     
    [root@localhost p_w_upload]# cd ..     
    [root@localhost data]# mount -t nfs 192.168.23.134:/sharedir p_w_upload/     
    [root@localhost data]# cd p_w_upload/     
    [root@localhost p_w_upload]# mv /tmp/p_w_upload.tar.bz2 ./   
   

把文件和目录的归档文件，放到nfs服务器上

4、nfs服务器

还原文件和目录，并重新设置属主、属组。

 
    # cd /sharedir/ 
    # tar xf p_w_upload.tar.bz2 
    # chown -R nfs:nfs /sharedir 
   

5、WEB1和WEB2配置nfs目录

如法炮制，只是mount就行了。

 
    [root@www1 p_w_upload]# cd ..    
    [root@www1 data]# mount -t nfs 192.168.23.134:/sharedir p_w_upload/     
    [root@www2 p_w_upload]# cd ..     
    [root@www2 data]# mount -t nfs 192.168.23.134:/sharedir p_w_upload/     
    [root@www2 data]# ls p_w_upload/     
    album  p_w_upload.tar.bz2  category  common  forum  group  index.htm  portal  profile  swfupload  temp 
   

注意p_w_upload.tar.bz2这个文件，这个是192.168.23.134:/sharedir目录下的，说明挂载成功了。

在nfs服务器上把p_w_upload.tar.bz2文件挪个位置# mv p_w_upload.tar.bz2 /tmp/

（四）测试

图片上传成功，提交帖子

帖子浏览成功，多种方式、多次浏览帖子都没有问题。

至此，动静分离且使用同一数据库和NFS共享目录的网站基本搭建完成。

六、总结

本文参照LVS的源码，简单描述了LVS的调度算法。

采用LVS的NAT、DR模型分别作了简单的实验。对于NAT模型，构建了一个特殊的PHP测试页，可以较为清楚看到动静分离后调度的执行效果。对DR模型作了抓包分析，尝试从更加深入的层次理解DR模型的报文走向。

最后，安装配置discuz，看看一个真正的实用WEB程序在这种DR负载均衡下如果实现动静分离的。

本文内容较多，涉及概念非常多，可以参看笔者以前的博文。

本文只是简单的实验分析，所以很多服务器存在单点问题，这个可以通过扩展实现高可用。而且整个实验中，最大的问题是均衡器并不知道后端服务器的健康状况，这需要借助其他的工具来监测联动控制，详情后述。

参考资料

http://zh.linuxvirtualserver.org/node/25

http://www.linuxvirtualserver.org/software/ipvs.html#kernel-2.6

http://www.linuxinsight.com/proc_sys_net_ipv4_conf.html

http://kb.linuxvirtualserver.org/wiki/Using_arp_announce/arp_ignore_to_disable_ARP

你可能感兴趣的:(LVS,调度,Linux技术)

Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
经纬恒润二面&三七互娱一面&元象二面 Redstone Monstrosity 面试前端
1.请尽可能详细地说明，进程和线程的区别，分别有哪些应用场景？进程间如何通信？线程间如何通信？你的回答中不要写出示例代码。进程和线程是操作系统中的两个基本概念，它们在计算机系统中扮演着不同的角色，并且在不同的应用场景中发挥作用。进程和线程的区别定义：进程：进程是操作系统进行资源分配和调度的基本单位。每个进程都有独立的内存空间和系统资源。线程：线程是进程内的一个执行单元，是操作系统进行调度的最小单位
C++常见知识掌握 nfgo c++开发语言
1.Linux软件开发、调试与维护内核与系统结构Linux内核是操作系统的核心，负责管理硬件资源，提供系统服务，它是系统软件与硬件之间的桥梁。主要组成部分包括：进程管理：内核通过调度器分配CPU时间给各个进程，实现进程的创建、调度、终止等操作。使用进程描述符（task_struct）来存储进程信息，包括状态（就绪、运行、阻塞等）、优先级、内存映射等。内存管理：包括物理内存和虚拟内存管理。通过页表映
15-自编写rtos-结合stm32实际调试(ladylolo-os) Ladylolo-lsm stm32 嵌入式硬件单片机
一、任务调度:1.理解:任务切换，用堆栈指针SP保存即将要切换的任务的前后文，然后是用PendSV来执行这些操作的；由于是基于优先级的调度策略，所以每次“心跳”都会看有没有优先级更高的出现，如果有就用PendSV进行上下文切换。2.编写部分:①每个任务自己的属性统称为TCB任务控制块。②任务就绪表有设置优先级(设置的时候变量或上优先级的变量让某个位数等于1)，从任务就绪表中删除(删除时用与来得等于
【鸿蒙应用】总结一下ArkUI 读心悦鸿蒙基础鸿蒙应用
ArkUI是HarmonyOS应用界面的UI开发框架，提供了简洁的UI语法、UI组件、动画机制和事件交互等等UI开发基础，以此满足应用开发者对UI界面开发的需求。组件是界面搭建的最小单位，开发者通过多种组件的组合构成完整的界面。页面是ArkUI最小的调度分隔单位，开发者可以将应用设计为多个功能页面，每一个页面进行单独的文件管理，并且通过页面路由API完成页面之间的调度管理，以此来实现应用内功能的解
golang学习笔记--MPG模型 xxzed golang #学习笔记学习笔记 golang
MPG模式：M（Machine）：操作系统的主线程P（Processor）：协程执行需要的资源（上下文context），可以看作一个局部的调度器，使go代码在一个线程上跑，他是实现从N：1到N：M映射的关键G（Goroutine）：协程，有自己的栈。包含指令指针（instructionpointer）和其它信息（正在等待的channel等等），用于调度。一个P下面可以有多个G1、当前程序有三个M,
含光热电站、有机有机朗肯循环、P2G的综合能源优化调度（Matlab代码实现）冒泡芳能源 matlab 开发语言
‍个人主页：研学社的博客欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3参考文献4Matlab代码实现1概述光热发电(concentratingsolarpower，CSP）是一种新型可再生能源发电技术，具有低碳发电和高效储能的优势，但当前光热电站常充当单一发电源进行能源供应，其供能潜力未得到充分
《android进阶之光》——多线程编程（上） TAING要一直努力读书笔记
今天了解了下多线程编程，知识点如下：进程与线程：进程是什么？线程是什么？进程可以看作是程序的实体，是线程的容器，是受操作系统管理的基本运行单元，例如exe文件就是一个进程。线程是进程运行的一些子任务，是操作系统调度的最小单元，各线程拥有自己的计数器，堆栈，局部变量等，也可以访问线程间共享的内存。线程的状态有哪些？新创建，可运行，等待，超时等待，阻塞，终止怎么创建一个线程？-三种方法第一种，MyTr
详解 Flink 的常见部署方式文刀小桂 Flink flink 大数据
一、常见部署模式分类1.按是否依赖外部资源调度1.1Standalone模式独立模式(Standalone)是独立运行的，不依赖任何外部的资源管理平台，只需要运行所有Flink组件服务1.2Yarn模式Yarn模式是指客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会在Yarn的NodeManager上创建容器。在这些容器上，Flink
2024上半年软考系统架构设计师-综合知识选择题及答案不对法系统架构
1.操作系统先来先服务调度算法2.操作系统多道程序设计，利用率3.操作系统状态流转错误的，执行态到运行态4.数据库2NF每一个非主属性完全依赖主键5.数据库笛卡尔积m*n6.数据库不属于事务的特点，并发性7.数据库交集表达式R-(R-S)8.数据库反规范化属于逻辑设计9.网络没有加密功能，物理层10.网络二层交换机数据，数据链路层11.知识产权专利法是否属于民法12.知识产权商标不属于，其他几个是
面试问题001 li星野刷题面试开发语言 linux
进程和线程的区别进程是资源分配和调度的基本单位。线程是程序执行的最小单位，线程是进程的子任务，是进程内的执行单元。一个进程至少有一个线程，一个进程可以运行多个线程，这些线程共享同一块内存。资源开销：进程：由于每个进程都有独立的内存空间，创建和销毁进程的开销较大。进程间切换需要保存和恢复整个进程的状态，因此上下文切换的开销较高。线程：线程共享相同的内存空间，创建和销毁线程的开销较小。线程间切换只需要
【K8S】kubernetes集群架构与组件奇奇怪怪^ 云 Linux IT 运维服务器 linux
文章目录【K8S】kubernetes集群架构与组件kubernetes组件**master组件**node组件整体流程POD终止过程【K8S】kubernetes集群架构与组件kubernetes组件K8S是属于主从设备模型(Master-slave架构)，即有Master节点负责集群的调度、管理和运维，Slave节点是集群中的运算工作负载节点在K8S中，主节点一般被称为Master节点，而从节
【Kubernetes】常见面试题汇总（十三） summer.335 Kubernetes kubernetes 容器云原生
目录39.简述KubernetesScheduler使用哪两种算法将Pod绑定到worker节点？40.简述Kuberneteskubelet的作用？41.简述Kuberneteskubelet监控Worker节点资源是使用什么组件来实现的？39.简述KubernetesScheduler使用哪两种算法将Pod绑定到worker节点？KubernetesScheduler根据如下两种调度算法将Po
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
基于django+vue代驾管理系统【开题报告+程序+论文】-计算机毕设 zhjie102 django vue.js 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景随着城市化进程的加速和人们生活水平的提高，私家车数量急剧增加，但随之而来的酒驾问题也日益严峻，严重威胁着道路交通安全与公众生命财产安全。为了有效遏制酒驾行为，代驾服务应运而生并迅速普及。然而，当前市场上的代驾服务大多依赖于电话预约、人工调度等传统方式，存在效率低下
掌握检索技术：构建高效知识检索系统的架构与算法23 是小旭啊人工智能
在检索专业知识层需要涵盖更高级的检索技术，包括工程架构和算法策略。一、工程架构工程架构在构建检索系统中决定了系统的可扩展性、高可用性和性能。比如需要考虑的基本点：分布式架构：水平扩展：采用分布式架构，将检索任务分布到多个节点上，实现水平扩展。这可以通过将索引数据分片存储在不同的节点上，并使用分布式文件系统或对象存储来存储大规模的索引数据。任务分配：设计任务调度器，负责将查询请求分配到空闲的节点上进
掌握检索技术：构建高效知识检索系统的架构与算法21 是小旭啊人工智能
在检索专业知识层需要涵盖更高级的检索技术，包括工程架构和算法策略。一、工程架构工程架构在构建检索系统中决定了系统的可扩展性、高可用性和性能。比如需要考虑的基本点：分布式架构：水平扩展：采用分布式架构，将检索任务分布到多个节点上，实现水平扩展。这可以通过将索引数据分片存储在不同的节点上，并使用分布式文件系统或对象存储来存储大规模的索引数据。任务分配：设计任务调度器，负责将查询请求分配到空闲的节点上进
搭建Kafka+zookeeper集群调度 krb___ kafka 分布式
前言硬件环境172.18.0.5kafkazk1Kafka+zookeeperKafkaBroker集群172.18.0.6kafkazk2Kafka+zookeeperKafkaBroker集群172.18.0.7kafkazk3Kafka+zookeeperKafkaBroker集群软件环境zookeeper3.5.9资源调度、写作Kafka2.8.0消息通信中间件安装JDK1.8安装搭建zo
DMDPC安装部署丷月亮是指路牌数据库
1.DMDPC架构DMDPC架构由计划生成节点SP、数据存储节点BP和元数据服务器节点MP三部分组成：1、SP对外提供分布式数据库服务，用户可以登录到任意一个SP节点，获得完整的数据库服务；2、BP负责存储数据，执行SP的调度指令并将执行结果返回给SP；3、MP负责存储元数据并向SP、BP提供元数据服务。本文是在1台Linux虚拟机上通过创建四个实例的方式进行集群搭建.2.DMDPC集群规划DMD
DM8 分布计算集群（DMDPC）Docker 命令行部署指南 69岁法外狂徒 docker 容器数据库分布式
简介DMDPC是一款同时支持在线分析处理(OLAP)和在线事务处理(OLTP)的新型分布式数据库系统。它不仅保留了传统单机数据库的大部分功能，还提供了分布式计算集群所特有的高可用性、高扩展性、高性能、高吞吐量以及对用户透明等高级特性。本文借助命令行工具部署DPC集群。系统架构DMDPC的架构由三个核心组件组成：计划生成节点(SP)：对外提供分布式数据库服务，负责接收用户请求、生成执行计划，并调度计
搭建ftp服务器哆啦A梦_ca52
1搭建ftp服务器yuminstallvsftpd*-y安装vsftpd服务rpm-qlvsftpd|more查看安装路径systemctlrestartvsftpd.service启用vsftp服务ps-ef|grepvsftpd查看服务是否启用查看安装后的路径ftp://192.168.1.17/pub/安装好了有这个服务了修改配置文件vim/etc/vsftpd/vsftpd.confano
异步任务处理：FastAPI结合Celery的实战典范赖蓉旖Marlon
异步任务处理：FastAPI结合Celery的实战典范fastapi-celeryExampleofhowtohandlebackgroundprocesseswithFastAPI,Celery,andDocker项目地址:https://gitcode.com/gh_mirrors/fas/fastapi-celery在现代Web开发中，异步处理和后台任务调度成为了提高应用性能与响应速度的关键
【大型网站技术实践】初级篇：借助LVS+Keepalived实现负载均衡爱代码也爱生活 linux运维系统架构 Keepalived lvs
一、负载均衡：必不可少的基础手段1.1找更多的牛来拉车吧当前大多数的互联网系统都使用了服务器集群技术，集群即将相同服务部署在多台服务器上构成一个集群整体对外提供服务，这些集群可以是Web应用服务器集群，也可以是数据库服务器集群，还可以是分布式缓存服务器集群等等。古人有云：当一头牛拉不动车的时候，不要去寻找一头更强壮的牛，而是用两头牛来拉车。在实际应用中，在Web服务器集群之前总会有一台负载均衡服务
深入理解Kubernetes：kube-scheduler源码解析 mujingluo kubernetes 容器云原生
Kubernetes的调度器（kube-scheduler）是整个系统中至关重要的组件，它负责将待调度的Pods分配到合适的节点上。本文将深入分析kube-scheduler的源码，揭示其内部工作机制。kube-scheduler的核心功能kube-scheduler的核心功能包括：监听Pod变化：通过KubernetesAPI监听所有未调度的Pods。过滤（Filtering）：根据一系列规则（
【2023年】云计算金砖牛刀小试4 geekgold 云计算 linux 容器 jenkins kubernetes
容器云问题1.Kubernetes集群支持Pod优先级抢占，通过抢占式调度策略来实现同一个Node节点内部的Pod对象抢占。在master节点/root目录下编写YAML文件schedule.yaml创建一个抢占式调度策略，具体要求如下：（1）抢占式调度策略名称：high-scheduling；（2）优先级为1000000；（3）不要将该调度策略设置为默认优先调度策略。vischedule.yam
【图像压缩】奇异值分解SVD灰色图像压缩（可设置压缩比）【含Matlab源码 4358期】 Matlab武动乾坤 Matlab图像处理（进阶版）matlab
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。更多Matlab仿真内容点击Matlab图像处理（进阶版）路径规划（Matlab）神经网络预测与分类（Matlab）优化求解（Matlab）语音处理（Matlab）信号处理（Matlab）车间调度
Java基础 --- 多线程&JUC，以及一些常用的设计模式总结 lzhlizihang java 设计模式
文章目录一、多线程1、线程和进程的区别2、创建多线程的四种方式3、集合中的线程安全二、设计模式1、单例模式2、装饰者模式（IO流缓冲流）3、适配器模式4、模板模式一、多线程1、线程和进程的区别进程是操作系统资源分配的基本单位，而线程是处理器任务调度和执行的基本单位，一个进程可以运行多个线程多进程：操作系统中同时运行的多个程序多线程：在同一个进程中同时运行的多个任务2、创建多线程的四种方式Runna
CPU飙高原因及解决方案 rlk512974883 JAVA基础
一、CPU飙高原因：1.大量中断中断分为软中断（软中断是一种需要内核为正在运行的进行去做一些事情的请求）和硬中断（外部引起的）2.系统负载高负载高表示有很多程序等待调度运行，它会导致上下文切换频繁3.上下文切换频繁二、排查1.top命令查看占用CPU的pid2.top-H-ppid查找pid下面的线程id，显示线程的cpu的占用时间，占用比例，发现有很多个线程都会CPU占用很高，只能每个排查3.j
基于OpenCV和ROS节点的智能家居服务机器人设计流程极客小张 opencv 智能家居机器人物联网人工智能计算机视觉单片机
一、项目概述1.1项目目标和用途智能家居助手项目旨在开发一款高效、智能的服务机器人，能够在家庭环境中执行多种任务，如送餐、清洁和监控。该机器人将通过自主导航、任务调度和环境感知能力，提升家庭生活的便利性和安全性。项目的最终目标是为用户提供一个智能、可靠的家居助手，改善用户的生活质量。1.2技术栈关键词硬件：激光雷达（LiDAR）或超声波传感器（用于避障和地图构建）摄像头（用于视觉识别和监控）IMU
鸿蒙开发（NEXT/API 12）【应用传输体验反馈】网络加速服务移动开发技术栈鸿蒙开发 harmonyos 网络华为 openharmony 鸿蒙移动开发鸿蒙系统
场景介绍当应用传输体验发生变化时，应用将传输体验和传输的业务类型信息通过实时反馈接口传输给系统网络业务模块，系统网络业务模块进行精细化调度，实现网络加速。例如：视频类App播放过程中卡顿，将卡顿信息上报后，NetworkBoostKit将信息反馈给系统网络加速模块，该模块会记录播放卡顿信息，并根据当前网络情况，启用网络加速能力。接口说明接口名描述reportQoe(appQoe:AppQoe):v
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi