大型网站高并发处理Nginx+lvs

一.负载均衡

为啥会出现负载均衡

在海量并发的环境下,用户每一次请求服务器,都需要大量的创建线程,每一次的线程都必须分配资源(CPU、内存、带宽、磁盘 IO等),当资源不足的时候就会使得服务器宕机而无法提供服务。那么如何保证网站在流量峰值时能够顺利运作呢? 首先来介绍几个概念

1.高并发

见名知意,高(大量的),并发就是可以使用多个线程或者多个进程,同时处理(就是并发)不同的操作。简而言之就是每秒内有多少个请求同时访问。

2.负载均衡

负载均衡:将请求/数据【均匀】分摊到多个操作单元上执行,负载均衡的关键在于【均匀】,也是分布式系统架构设计中必须考虑的因素之一。

3.tomcat 并发图

大型网站高并发处理Nginx+lvs_第1张图片
有 tomcat 的并发测试图可以发现,当每秒 300 个请求同时访问tomcat 时,tomcat 已经开始承受不住,出现波动。那么大型网站是如何处理高并发的呢?以下是高并发场景下,实现负载均衡的一个分布式架构图。
大型网站高并发处理Nginx+lvs_第2张图片
常见互联网分布式架构,分为客户端层、反向代理 nginx 层、站
点层、服务层、数据层。只需要实现“将 请求/ / 数据 均匀分摊到多个
操作单元上执行”,就能实现负载均衡

二.Nginx真面目

1.什么是 Nginx

Nginx 是一款轻量级的 Web 服务器/ 反向代理服务器【后面有介绍】及电子邮件(IMAP/POP3)代理服务器。由俄罗斯的程序设计师Igor Sysoev 所开发,其特点是占有内存少,并发能力强,nginx 的并发能力确实在同类型的网页服务器中表现非常好。
•2004 年 10 月 4 日 第一个公开版本 0.1.0 发布。其将源代码以类 BSD 许可证的形式发布。
•官方测试 nginx 能够支撑 5 5 万并发链接,并且 CPU、内存等资
源消耗却非常低,运行非常稳定。

2.哪些地方使用了 Nginx (非常多)

大型网站高并发处理Nginx+lvs_第3张图片

3.Nginx的优缺点
  1. nginx 相对于 apache 的优点: 轻量级,同样起 web 服务,比 apache 占用更少的内存及资源高并发,nginx
  2. 处理请求是 异步非阻塞(如前端 ajax)的,而 apache 则是阻塞型的,在高并发下 nginx处理请求是 异步非阻塞(如前端 ajax)的,而 apache 则是阻塞型的,在高并发下 nginx能保持低资源低消耗高性能高度模块化的设计,编写模块相对简单 还有,它社区活跃,各种高性能模块出品迅速(十几年时间发展) apache 相对于 nginx 的优点: Rewrite 重写 ,比 nginx 的 rewrite 强大模块超多,基本想到的都可以找到少 bug ,nginx 的 bug 相对较多。(出身好起步高)
  3. Nginx 配置简洁, Apache 复杂

三.Nginx的安装

1.安装依赖
需要的依赖  gcc   openssl-devel   pcre-devel   zlib-devel
安装的步骤  yum -y install gcc openssl-devel pcre-devel zlib-devel

大型网站高并发处理Nginx+lvs_第4张图片

2. 解压文件
解压   tar -zxvf nginx-1.8.1.tar.gz  (这里是下载好的压缩包)

大型网站高并发处理Nginx+lvs_第5张图片

3.configure 配置
进入解压后的源码目录,然后执行 configure 命令进行配置(指定安装的位置)
./configure --prefix=/usr/soft/nginx   

大型网站高并发处理Nginx+lvs_第6张图片

4. 编译并安装
make && make install

大型网站高并发处理Nginx+lvs_第7张图片

安装好后,会在/usr/soft 下生成 nginx 目录(这是我编译前指定的),这个目录就是 nginx 的软件了。	
5.nginx 的常用命令
启动命令  nginx_home/sbin/nginx

大型网站高并发处理Nginx+lvs_第8张图片
启动后,访问虚拟机的 80 端口,可查看到以下界面,Nginx 默认监听 80 端口,当出现以上信息,说明安装启动成功。
大型网站高并发处理Nginx+lvs_第9张图片
一旦 nginx 启动,就可以通过调用带有 -s 参数的可执行文件来控制它。使用语法: nginx -s 信号信号可以是下列之一:

stop     快速关机
quit     优雅的关机
reload   重新加载配置文件
reopen   重新打开日志文件
例如,要重新加载修改后的配置并重启,可以执行以下命令: nginx  -s  reload

四.Nginx 实现高并发的配置

1.nginx配置大览 (下图为要修改的位置)

大型网站高并发处理Nginx+lvs_第10张图片

#进程数,建议设置和 CPU 个数一样或 2 倍
	worker_processes 2;
#日志级别
	error_log logs/error.log warning;(默认 error 级别)
# nginx 启动后的 pid 存放位置
#pid logs/nginx.pid;
	events {
		#配置每个进程的连接数,总的连接数= worker_processes * worker_connections
		# 根据物理内存大小来配置,默认 1024
		worker_connections 10240;
	}
	
http {
	include mime.types;
	default_type application/octet-stream;
	sendfile on;
	#连接超时时间,单位秒
	keepalive_timeout 65;
		server {
			listen 80;
			server_name localhost
			#默认请求
			location / {
			root html; #定义服务器的默认网站根目录位置
			index index.php index.html index.htm; #定义首页索引文件的名称
			}
		#定义错误提示页面
		error_page 500 502 503 504 /50x.html;
		location = /50x.html {
		root html;
		}
}
2. 负载均衡配置(轮循的方式,按顺序依次)
nginx 支持以下负载均衡机制(或方法):
	a) 循环 - 对应用程序服务器的请求以循环方式分发,
	b) 最少连接数 - 将下一个请求分配给活动连接数最少的服务器
	c) ip-hash - 哈希函数用于确定下一个请求(基于客户端的 IP地址)应该选择哪个服务器。
Nginx默认为负载平衡配置

使用 nginx 进行负载平衡的最简单配置可能如下所示:

http {
	upstream sxt{
	server 192.168.56.123:8080;
	server 192.168.56.124:8080;
	server 192.168.56.125:8080;
	}

	server {
		listen 80;
		server_name localhost;
		location / {
			proxy_pass http://sxt;
		}
	}
}

在上面的示例中,在upstream sxt 上配置的应用程序3 个实例。如果没有专门配置负载均衡方法,则默认为循环法。所有请求都被 代理到服务器组 sxt,并且 nginx 应用 HTTP 负载平衡来分发请求。

加权负载平衡(也属于轮循方式)

通过使用服务器权重,还可以进一步影响 nginx 负载均衡算法,谁的权重越大,分发到的请求就越多。下面如果有五次请求,那么123的tomcat会访问3次,这个适用于不同的硬件性能不一样的时候,性能好的权重应该更大.

upstream sxt {
	server 192.168.56.123:8080 weigth=3;
	server 192.168.56.124:8080;
	server 192.168.56.125:8080;
}
3.最少连接负载平衡

在连接负载最少的情况下,nginx 会尽量避免将过多的请求分发给繁忙的应用程序服务器,而是将新请求分发给不太繁忙的服务器,避免服务器过载。

upstream sxt {
	least_conn;
	server 192.168.56.123:8080;
	server 192.168.56.124:8080;
	server 192.168.56.125:8080;
}
4.ip-hash映射的方式

上述的循环或最少连接数的负载平衡方法,每个后续客户端的请求都可能被分发到不同的服务器。不能保证相同的客户端总是定向到相同的服务器。
如果需要将客户端绑定到特定的应用程序服务器 - 换句话说,就是始终选择相同的服务器而言,就要使客户端的会话“粘滞”或“持久” 。ip-hash 负载平衡机制就是有这种特性。使用 ip-hash,客户端的 IP 地址将用作散列键,以确定应该为客户端的请求选择服务器组中的哪台服务器。此方法可确保来自同一客户端的请求将始终定向到同一台服务器,除非此服务器不可用。

upstream sxt{
	ip_hash;
	server 192.168.56.123:8080;
	server 192.168.56.124:8080;
	server 192.168.56.125:8080;
}
5.Nginx的访问控制

Nginx 还可以对 IP 的访问进行控制,allow 代表允许,deny 代表禁止.Nginx不会遍历查找条件,而是找到第一个限制条件就行了,如192.168.78.1,就为禁止访问啦!

location / {
	deny 192.168.78.1;
	allow 192.168.78.1;
	allow 192.168.78.0/24;
	allow 10.1.1.0/16;
	allow 192.168.1.0/32;
	deny all;
	proxy_pass http://sxt;
}

五.虚拟主机

1.何为虚拟主机

虚拟主机是指在网络服务器上分出一定的磁盘空间,用户可以租用此部分空间,以供用户放置站点及应用组件,提供必要的数据存放和传输功能。说白了虚拟主机就是把一台物理服务器划分成多个“虚拟”的服务器,各个虚拟主机之间完全独立,在外界看来,每一台虚拟主机和一台单独的主机的表现完全相同。所以这种被虚拟化的逻辑主机被形象地称为“虚拟主机”。

优点:
由于多台虚拟主机共享一台真实主机的资源,每个虚拟主机用户承受的硬件费用、网络维护费用、通信线路的费用均大幅度降低。许多企业建立网站都采用这种方法,这样不仅大大节省了购买机器和租用专线的费用,网站服务器服务器管理简单,诸如软件配置、防病毒、防攻击等安全措施都由专业服务商提供,大大简化了服务器管理的复杂性;同时也不必为使用和维护服务器的技术问题担心,更不必聘用专门的管理人员。

类别:

1、基于域名的虚拟主机,通过域名来区分虚拟主机
2、基于端口的虚拟主机,通过端口来区分虚拟主机
3、基于 ip 的虚拟主机,很少用
2.基于域名的虚拟主机配置
http {
	upstream shsxt{
		server 192.168.56.123:8080;
		server 192.168.56.124:8080;
	}
	upstream bjsxt{
		server 192.168.56.125:8080;
		server 192.168.56.126:8080;
	}

server {
	listen 80;
	//访问 sxt2.com 的时候,会把请求导到 bjsxt 的服务器组里
	server_name sxt2.com;
	location / {
		proxy_pass http://bjsxt;
	}
}

server {
	listen 80;
	//访问 sxt1.com 的时候,会把请求导到 shsxt 的服务器组里
	server_name sxt1.com;
	location / {
		proxy_pass http://shsxt;
	}
  }
  
}

注意:基于域名的虚拟机主机 在模拟应用场景时,需要在 windows 系统的 hosts文件里配置域名映射。(C:\Windows\System32\drivers\etc\hosts)
大型网站高并发处理Nginx+lvs_第11张图片
如上图所示,将 sxt1 和 sxt2 的域名映射到 nginx 服务器 IP 上。启动 nginx 后,分别访问 sxt1.com ,sxt2.com
大型网站高并发处理Nginx+lvs_第12张图片

图 1
大型网站高并发处理Nginx+lvs_第13张图片
图 2
由图 1,图 2 可看出,当访问 sxt1.com 的时候,nginx 将请求分发给了 tomcat20 和 tomcat21当访问 sxt2.com 的时候,nginx 将请求分发给了 tomcat22.

六.基于端口的虚拟主机

http {
	upstream shsxt{
		server 192.168.56.123:8080;
		server 192.168.56.124:8080;
	}
	upstream bjsxt{
		server 192.168.56.125:8080;
		server 192.168.56.126:8080;
	}

server {
	//当访问 nginx 的 80 端口时,将请求导给 bjsxt 组
	listen 80;
	server_name localhost;
	location / {
		proxy_pass http://bjsxt;
	}
  }
  
server {
	//当访问 nginx 的 81 端口时,将请求导给 shsxt 组
	listen 81;
	server_name localhost;
	location / {
		proxy_pass http://shsxt;
	}
  }
}

当访问 nginx 的 80 端口时,请求被分发给了 tomcat20 和 tomcat21
在这里插入图片描述
大型网站高并发处理Nginx+lvs_第14张图片
当访问 nginx 的 81 端口时,请求被分发给了 tomcat22
大型网站高并发处理Nginx+lvs_第15张图片

七.正向代理和反向代理

正向代理

举个栗子:我是一个用户,我访问不了某网站,但是我能访问一个代理服务器,这个代理服务器呢,他能访问那个我不能访问的网站,于是我先连上代理服务器,告诉他我需要那个无法访问网站的内容,代理服务器去取回来,然后返回给我。像我们经常通过 访问国外的网站,此时就是正向代理。客户端必须设置正向代理服务器,当然前提是要知道正向代理服的 务器的 IP 地址,还有代理程序的端口。

再比如下面的:

大型网站高并发处理Nginx+lvs_第16张图片

反向代理

•反向代理(Reverse Proxy )方式是指以代理服务器来接受 internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给 internet 上请求连接的客户端,此时代理服务器对外就表现为一个反向代理服务器
大型网站高并发处理Nginx+lvs_第17张图片
反向代理隐藏了真实的服务端,当我们请求 www.baidu.com 的时候,就像拨打 10086 一样,背后可能有成千上万台服务器为我们服务,但具体是哪一台,你不知道,也不需要知道,你只需要知道反向代理服务器是谁就好了,www.baidu.com 就是我们的反向代理服务器,反向代理服务器会帮我们把请求转发到真实的服务器那里去。Nginx 就是性能非常好的反向代理服务器,用来做负载均衡。

八.Nginx 的 的 session 的一致性问题

http 协议是无状态的,即你连续访问某个网页 100 次和访问 1次对服务器来说是没有区别对待的,因为它记不住你。那么,在一些场合,确实需要服务器记住当前用户怎么办?比如用户登录邮箱后接下来要收邮件、写邮件,总不能每次操作都让用户输入用户名和密码吧,为了解决这个问题session 的方案就被提了出来,事实上它并不是什么新技术,而且也不能脱离 http 协议以及任何现有的 web 技术session 的常见实现形式是会话cookie(session cookie),即未设置过期时间的cookie,这个cookie 的默认生命周期为浏览器会话期间,只要关闭浏览器窗口,cookie 就消失了。

1.Session 共享

首先我们应该明白,为什么要实现共享,如果你的网站是存放在一个机器上,那么是不存在这个问题的,因为会话数据就在这台机器,但是如果你使用了负载均衡把请求分发到不同的机器呢?这个时候会话 id 在客户端是没有问题的,但是如果用户的两次请求到了两台不同的机器,而它的 session 数据可能存在其中一台机器,这个时候
就会出现取不到 session 数据的情况,于是 session 的共享就成了一个问题

2.Session一致性解决方案
– 1、session 复制

– tomcat 本身带有复制 session 的功能。

– 2、共享 session

– 需要专门管理 session 的软件,
– memcached 缓存服务,可以和 tomcat 整合,帮助 tomcat共享管理 session。

3.安装 memcached
  1. 安装 memcached 内存数据库
    yum -y install memcached
 查看memcached安装的位置:   whereis  memcached
 验证安装:  memcached -h /etc/rc.d/init.d/memcached status   (这个是默认的位置)
 查看配置文件:   cat /etc/sysconfig/memcached
 启动:   memcached  /etc/rc.d/init.d/memcached start
 重启:   memcached  /etc/rc.d/init.d/memcached restart
 

在这里插入图片描述

  1. web 服务器连接 memcached 的 jar 包拷贝到 tomcat 的 lib, 还可以在网上下载jar包,方法如下(要在tomcat的lib目录下):
    wget http://dag.wieers.com/rpm/packages/rpmforge-release/rpmforge-release-0.5.2-2.rf.src.rpm
    rpm -ivh rpmforge-release-0.5.2-2.rf.src.rpm

    1. 配置 tomcat 的 conf 目录下的 context.xml

配置 memcachedNodes 属性,配置 memcached 数据库的 ip 和端口,默认 11211,多个的话用逗号隔开.目的?让tomcat 服务器从memcached缓存里面拿session 或者是放 session

  1. 修改 index.jsp,取 sessionid 看一看
<%@ page language="java" contentType="text/html;charset=UTF-8" pageEncoding="UTF-8"%>

	SessionID:<%=session.getId()%>
	
SessionIP:<%=request.getServerName()%>

this is tomcat 1

你可能感兴趣的:(大数据技术)