一,大型网站的特点: 1,并发数量高,访问量大。 2,处理的数据大(上1势必造成如下) 3,用户分布广泛,网络环境复杂。 4,稳定性高。 5,易于扩展。 6,安全性高。 1,服务器介绍 1.1,塔式服务器 :外形与普通pc机差不多,个头相对大一点。特点,插槽多,扩展性强,常用于入门级和工作组级别的服务器,不过相对占空间。 1.2,机架式服务器:宽度为19英寸,高度以U为单位(1U=1.75英寸=44.45毫米) 这种服务器占用空间小,可以将多台服务器装到1个机柜上,方便统一管理,但由于内间的限制,扩充性较受到限制。通常有1U、2U、3U、4U、5U、7U几种标准服务。这种服务器多用于服务器数量较多的大型企业使用,也有不少企业采用这种类型的服务器,但将服务器交付给专门的服务器托管机构来托管,尤其是目前很多网站的服务器都采用这种方式。 DELL R730 2U DELL R710 2U 1.3,刀片式服务器:主要结构为一大型主体机箱,内部可插上许多“刀片”,其中每一块刀片实际上就是一块系统母板,类似于一个个独立的服务器,它们可以通过本地硬盘启动自己的操作系统。每一块刀片可以运行自己的系统,服务于指定的不同用户群,相互之间没有关联。而且,也可以用系统软件将这些主板集合成一个服务器集群。在集群模式下,所有的刀片可以连接起来提供高速的网络环境,共享资源,为相同的用户群服务。在集群中插入新的刀片,就可以提高整体性能。而由于每块刀片都是热插拔的,所以,系统可以轻松地进行替换,并且将维护时间减少到最小,比机器式服务器更节省空间,散热也比机架式的相对好点,不过相对贵点。 2,虚拟主机、vps主机、云主机。 2.1,虚拟主机:虚拟主机是共享主机的一种形式,共享主机其实就是一台服务器上有许多网站,大家都共享这台服务器的硬件和带宽,如果它发生故障,所有的网站都会无法访问。 2.2,vps主机:将一台服务器分割成多个虚拟专享服务器(vps),每个vps都可以分配单独的公网Ip,独立的操作系统个、独立的操作空间、独立的cpu资源等。相对虚拟主机,可操作的自由度很强,有点和windows下的虚拟机很相似。 2.3,云主机:它共享的不再局限于某台服务器,而是云里面的所有服务器,主要特点就是稳定,如果出现某台服务器后某条线路出现问题,系统会自动把你的网站和IP地址分配到其他服务器上去,绝不会让你的网站出现无法访问的情况。 3,网络、安全设备(交换机、路由器、防火墙) 4,网络存储技术 4.1,DAS(直接附加存储,Direct Access Storage)直接附加存储是指将存储设备通过SCSI接口或者光纤通道直接连接到一台服务器上使用,购置成本较低,配置简单,使用过程和使用本机硬盘无太大区别。 4.2, NAS (网络附加存储,Network Attached Storage,依赖其自身的操作系统) NAS实际上带有瘦服务器的存储设备,其实你可以把它理解为就是网络文件服务器。NAS设备直接连接到TCP/IP网络上,网络服务器通过TCP/IP网络存取管理数据。NAS作为一种瘦服务器系统,易于安装和部署,管理使用也很方便。同时由于可以允许客户机不通过服务器直接在NAS中存取数据,因此对服务器来说可以减少系统开销。常见的品牌群晖 威联通等。 支持nfs samba 和http访问,但是如果其自身操作系统挂掉,那么就不可用。 4.3, SAN(存储区域网Storage Area Network,没有自己的操作系统,通过网路和光纤连接它) 独立于TCP/IP网络之外且就是为存储而建立的专门性网络就是SAN。由于使用高端的RAID阵列技术,所以它甚至能达到2-4GB/S的恐怖传输速率。 不过这个成本相对比较高,因为它需要光钎通道和SAN阵列柜,小型企业一般不会使用这种。 5、IDC机房 机房、机柜、网络(交换机、路由器)、电源(UPS、发电机) 三,基础概念 1,http协议:超文本传输协议,默认端口号80,如果是是https的话,默认端口号是443。那么https是对用户的请求是经加密的,换句话说,如果有人将我们的请求数据劫货了,他也没法在我们的请求中找到有用信息。 htpp主流版本分为1.1 1.0 二者之间的最大区别在于1.1是支持长久连接的(几秒内打开页面上两个链接,与服务器上保持连接,)、支持host请求头字段,默认情况下我们使用浏览器访问网站使用的http协议都是1.1,我们也可以选择1.0. 2.用户访问网站的过程: 用户输入浏览器的网址——>本机DNS服务器解析域名为IP——>web浏览器把请求发送给远程服务器,——>客户端服务器建立TCP连接——>传输数据——>关闭连接 3.1 GET:向特定的资源提交请求,打开一个网页 3.2 POST:向指定的资源提交数据(比如表单、文件),比如说输入用户名和密码,登录网站 3.3 PUT:向指定的资源的位置上传内容,上传一个文件,论坛更新图片,首先删除,就是delete 3.4 DELETE:删除某一个资源的,类似于数据库的delete的操作,论坛发帖,上传图片就是put 3.5 HEAD 不需要获取内容,只需要header,下面就是head例子,获取一些信息 [root@ZAMP ~]# curl -I www.baidu.com HTTP/1.1 200 OK Date: Wed, 24 Aug 2016 06:15:23 GMT Content-Type: text/html; charset=utf-8 Connection: Keep-Alive Vary: Accept-Encoding ………… Expires: Wed, 24 Aug 2016 06:14:57 GMT X-Powered-By: HPHP Server: BWS/1.1 X-UA-Compatible: IE=Edge,chrome=1 3.6 MOVE 就是网页301跳转 [root@ZAMP ~]# curl -I www.aminglinux.com HTTP/1.1 301 Moved Permanently Server: nginx Date: Wed, 24 Aug 2016 06:21:00 GMT Content-Type: text/html Content-Length: 178 Connection: keep-alive Location: http://www.apelearn.com/ 3.6 referer 是当前页从哪里链接过来的地址,user-Agent说明访问浏览器。参考http head详解. 4,常见的状态码 200 301 302 304 401 403 404 500 502 503 504 200,ok 301,永久重定向 302,临时重定向 304,未修改文档,浏览器本地缓存的文件 401,用户认证(用户名和密码输入不对,401状态码) 404,未找到资源 403,禁止访问 500,内部错误(程序问题,代码问题) 502,请求未完成,一般是nginx找不到php,或者php资源耗尽 503,请求未完成,服务器临时过载或宕机。一般是做代理时,后端服务器出现问题,这种状态返回503 504,网关超时,一般数据库出现问题常会显示这个代码,查询数据表很慢,不能及时反馈给php,php不能及时反馈给nginx 5,网站元素的解说 JS CSS PNG Jpeg rar ... CSS控制网站的布局 JS一些脚本加载插件 HTML网站基本布局 [root@ZAMP~]# cat /opt/nginx/etc/nginx/mime.types types { text/html html htm shtml; text/css css; text/xml xml; p_w_picpath/gif gif; p_w_picpath/jpeg jpeg jpg; application/javascript js; application/atom+xml atom; application/rss+xml rss; 6,URL、URI URL,一种网址,http://www.apelearn.com/bbs/ 统一资源定位符 ,URI,统一资源标识符。其实URI是包括的URL的,URL一般是以http开头的,通过这个打开个页面,而有的uri你在地址栏输入的时候根本没法访问。 首先,URI,data/cache/style_2_common.css?enI和 data/cache/style_2_forum_viewthread.css?enI都是URI, URI是uniform resource identifier,统一资源标识符,用来唯一的标识一个资源。而URL是uniform resource locator,统一资源定位器,它是一种具体的URI,即URL可以用来标识一个资源,而且还指明了如何locate这个资源。而URN,uniform resource name,统一资源命名,是通过名字来标识资源,比如mailto:[email protected]。也就是说,URI是以一种抽象的,高层次概念定义统一资源标识,而URL和URN则是具体的资源标识的方式。URL和URN都是一种URI。 以下这两种也是URI,但不是URL,不带http samba提供的//192.168.101.1/abc/123 ftp提供的file://www.demo.com/abc 7,静态网页、动态网页、伪静态。 静态网页就是一个简单的html网页 动态网页:可以把数据库的数据提取出来,有和后天数据库的交互过程 伪静态:两个网址不同,内容却是一样的。因为配置了伪静态规则,rewrite规则。好处是可以让搜索引擎更喜欢你的网站。 7.1 静态网页,一般是以.html、.htm结尾的网页。 7.2 动态网页,一般后缀名.asp .php .jsp .cgi的网页,并且在动态网页网址中有一个标志性的符号——“?”,最主要的是他要是要后台数据库进行交互的。 7.3 伪静态, 顾名思义,他其实是动态的网页,通过rewire的功能,表现出来的是1个静态网页,这样有利于网站的排名。 8,常见的web服务器软件 apache nginx(tengine) iis(微软的产品,) tomcat 9,量级术语 9.1 ip uv pv ip 百度或者http://www.ip138.com查看出口公网IP,办公室100个人访问同一个网站,实际上只是一个公网IP访问 pv page view 指的是访问这个网站的页面有多少,包括刷新,每个pv是指访问每个页面 DAU daily active user日活跃用户数 MAU monthly active user月活跃用户数 pv/uv>20说明网站很受欢迎,一个人在该网站访问20多个页面 举个列子,银行5个窗口,来了20人办理业务 并发连接数,同一时间内有多少个人来访问这个网站,并发数20吞吐量:在某一个时刻,我们服务器能处理的请求数,吞吐量5 9.3,如何评估网站最大并非连接数? 9.3.1如何统计网站访问量? 接入第三方统计平台(CNZZ、51LA(www.51.la)、百度统计) 通过分析访问日志做统计awstat 9.3.2 :专业工具loadrunner 9.3.3:压力测试工具 ab ,可以设置并发数和访问量,获得网站的吞吐量 yum instll -y httpd 默认带有ab命令,需要具体到某个文件 ab -c 100 -n 1000 www.qq.com/index.php -c 表示并发数,同时多少人去访问 -n 表示请求数,同时请求的连接,例如请求的页面 重要的指标; Failed requests: 0 失败0,没有失败请求 Requests per second: 每秒钟处理多少个请求,吞吐量 Time per request: 处理每个请求数花费的时间,打开网站反应的时间[root@132 ~]# ab -c 100 -n 1000 http://www.qq.com/index.php This is ApacheBench, Version 2.3 <$Revision: 655654 $> Copyright 1996 Adam Twiss, Zeus Technology Ltd, http://www.zeustech.net/ Licensed to The Apache Software Foundation, http://www.apache.org/ Benchmarking www.qq.com (be patient) Completed 100 requests Completed 200 requests Completed 300 requests Completed 400 requests Completed 500 requests Completed 600 requests Completed 700 requests Completed 800 requests Completed 900 requests Completed 1000 requests Finished 1000 requests Server Software: squid/3.4.3 Server Hostname: www.qq.com Server Port: 80 Document Path: /index.php Document Length: 1131 bytes Concurrency Level: 100 Time taken for tests: 4.040 seconds Complete requests: 1000 Failed requests: 0 失败0,没有失败请求 Write errors: 0 Non-2xx responses: 1001 Total transferred: 1366365 bytes HTML transferred: 1132131 bytes Requests per second:吞吐量)247.53 [#/sec] (mean) 吞吐量每秒钟处理请求达到247个,100并发完全可以处理 Time per request: 403.995 [ms] (mean)处理每个请求数花费的时间,打开网站反应的时间 Time per request: 4.040 [ms] (mean, across all concurrent requests) Transfer rate: 330.29 [Kbytes/sec] received Connection Times (ms) min mean[+/-sd] median max Connect: 35 38 4.0 37 56 Processing: 35 43 100.0 39 3201 Waiting: 33 42 99.7 38 3191 Total: 70 81 100.2 76 3239 Percentage of the requests served within a certain time (ms) 50% 76 66% 78 75% 79 80% 79 90% 82 95% 96 98% 102 99% 104 100% 3239 (longest request) 9.3.4 服务器配置预估 8核至强E5,8g内存 纯php跑300已经很优秀了,150左右响应时间已明显变慢 我们通常说的并发并不单单是动态并发,要包括静态 discuz一个页面里面的静态内容占据90%以上 不同的网站类型动静态所占的比例也不同 我们可以大致上以2:8原则作为一个评估标准,一个网站的请求里面80%是静态,20%是动态 nginx支持最高静态并发可达3w 若动态150,那静态为600,整体上为750 根据2:8原则,网站80%的pv在20%的时间内完成,24*0.2*3600*150/0.8=340w 搜索引擎以及其他非人为访问也可以占到30%-50% |