20150127

上午

资源管理和监控

cpu和memory概念

内存分为:

guest os virtual memory(application);

guest os physical memory(operating system);

esxi host pyhsical memory(vmware vsphere esxi host).

第一次激活这个技术:TPS,透明页面共享内存技术(内存回收技术)

第二个技术:baloonedirver

第三个技术:memory compression

第四个技术:LHC,LOCAL HOST CACHE

第五个技术:swap out 如果发生到swap out的时候,证明环境存在严重的内存不足的情况。

cpu

lcpu对应vcpu,

virtual SMP,对称多处理

超线程之后:

原来一个core只有一个lcpu,现在一个core有两个lcpu;

当cpu不够的时候,会启用cpu load balancing;

并不是给vm加越多的vcpu越好,比如给win7加2个vcpu,和给win7加8vcpu;这两种情况的区别是,只有2个vcpu,那它向物理cpu请求调度的时候,只需请求2个lcpu。而加了8个vcpu的win7,它向物理cpu寻找映射的时候,可以物理cpu资源不足,导致调度开销过大。会产生调度开销;调度评估时间;内存关联;

所以不建议单台vm的虚拟机超过8个。

跟着上面,第二个情况是如果你vm上的应用不支持多业务,是单线程;给vm配置越多vcpu,性能越差。

资源控制

资源的几个参数:

reservations最低保证,说明vm至少需要的资源,如果不足,则无法开启

limits是资源上限,不能超过

shares两台或多台虚拟机打架的时候,决定谁抢到的东西比较多,比列有:高:正常:低(4:2: 1)

默认情况:cpu的reservations是32Mzh

内存的reservation是32mzh

resevations是不参与内存回收技术的。

vss不支持network i/o control

不建议reservation的设置过大。

如果你给一台vm的reservation设置为8个g,但你的物理内存没有8个g,那么你就不能开启这台vm,尽管你这台vm开启只需要1g。

resource pool资源池

只能针对cpu和memory进行控制

可以针对vm设定cpu和momory的值

同一个资源池的资源,可以被这个资源池的vm共享。

研发池,可以针对这个资源池进行权限分配、

资源池的资源不同超过单台主机的上限。

reservation有两个参数

expandabel reseervation :yes

可扩展预留,如果一个retail pool的可扩展预留设置为yes,预留有3000mhz,它下面有web和apps的pool,在web pool开启了扩展预留yes,预留位1000,它下面有vm1预留了400,vm2预留了300,vm3预留了500,web pool本身不够,还差200,因为开启了扩展预留,所以它会向上一级请求资源。请求200.

默认情况下,可扩展预留是开启的。

监控软件

imoneter可以测出磁盘的IOPS

perfmon dll查看内存,

vcenter下自带的

磁盘的关键参数

kavg,davg,gavg,qavg,

衡量磁盘的性能问题

kavg大于3毫秒

davg大于15-20毫秒

gavg大于20-25毫秒

qavg不为0

以上都证明磁盘都有问题

网路的关键参数

看收发的数据有没有丢包,有的话,证明网路有问题。

如果某段时间,性能特别差,建议检查物理硬件问题。

用vsphere web client查看性能。

日志收集级别

有四个级别

事件,是从量变到质变,虚拟机关机,开机

状态,有触发条件,cpu达到百分之几。

配置执行动作

发邮件;;发警告;执行命令

vsphere and vcenter operations manager 已经改名为vRealize

可以监控vmware产品的所有东西。

有3个版本:标准版,高级版,企业版,按照并发数来卖的,25个vm起卖

分界面密码和命令行的密码,

要用web client去部署。

绿色,***,橙色,灰色,红色,找不到状态,分值高低,颜色区分不能代表什么问题。

vmware高可用技术

vsphere HA

高可用级别

99%   全年停机时间87h(3.5days)

99.9% 8.76h全年

99.99% 52min全年

99.999% 5 min全年

vsphere ha是用在计划外0停机,发生故障的时候,ha会重启vm

vm的心跳是在安装vm tools的时候安装的

esxi的心跳

esxi级别的高可用

vm级别的高可用技术。怎么测试,为虚拟机跑蓝屏代码;去esxi主机命令行杀掉vm的进程,两种方法

应用程序级别,重启应用程序。

默认情况下,vm级别和应用程序级别没有开启,如果敏感度级别设置很高,则在多少秒内没有收到vm的心跳,就回去重启vm,或应用程序

高可用重要的功能,心跳,分网路心跳和存储心跳。

在master主机和slave主机进行的,

fdm技术搞出了master主机和slave主机。心跳走的udp,一个cluster最多有32台主机,其中最多一台master主机,默认通过管理网路心跳存储。

管理网络主要是用来做心跳传输的。最好配两个以上的心跳网络,避免误判,配置方法:给心跳网络配置两个上行链路,且这种方法的nic teaming要设置为一主一备;分开两个vss,另一个命名为heartbeat,也连接一个上行链路,这种方式,注意两个上行链路不要配置一个物理交换机上。

存储心跳,如果两条网路心跳都down,会开始检查存储心跳。

5.0以前没有存储心跳

资源池

监控资源使用率

用警告

vcops

下午

准入控制策略

vsphere ha的准入控制策略:3种

允许整个cluster死掉多少台esxi主机:有两种;这种用在主机之间配置相近的情况。

3.0、4.5分配方式,slot side概念,把每个虚拟机当作一个slot,如果需要开启多少vm,则要多少slot,每个slot都有指定大小的cpu和ram,大小我们可以在下面配置,可以设定固定大小的cpu和memory,

如果选择第一种,会计算slot side中的cpu和memory大小,先看看开启状态下的vm有没有预留,如果有,则会去读取预留值,vcpu=?,vmonmory=?,再去加上vmm的开销,得出vcpu和vram的大小,然后再去比对,这台虚拟机的值是不是最大的,如果是最大,就会得出slot side中vcpu和vram就是等于比对出来的值。如果比对出来的值不是最大的;

如果没有预留,怎么直接去比对当前vm是不是slot side中的最大值,如果是,则直接设定。

理论上有多少slot side,就可以开启多少个vm,但实际上exsi还自己会暂用。

预留多少cpu和ram资源:如果当前环境已经消耗了50%的资源,这里填的是假定用了多少资源,填了25%,假定就用了75%,看剩下25%资源能不能满足ha的要求。

esxi主机配置的参差不齐的时候,建议选择这种模式

把某台主机作为故障切换主机

第三种模式用的比较少。资源会比较浪费

准入控制策略主要用来确保所有主机都能够重新开机

存储心跳

最少2个心跳存储,最多5个心条存储,心跳存储必须是共享存储。

vm overrides配置

如果进行网路维护的时候,可以去配置deslect host monitor的选项

vsphere HA的架构

master去管理protect list,protect list正常存在于master主机之上,从slave主机上获得,

如果slave主机死掉,然后master主机从protect list看slave主机哪些vm受保护,通知其他主机接管。

如果master主机死掉,选举新的master主机,选举原则:看谁的存储心跳较多;第二个原则,谁的moid较大,随机数字。

moid 98   moid99  moid 100

优先顺序 99,,,,98,,100

先比第一个数字,然后比第二个数字,

10  100 1000

优先顺序1000,,,,100,,,,10

master主机死掉,就会激活选举,新的master选举出来,就去找vcenter要protect list,

如果vcenter主机和master主机在同一台esxi主机上;利用规则规避vcenter主机和master主机跑在同一台esxi主机上。规则是,vcenter跑在存储心跳最少的esxi主机上。

网络隔离,建议配置两个以上的隔离响应地址。

同时间,vcenter只会和一个master主机通讯。