虚拟化笔记

  1. FT不支持一个以上的vCPU;

  2. 尽量不要使用/etc/hosts files, 如果加到cluster里面,HA会自动更新/etc/hosts文件;

  3. VPXA负责与Vcenter 通信;VMAP负责翻译HA agent(AAM)给VPXA;

  4. 当主机添加到Cluster里面,VMAP自动load 到VPXA中;

  5. 一个cluster最多32个hosts,5个primarynode;

  6. Vcenter 宕机了,HA怎么办? Primary Node会粗略估计failover策略;

  7. Cluseter中 Primary之间信息同步时间是10s( 时间过短会导致traffic高; ),node之间的心跳时间是1s;

  8. Primary Node:最先加入cluster的5个node就默认为Primary node,除了第一个node,以后加入的node都必须和Primary node 交流; 如果所有的primary node都 宕机了,这个cluster将不能添加或移除node;

  9. 4.1中不可以看那个是primary或slave,但是可以这样看,【Cluster’s summary tab】->[Operational Status],当然还有另外的一种方法,登录到esxi host主机上 cat /var/log/vmware/aam/aam_config_util_listnodes.log

  10. 4.1中最多是5个Primary node,可以手工添加,但是不鼓励;会增加网络和CPU资源的消耗;可以通过命令promote 节点为primary node;

  11. 什么时候promote 节点为primary n0de?

    • When a primary node is placed in “Maintenance Mode”

    • When a primary node is disconnected from the cluster

    • When a primary node is removed from the cluster

    • When the user clicks “reconfigure for HA” on any ESX host

  12. HA配置中,为什么只容许4个??原因是如果是5个failure node的话,很有可能5个都是Primary node,这就无法使用HA功能了;

  13. Failover Coordinator: 在5台Primary中选择一台;这个家伙负责协调重启vm,和vm重启的优先级;

  14. HA不和DRS协同工作,一旦有vm被Failover Coordinator重启了,那么DRS会立即介入,重新分配到底run在哪个Host上;Failover Coordinator一次可以同时在一台主机上起32个vm;

  15. 所以在考虑chassis架构的时候要考虑到不能把所有的primary node放在同一个chassis上,如果这个chassis 宕机了,那所有的HA,DRS就失去作用了,没有任何vm会重启;

  16. 如果用chassis的时候,选择那些host放到cluster里面,要十分注意;一个chassis上不要超过4个hosts,防治5个primary node都run在这个chassis上;

  17. 可以手工指定Primary node但是不建议在生产环境中使用;

  18. HA怎么知道node是 failed或者isolated? HA本身是不知道的,其他的Primary节点会知道,无论failed还是isolated都会尝试去restart虚拟机,如果是failed的,那没问题,file lock会timeout,自然vm会被重启;如果是isolated,虚拟机的VMDK和swap文件有lock,想重启也重启不了;重启尝试次数:

  19. 6CFF33D71D9742C0ADFD29E01BA86B59

  20. ‘乒乓’效应:如果把Host isolation设置为'Leave power On',则会造成乒乓效应,受影响的虚拟机没有关闭的同时,又在其他Host上起来;如果用iSCSI或NFS存储;所以如果用基于网络的存储“iSCSI,NFS,FCoE”,推荐“shutdown/Power oFF”

  21. Isolation是如何探测的:这是HA的关键环节,如果一个node在13s内没有接收到任何其他节点的heartbeat,HA就会ping 管理网段的gateway 也就是“isolation address”,触发“Isolation response”

  22. 如何理解HA Failure Detection Time:(知道自己isolated 13s+其他node探测/mark他为isolated+failover

  23. 177074086C0749AB9CB99BE1949F1295首先明确一点Power Off是 Vmtools执行,而Restart vm动作是 failover coordinator执行:13s时候没有接收到任何节点heartbeat,则ping ‘isolation address’也就是意味着14s响应 PowerOff;然后failover coordinator 负责探测管理网络(考虑管理网络的数量,假设是两条就是2s),如果failover coordinator发现管理网段都挂了,则发起重启vm动作,时间发生在15s-17s之间,但是假如在这段时间内从ESXi host获得了heartbeat 了,怎么办?那不是vm起不来了吗?可能吗? YES;如何避免呢?尽量设置das.failuredetectiontime 值小点(15000)

  24. 如何增加"Network heartbeat" resiliency? 可以做NIC teaming;推荐架构:

  25. 36F8140C66D9416CA181397C99A7CA6C缺点是只有一条heartbeat链路;

  26. 其实三块网卡是最好的:

  27. 9D04103F381D473F8D384159BEB8C320优点是管理是两条active,Vkernel也做到了active/standby。

  28. Admission Control:三种Adminssion Control有不同的机制,最难懂的就是“Host Failures Cluster Tolerates",它采用slots机制,一个slot对应一个vm;Slots是在vCenter哭叫没有资源之前,能起多少个vm;Admission Control,不是在HA 重启vm的时候生效的,而是保证有足够的资源run虚拟机;

  29. 疑问:为什么HA重启VM的时候不检测Admission Control policy?Admission Control 是由Vcenter控制的,HA重启vm是由Primary Node ESXi 主机控制的,和vCenter没有任何关系;,这是个异步过程;Vcenter发现资源不够了,那就不会让HA重启更多的虚拟机vm;

  30. Host Failure 设置越大,剩余的Slot越小,越无法满足Failover;

  31. FD2BC2AEACC943F181C4A5D4A0C14752

  32. Percentage of Cluster Resource Reserved: 比如设置为50%,如果当前可用的resource<=50%,那么HA将会无法重启vm;

  33. Host Failure Tolerant:最大是4:值越大,剩余的可用slot越小,如果剩余的可用slot没有了,那么HA将无法重启VM;

  34. 如何选择Admisson Control? 原则是什么?

  35. Host Failures Cluster Tolerates:一般选择N+1,或者N+2;优点:当有新的Host加入,自动计算可用的Slots;保守计算Slot size,保证failover可以工作;缺点:保守估计Slots 大小的时候造成资源浪费;

  36. Percentage Based Admission Control:给每个vm failover预留的资源计算准确(可用的CPU,MEM百分比);当有新的Host加入,资源可用百分比自动计算;

  37. VM Monitoring与HA是相对独立的功能:两者不能混为一谈;VM Monitoring原理:

  38. C5766D43A33243D89CF9D9BB4C6C9B84VM Monitoring 通过VM tools 去VPXA拿心跳(心跳是内部的,不经过网络);如果在规定时间内没有获得心跳,将会重启,疑问:会不会一直反复重启?不会的!有一套policy防治这样的事情发生;

  39. AAM与VM monitoring 没有任何关联,VM Monitoring是sits in VPXA Agent中

  40. E653E85995AD49BAA984E615C7B94904VPXA Agent里面有个Performance Manager,负责侦测Network,DISK usage; VPXA 每20s向Performance Manager 请求一次探测结果;


  41. 如何测试VM Monitoring:1) Turn off vmware tools with /etc/init.d/...2)Kill the vmware tools process,这些都不起作用,任何人为的动作,将被忽略

  42. VM Monitoring原则: VM Monitoring是HA的一部分,建议启用;


你可能感兴趣的:(vmware)