1 通过博客与51CTO结缘
最早与51CTO结缘是在2007年9月份,我在51CTO创建了个人博客,最早发的大多数是基于Windows的相关内容,例如Windows Server 2003、ISA Server、SharePoint、Exchange、Forefront TMG、Hyper-V,现在则主要发Windows Server与VMware、Hyper-V的一些内容,以及中心企业案例应用、故障解决等。这些文章没有多深的理论,大多是一些实际的应用。另外我的博客配图较多,也容易理解,受到了网友的欢迎。大多数文章的点击量、评论量都比较靠前。
图1-1 博客文章分类、文章点击、评论
截止到写这篇文章时,博客总访问量890多万,是2010、2011年十大杰出博客(2012年的我没有参加,当评委了)。
博客人气总排行第2,周榜、月榜也比较靠前。
2 百度搜索
在百度搜索一些产品的关键词(例如Forefront TMG、vSphere虚拟化等),百度搜索的相关技术文章也是我在51CTO发的博客。如果具体一些,加上我的 名字搜索一些问题,例如"百度 王春海 DNS"、"百度 王春海 负载均衡",都能搜索到我在51CTO发的博客。所以,有时候我就开玩笑的对问我问题的人说,你"百度 王春海 问题"差不多就能找到我写的文章。
3 51CTO学院
在2014年以前,我主要是以"文字+图片"的方式写成文章,向大家分享一些经验,介绍一些产品的应用,安装、配置、故障解决等。但对于某一个具体的操作来说,无论步骤多详细,总会舍弃一些"无用"的界面,尽管我们已经认为很详细,但有些内容对于但对初学者来看仍然是有点模糊、不清晰。另外,写文章到一定阶段,也是很"累"、有点麻烦了,写的如果过于详细,经常是好几页过去了,实际上就是鼠标点击几下的事,但实质内容也没有讲多少。如果跳过去,又影响读者阅读。2014年年初的时候,通过一次与韩立刚老师的交流后,我也准备以视频的方式分享技术。在2014年的年初,我录制了第一门课程"VMware服务器虚拟化视频课程之入门篇",这是第一次录视频,尽管准备充分,虽然内容上没问题,销量没问题(是我学院所有课程中销量最好的课程),但我后来总结,还是有一些问题:一,我的普通话不好,虽然尽量已经减慢语速,但有些字、词我说的不清楚。二,有一些口头语。
为了解决这些问题,在我以后的课程中,我的内容多是以操作、演示为主,理论为辅。在涉及到理论介绍的时候,我会用比较详细的拓扑图、产品架构图,配合图片进行讲解。如果需要介绍较长的理论,我会把这些理论以文字的方式放在PPT中,这样,即使我个别的字词说的不清晰,听众通过PPT上的文字也能理解我说的内容。当然,我也会在以后的课程中,尽量注意说话的语气、文字。
截止到2017年6月,在51CTO学院我录了正好40门课程,这些课程以虚拟化为主,其次是Windows网络应用、数据恢复、中小企业应用案例等一些课程。
4 互相交流,共同提高
通过51CTO博客与51CTO学院,我结识了许多朋友。虽然大多数网友都是通过问问题的方式与我认识,但也有些问题我也没有碰到过,或者有的考虑不深,通过与网友交流,在为网友解决问题的过程中,我对一些技术有了更深的了解,这同样对我的技术也有一定的提高。
【说明】这些可以在我的博客中,与读者交流、讨论中看到。有一些文章我回复了,我也不清楚,过段时间读者自己解决了就在博客中回复解决方法。
我上课的时候,给学生说过这样一个现象:一个班或一个宿舍,总有一、两个在某些方面特别"精通"的同学。但实际上,开始的时候,这个同学可能就比别的同学多会一点点知识,但周围的同学,碰到不会的都去找这个同学,这个同学实际上可能也不会,但其他人都不会了,只能靠他解决。他通过再学习、查资料、思考等多种方式解决了其他同学问的问题。一个人碰到的问题是有限的,但许多人都找他问问题,他解决的问题多了,也就成了"专家"。所以说,是众多的同学造就了他。
现在我也是这种情况,现在网友遇到的问题,都是生产或实验中碰到的问题,有许多是需要急需要解决的问题。这些问题有的是误操作、有的是使用不当、有的是硬件本身的问题、有的是前期规划不到位后期使用中出现的问题,这些问题我一个人不可能一一碰到,这些问题都来问我,有的我通过分析解决了问题,有的是靠以前的经验解决,更有一些我也是在网上查资料,或者通过设计实验,以实验的方式再现问题。
下面仅仅是近期与网友交流的一些心得记录,受博客页面字数与图片的限制,我就没有罗列更多的案例,在以后的时间中我会把一些典型的故障单独发文提供。
1 万兆直连2节点延伸群集实现双机热备
在vSphere 6.5.0d刚发布的时候,有个网友与我交流,说vSAN 6.6有个"万兆直连"的内容,是不是可以省个万兆交换机,了解这个情况之后,我通过查资料,并设计了"使用vSAN延伸群集"-2节点万兆直连组成的双机热备解决方案,拓扑如下(实验拓扑)。
图4-1-1 2节点vSAN直连vSAN延伸群集
在这个方案中一共有3台服务器,1台管理服务器安装vCenter Server与vSAN见证虚拟机,另2台服务器作为vSAN延伸群集主机,这2台服务器万兆网卡采用光纤直连的方式。这种方式实现了"双机热备"的功能:
(1)HA级别。虚拟机在某个节点运行,当这个虚拟机所在节点出现故障时,虚拟机会在另一个节点重新启动。系统重新启动需要几分钟的时间。
(2)FT级别。启用FT的主虚拟机与辅助虚拟机运行在不同的节点中,任意一个节点主机的故障不影响FT虚拟机的使用,如图4-1-2所示。图中的WS08R2-FT01(主)、WS08R2-FT01(辅助)分别运行在2个节点主机(172.18.96.43、172.18.96.44)上。
图4-1-2 启用FT的虚拟机
在图4-1-2中,2个节点主机172.18.96.43与172.18.96.44的vSAN数据流量的万兆网卡是通过一条光纤直连,而vSAN见证流量则是走管理VMkernel。
图4-1-3 万兆网卡直连
从上面的介绍可以知道,这个双机热备系统是一个"最小规模"的"vSAN延伸群集"(1+1+1,最大15+15+1)应用。面向要求较高、但服务器数量较小的单位。另外这个方案可以根据企业应用的扩大,通过添加万兆交换机、更多数量的主机,扩充到更多节点的延伸群集,或者将其转换为标准的vSAN群集,在整个升级、迁移的过程中,数据不丢失、业务不中断。下表是我设计的一个双机热备(2节点vSAN延伸群集)的硬件选型,仅供参考。
【说明】关于vSAN延伸群集的课程,请参考"使用VSAN 6.5 延伸群集组建双活数据中心视频课程"。
而2节点直连vSAN延伸群集的进阶课程会在近期上线。凡是以前购买过"深入学习VMware Virtual SAN视频课程专题"套餐的学员都可以再加1元的方式学习新课程。
2 DNS负载均衡
一个朋友介绍他单位情况:Active Directory域环境,1000多台计算机,2台域控制器(假设IP地址分别是192.168.1.1、192.168.1.2),客户端DNS设置的也是192.168.1.1、192.168.1.2,但网络繁忙的时候,域名解析不了不能上网,另外有时候192.168.1.1出问题时,有些计算机也不能上网,他怀疑是DNS的问题,问我没有解决方法。我提出用Windows Server的"网络负载均衡"解决这个问题,并且给他设计了下面的方案。
图4-2-1 DNS负载均衡解决方案
(1)准备3~5台Windows Server 2008 R2(或Windows Server 2012、Windows Server 2016),这3~5台安装DNS、安装"网络负载平衡",如图4-2-2所示。
图4-2-2 安装网络负载平衡
(2)之后创建群集,在"网络负载管理器"中,新建群集,设置群集地址192.168.1.10,群集服务器添加192.168.1.11、192.168.1.12、192.168.1.13。
(3)在192.168.1.11~13这三台服务器中,安装DNS服务器,每个DNS服务器,创建"条件转发器",将针对msft.com(图中示例域名)域名的解析转发到原来的两台Active Directory的DNS服务器192.168.1.1、192.168.1.2。将其他域名的转发转发到ISP提供的DNS。
(4)网络中所有的工作站,DNS设置为192.168.1.10。
3 vSphere紫屏硬件问题
网友问:老师 我是看您视频学习的 感觉还挺好 单位给了我两台曙光服务器 我搭建esxi 但是使用过程中 总是紫屏 已经换了好多个版本了 但是还是有这个问题
根据我的经验,VMware ESXi紫屏,主要有以下原因:
(1)修改内核:安装了ESXi之后,为了测试或实验的原因,使用ssh登录ESXi,修改了ESXi底层参数。
(2)内存问题:服务器使用了非原厂配件,主要是内存。或者是内存出问题。
(3)服务器硬件问题,这个问题主要是RAID卡、主板BIOS固件原因造成的。如果服务器已经良好运行了一段时间(例如几年或几个月),近期出了问题,则可能怀疑硬件问题。如果新的服务器,从新安装就这样,那一般是RAID卡、BIOS固件的问题,找厂商刷新最新的固件就可解决。
(4)ESXi版本问题:有些厂商有专用的ESXi版本,例如HP、DELL等,对于这些服务器最好是采用厂商的ESXi版本,而不要采用VMware的通用版本。
第二天网友回复我:老师您好 昨天和您交流的紫屏问题目前进展如下 。初步确定应该是bioss问题。情况如下我单位购置两台曙光服务器 其中有问题的一台我更改过bioss设置 另一台没有动过 昨天晚上和您交流后 我把没有安装的那台设备进行了安装晚上跑了一宿没有出现紫屏现象。所以我由此分析 可能是和我更改bioss设置有关。已经和曙光工程师取得联系 明天他们派工程师过来。
第三天网友回复我:
老师 和您反映的问题基本上找到毛病了 。我们的服务器有两颗cpu 八根内存条 。今天这样实验的 拔下一颗cpu 四根内存条 跑虚拟机约三个小时未紫屏。将另外四根内存条替换原来的四根内存条,跑虚拟机四个小时 未出现紫屏 所以初步判断应该是拔下来的那颗cpu出现了问题。
王春海 21:52:30
那就不是BIOS的问题,是CPU的问题吧
那拔下的这个CPU是原厂的吗
把8根内存条插到那剩下的一个CPU上,内存还多些
网友 21:54:49
嗯对 不是bioss的问题 今天最初先刷了源码 紫屏依旧存在 。拔下来的cpu也是曙光原厂的 由于时间和工作原因。还有一种实验没有验证 就是把“问题cpu”插上 跑虚拟机看是否紫屏 如果紫屏的话 就一定是cpu的原因了
嗯嗯 刚刚买的曙光服务器 明天新的cpu会到 然后都会插上
王春海 21:56:20
嗯,在正式上线前,多做测试。如果拔下来的这个CPU,单独插上也没有问题,那就是这个主板对 双CPU支持有问题
网友 21:56:58
因为明天我还要忙其他事情 然后以上聊天记录是我希望曙光工程师帮我验证的,他怕我拔坏了。好的 明天我力争一下 让他帮我测试一下。
总结:在以前我碰到的ESXi“紫屏”中,RAID卡、BIOS、芯片等固件版本的原因引起的较多,其次是内存引起,而CPU引起的很少见。等明天网友测试之后确认是CPU问题还是主板问题,到时会再次更新。
【说明】:最终确定本次故障是cpu问题,同样的内存,主板,换上“故障cpu”就紫屏了。曙光后续会换cpu过来的
4 服务器固件问题
一个项目配了4台HP DL 380G9,每台服务器安装了2块K2,他已经参考我的课程“配置图形加速的View虚拟桌面-NVIDIAGRID K2使用指南”安装配置了服务器。
图4-4-1 GRID K2使用指南
但在配置Horizon View桌面后,在启动虚拟机的时候出错,提示“模拟MKS打开电源失败”,如图所示。
图4-4-2 打开虚拟机电源出错
我与他沟通,让他将显卡配置为“直通模式”,配置为直通模式之后,虚拟机可以使用配置为“直通模式”的K2,并且在虚拟机中成功安装了驱动并经过了测试。后来我分析是服务器的固件问题。让他与HP售后联系,售后提供了新的BIOS之后,通过刷新BIOS之后,K2可以使用。
但存在一个问题,就是每次服务器开机之后,再检测K2显卡的时候,大约半小时才能进入系统,进入系统之后一切能用。HP启动界面如图4-4-3所示。
图4-4-3 服务器自检大约30多分钟
这个问题我们分析仍然是固件问题,最后刷到最新的固件,问题解决。
5 View桌面黑屏问题
网友们问的最多的可能就是VMware View桌面的“黑屏”问题,局域网内使用View桌面没问题(使用View连接服务器),但广域网通过View安全服务器使用View桌面,经常是登录之后黑屏。关于这个问题我会单独发一个文章介绍,关键步骤再于:
(1)规划:View安全服务器必须是一个内网地址,通过防火墙或路由器连接到Internet。View安全服务器不能直接设置两个网卡,一个网卡内网IP地址、一个网卡外部地址,这是不行的。
(2)View安全服务器与连接服务器配置问题。简单来说,View安全服务器配置页中,示例是域名的,你也需要配置成域名,示例是IP地址的,你也需要配置成IP地址,并且配置的是View安全服务器出口防火墙的外网IP地址。配置的域名,在公网解析的IP地址,则是在此安全服务器中指定的IP地址。
图4-5-1 安全服务器配置
关键点:在图中的“安全服务器”设置中,HTTPS安全加密链路与Blast安全网关配置选项应该输入域名,并且此域名应该能让“外部客户端”解析到连接服务器所属网络出口的“公网IP地址”,而PCoIP安全网关设置需要使用IP地址,并且是连接服务器所属网络出口的公网IP地址,该IP地址不能是安全服务器的内部IP地址。
(3)View连接服务器配置中,域名与IP地址都是内部域名及IP地址。
图4-5-2 连接服务器配置
关键点:在图中的“连接服务器”设置中,HTTPS安全加密链路与Blast安全网关配置选项应该输入域名,并且此域名应该能让内部客户端解析到连接服务器的IP地址,而PCoIP安全网关设置需要使用IP地址,并且是连接服务器的IP地址,该IP地址是内网IP地址。
6 单台服务器50个虚拟桌面案例
前段时间有个网友说,他们当地做虚拟桌面的需求较大,但虚拟桌面需要“一组”服务器+共享存储,感觉成本较高。为50个虚拟桌面配3台服务器+1个存储,初始的成本就很低。他们当地一般就是50个桌面的需求,有几个桌面需要用到图形设计。了解这个情况之后我就想,对于规模较小的应用,没必要配多台服务器,配1台高配置的服务器就可满足需求。经过分析与实验,我认为一台2U机架式服务器,配1~2块固态硬盘、8~12个SAS磁盘、256GB、1块K2显卡就可以达到需求。下图中所显示的服务器是1个DELL R730XD的服务器,配置了2个E5-2640的CPU,1块500GB的SSD,12块4TB的SATA硬盘,实际测试时,每个View桌面分配2.5GB内存时,可以启动、创建40个左右的Windows 7桌面,但没有经过压力测试。后期我将服务器扩到256GB内存,每个桌面分配4GB内存,同时创建50~60个桌面再进行测试。
单台ESXi主机View桌面托管