开门见山。
经过现场实测以及对环境调研评估。确认目前用户邮件系统存在以下亟需解决的问题:
1、 Domino邮件服务崩溃问题。客户端的长连接会间歇性产生于Domino HTTP/POP3/SMTP服务通讯的无响应问题。此问题困扰用户很久未得到解决。
2、 Domino邮件系统由于历史原因,历年来从R5分多次逐步升级到R8.5.1,升级跨度较大,原有R5版本Domino管理策略及运维方式和R8.5.1版本相比显著变化,目前的用户量和数据量增长的情况下,非常有必要对Domino系统进行技术改造,技术改造的目的是:
i. 提升Domino邮件系统的性能,带来系统处理的便捷。
ii. 提高Domino邮件系统的高可用性,消除目前的安全隐患,显著较低邮件服务崩溃、邮件丢失的风险。
iii. 重构邮件基础架构,以达到新版本环境下邮件系统所要求的可靠性。
3、 巡检及评估调研中,我们了解到,用户的网络链路存在部分外部用户(含代理商及公司出差的商务人员)访问公司营销投入系统延时,性能缓慢的情况。特别是很多北方用户反馈经常无法打开,或访问速度很慢。这种情况对公司整体IT效率产生了一定的影响。
根据崩溃邮件日志及系统日志分析,产生这样的崩溃的原因有两种可能情况:
1、 操作系统Windows 2003 X64环境中部分补丁及注册表需进行调优,由于Domino 8.5.1环境是一个对Windows操作系统中的内存管理(非分页文件池管理)、文件系统管理(NSF文件访问性能)、网络管理(SP2中默认启用的可缩放网络包SNP优化)有着严格要求的软件版本,因此采用默认安装配置策略将会在用户量增大,数据量增加的情况下产生严重的性能影响,究其原因是Windows的bug,目前Windows 2003 x64环境已经提供了修复方式和补丁程序,详情如下:
http://support.microsoft.com/kb/950224/zh-cn
http://support.microsoft.com/kb/948496
症状:
在拥有启用了 TCP/IP 卸载的网络适配器的计算机上安装 Windows Server 2003 Service Pack 2 (SP2) 或 Windows Server 2003 可伸缩网络包 (SNP) 后,您可能会遇到很多网络相关的问题。
Windows Server 2003 SNP 启用后,可能会出现以下问题:
· 尝试使用 VPN 连接连接到服务器时,收到以下错误消息:
错误 800: Unable to establish connection.
· 您无法创建到服务器的远程桌面协议 (RDP) 连接。
· 您无法从局域网上的计算机连接到服务器上的共享。
· 您无法将客户端计算机加入到域。
· 您无法从运行 Microsoft Outlook 的计算机连接到 Exchange 服务器。
· 可能无法清理到 Exchange 服务器的不活动 Outlook 连接。
· 您的网络性能会下降。
· 与基于 Windows Vista 的计算机通信时,网络性能下降。
· 您无法从服务器创建传出 FTP 连接。
· 动态主机配置协议 (DHCP) 服务器服务崩溃。
· 登录到域时系统性能下降。
· 位于 Windows Small Business Server 2003 或 Internet Security and Acceleration (ISA) Server 后面的网络地址转换 (NAT) 客户端会遭遇间歇性的连接中断。
· 您会遭遇间歇性的 RPC 通信中断。
· 服务器停止响应。
· 服务器在非页面缓冲池内存上运行速度变慢
原因:
由于在 Windows Server 2003 Service Pack 2 中启用的 Windows Server 2003 SNP 功能存在多个问题,因此导致出现这些问题。这些功能包括接收方缩放 (RSS) 和 TCP/IP 卸载。具体来说,这些问题包括:
· RSS 与 NAT 或网络负载平衡 (NLB) 不兼容。
· 在使用 Window 缩放功能时 TCP/IP 卸载出现问题。当与基于 Windows Vista 的计算机通信时通常会出现此问题。Windows Vista 使用 Window 缩放功能。
· 某些启用了 TCP/IP 卸载的网络适配器不会发送 TCP“保持活动”消息。但是,Exchange 服务器会使用 TCP“保持活动”消息来清理非活动客户端会话。
· 启用了 TCP/IP 卸载的网络适配器可能会占用很多非页面缓冲池内存。这可能会在该操作系统中导致其他问题。
· 在某些情况下,启用了 TCP/IP 卸载的网络适配器可能需要较大的连续内存。这会导致计算机在尝试释放内存时停止响应。
解决办法:
1、 更新网卡ROM固件程序和所匹配的网卡驱动程序,详情参见服务器支持页面和网卡厂商支持页面。
2、 补丁 (KB948496) 程序包更新,目前经过检查,系统已更新。
3、 手动禁用网络适配器驱动程序中的“接收方缩放”和“TCP/IP 卸载”。
4、 安装微软专用故障修复程序,见下图中的Fixit50051
5、 由于部分KB948496以后发布的补丁会启动将禁用的RSS和TCP卸载功能重新启用,因此我们必须在操作系统中以administration权限将注册表中完全禁用掉。
注意:补丁禁用旨在对操作系统内核文件进行一个baseline级别的更新,Fixit50051修复程序旨在针对新系统(未部署Domino服务)的注册表进行更新,由于Domino配置后会影响注册表的更新,因此最后的手工修改也是不可缺少的环节。
通过以上步骤,可以解决由于Windows 2003配置不当导致的Domino服务崩溃问题,这个步骤也非常有必要,消除了许多NAT间歇性中断故障并提升了网络访问性能,增强了Windows内存管理的健壮性。适合老旧服务器的优化。
2、 Domino BUG需升级并更新Domino补丁
我们可以发现一个bug已被修复,和我们的报错信息有关:
详细如下:
Waiting for write lock on rwsem 0x0A17 NET package init/term semaphore
修复方式:
这个问题来源于第一个问题,由于R5版本升级到R8.5.1后,软件升级了,但操作系统说匹配的正确配置没有跟上,对应的新版本环境下的最佳实践运维方式没有执行,最终导致了无法根治邮件故障,而且造成了许多潜在的性能问题和可用性问题。经过调研,我们发现了存在以下漏洞:
1、 邮件服务器硬件环境的CPU利用率居高不下,根据Domino 1500用户的峰值计算,并依据存储IOPS的计算可知,当前服务器硬件性能捉襟见肘。
2、 邮件服务在R8.5.1中和R5不同,新版本中拥有多个邮件组件构成,一个邮件服务包括了HTTP服务(许多用户基于B/S访问方式,这个组件是关键节点),LDAP目录服务,邮件路由网络服务,邮件数据库服务等。目前这些组件部署在一台陈旧的服务器上,面对超出了其负载能力的用户数和邮件量,会产生诸如“死锁”,“长连接未释放”等造成故障的导火索。
3、 这么重要的邮件系统,居然没有提供备份服务!这是无法想象的,备份措施必须具备,否认但磁盘阵列硬件故障或Windows Server产生了病毒感染,恶意攻击后,会影响到邮箱数据泄密,数据丢失。这是技改的重中之重。
怎么解决?
1、 更新邮件服务器为新配置的IBM X3850 X5,稳定可靠性强,性能及IOPS问题解决了,而且还可以和原有的HS22刀片之间做虚拟化同步技术,符合技术上的未来需要。
2、 有了新的邮件服务器后,如何部署呢?
我建议基于如下配置,该架构符合当前系统环境和Domino版本以及用户量和数量。并且符合IBM推荐的Domino架构最佳实践。
在如图描述的架构中,解决了几个痛点问题:
(1) 基于邮件安全网关来对邮件系统本身的安全检测,邮件收发记录审计,以及操作系统病毒感染进行了全面安全防护。
(2) 邮件服务构建了群集环境,这样可以防止邮件服务崩溃造成的服务不可用,即使出现邮件服务器故障,群集会将邮件服务故障自动转移,形成邮件服务互备模式,而且很好的达到负载均衡,提升性能。
(3) 将HTTP服务器与邮件服务组件分离,可以从可靠性和性能上解决不再出现长连接,死锁等故障导火索。
(4) 备份管理充分基于SAN环境进行邮件系统备份到磁带库中,避免了基于IP-SAN环境下的LAN-FREE模式,不必占用生产的网络带宽。有备无患。
怎么做呢?
(1) (必选)新增加邮件服务器2台,构建上图中的邮件服务器集群。建议配置及型号为IBM X3850 X5,推荐IBM服务器的原因是在Domino 9的未来三年环境中,可以充分基于IBM X3850和原有IBM HS22刀片服务器进行设备虚拟化同步机制,如果基于其他品牌服务器则无法利用HS22中的Domino 9应用虚拟化功能。配置要求:CPU 至强E7级别,内存64GB以上,千兆网卡3块做802.3AD部署及群集心跳,HBA卡要求双链路控制,其他内容无特别说明均以标准配置。
(2) (必选)利旧现有的邮件服务器硬件,将其作为独立的HTTP服务组件。分离HTTP服务问题,显著提高可靠性。利旧环境新增千兆网卡,网卡规格同邮件服务器的网卡,其他配置不必升级。
(3) (必选)新增加备份服务器1台。部署TSM for mail备份系统,我们了解到XX公司拥有正版IBM TSM备份软件授权,但由于各种原因,没有用起来。此番部署不但可以解决邮件系统的无备份问题,而且可以借此机会,四通公司通过实施服务,为用户提供全系列TSM备份软件的培训,实施,维护服务。让TSM用起来,让邮件系统安全起来。
(4) (必选)新增邮件安全网关设备。我们建议采购IBM Lotus Protect的邮件安全网关,在我们的项目实施经验中,它的设备是IBM安全网关设备中表现非常卓越的,而且获得了Domino应用的授权,不存在兼容性问题。
(5) (可选)新增备份磁带库。备份系统我们可以将备份数据存放在备份服务器的本地磁盘上,如果预算充裕的情况下,我们建议新增1台LTO-6的备份磁带库。安全高效。
(6) 容量规划及架构性能规划,补丁准备,配置项准备checklist。
(7) 首先利用TSM备份现有Domino 8.5.1 FP5环境下的Domino邮件系统,并进行快照实现环境克隆到备份服务器。
(8) 在新增的邮件服务器上安装部署邮件系统Windows 2008 R2/Red hat Linux 6(建议基于Linux处理,但考虑到XX的管理员技术能力也可以采用Windows 2008 R2,不建议Windows 2003)环境下的Domino 9集群环境。
(9) 在利旧的邮件服务器上安装部署Domino HTTP服务器组件。
(10) 利用TSM进行备份恢复
(11) 补丁及组件配置,运行Domino负载生产测试程序迭代进行测试调优。
3、 通过以上配置和技术改造,可以达到以下效果:
(1) Domino崩溃问题得到根治
(2) Domino构建了一个健壮的基础架构,并可以达到一个灵活弹性的可扩展的基础架构,我们可以依据每年的投资预算来不断完善它,避免了重复投资,并进行了合理利旧,成本效益显著。
(3) HTTP访问邮件系统的性能得到了稳步提高,并解决了HTTP故障和Mail故障之间的交叉关联性。
(4) 拥有了完整的邮件备份系统,再也不必担心邮件丢失风险了。
(5) 拥有了最安全可靠的权威的邮件安全网关系统,不必担心泄密及邮件安全带来的影响了,而且还顺便得到了邮件历史可追溯系统。
(6) 尘封已久的TSM授权终于用起来了,发挥出了它的价值。
解决思路:
根据故障用户收集其访问营销投入系统的路由访问情况进行测试追踪,利用专用的技术工具和开源数据包,解析出故障请求的产生原因和路由缓慢的症结,然后利用营销投入系统DNS服务进行优化配置,并和联通/电信专线运营商进行链路优化,为这些用户分配更有效的带宽和网络QOS优化。从而达到解决问题的目的。
解决方案:
网络路径结点回溯分析工具,以在世界地图上显示连结的路径的方式,让你知道当无法连上某些IP时的真正问题所在.
Visualware公司的VisualRoute是一种图形化的Traceroute、Ping和Whois实用程序,集合了一系列著名的免费应用软件,可以对Internet连接中出现的问题进行全面的分析.
它可以跟踪IP地址间的跳跃,并可跟踪连接情况.Traceroute的结果将通过基于Web的接口显示在一个表格和地图 中.VisualRoute可以并行处理所有的IP跳跃,并支持用于高级调试的LooseSourceRoute(LSRR)信息.LSRR是IP报头中 的一个选项,允许网络经理指定一组节点,并且要求数据包在到达目的地之前必须通过所有这些指定的节点.VisualRouteServer工具包是一个可选的附加软件,允许客户在一台中心服务器上安装VisualRoute,并让外部的用户通过具备Java功能的Web浏览器访问 VisualRoute.VisualRouteServer可以安装在防火墙外的服务器上,使防火墙内的管理员能够查看路由跟踪信息.
追踪结果
首先,有各种可用的窗格显示不同的数据,这些窗格可以关闭和使用 意见 如下所示,在工具栏上的第一个特定的traceroute。
不同的窗格包括:
l 分析
l 世界地图
l 路线图
l 表
l Traceroute的平图 (高级版及以上)
l 历史
l OmniPath
欲了解更多信息,在这里你点击使用各种可用的选项 。
下面是一个完整的traceroute的例子,一个近距离的每个窗格。
上述五个编号窗格详细解释如下:
1。 分析窗格
分析窗格将分析认为刚刚进行测试。 分析将提供一个关于如何执行的路线和时间长短走的路线指标,跳针指向低于平均表现。
2。 OmniPath
该OmniPath 商标 功能的工作以不同的方式向经常traceroute的VisualRoute执行的。 蓝色的航线中,如下所示的图像,显示你的位置路线从您的机器到最后,随着位置。备用路由,也许要到采取同样的 更多信息,请点击这里 。
3。 Traceroute的平图窗格(仅高级版及以上)
在traceroute平积小区为每个窗格中的每个阶段的traceroute跳的响应时间。
正如你可以看到上面图片上的每一跳有其自己的路线图。 如果您将鼠标点在一条直线上的一个流行将显示您的跳数,响应时间及屏时间。 每跳坪默认为5(喜好设定- >“高级选项卡),所以有5个以上不同的值例如为每个上车。 如果您更改此值,那么你会得到更多的价值等 详细信息,此功能在这里点击 。
4。 历史窗格
总结历史窗格你所做的每一个特定的IP地址/域名的traceroute。 正如你可以在上面看到他们是由最近并显示啤酒花,最大和最终的损失,最大和最终毫秒数排序。 这种看法可能是有用的,如果你想点一针一天中的特定时间/周时发生问题,或者只是想监控异常情况等具体路线
5。 地图窗格
该地图在traceroute窗格显示了在世界地图上所采取的路线。 右键单击左一下可以让你放大和缩小的地图。
6。 表格窗格
表格窗格中,如上所示,为您提供各种信息的不同,在traceroute的啤酒花。 节点名称和网络名称,可以通过点击查看Whois信息。
7。 路线图窗格
这条路线图窗格显示你在每一跳的往返时间为基础的路由跟踪。 你可以通过对每一跳的跳悬停鼠标更多的信息。 这样做将导致出现一个弹出,如上所示。 这会给你弹出该跳更深入的信息。
什么是TTL?
所有IP数据包有一个TTL域和IP数据包在互联网上获得通过,这TTL值降低,通常在每一个跳。 如果这一领域不断得到降低至零,则IP数据包被丢弃,没有到达目的地。
1、开始 -非常简单的点击 开始 按钮将重新启动刚刚执行的跟踪路由。
2、 工具 -该工具菜单,可以轻松地开始了另一种测试类型,跟踪路由无论是对当前主机或主机的过程中发现其他其中一个。 正如你可以看到下面的图片是列出每一跳的功能选项的右侧。 点击任何菜单选项,这将启动一个新的标签的新考验。
3、 运行选项 -此下拉菜单中,您可以一次或运行测试,运行测试每个 x 分钟或 连续运行测试 。
4、 观看 -本节中的按钮代表,每个窗格可用(分析,地图,线路图,表 Traceroute的平图 , 历史 和 OmniPath )。
5、更多 -更下降下拉菜单允许你添加一个窗格的另一个从当前视图的traceroute。 见下面的例子:
如果你想比较两个相似的路线图从traceroutes(包括traceroutes必须打开)那么你只要按一下 更多的 下拉菜单,找到你想要的traceroute比较,然后按一下路线图的图标。这将添加到当前视图窗格。
拖放
您可以 拖放 一个窗格,以改变其立场。 下面的图片展示了一个正在拖动窗格。 淡淡的箭头就会出现在那里你可以拖动显示窗格了。
这是非常有用的当你有充分的窗格中打开。 在此情况下,最好的设置是有两个窗格都在彼此顶部并排而不是他们。
聪明的另一个特点是VisualRoute创业能力,从几乎任何地方在结果中的各种考验。 例如在一个节点名称或在表格窗格中的IP地址,路线图窗格或OmniPath窗格中,右击你会得到一个进一步的分析选项的列表,如下所示:
一个新的测试然后可以通过点击开始菜单中的任何一个选项。
更多的工具
在更多的工具栏下拉菜单中对主要的终结允许你启动一个路由跟踪测试以外的标准。 下列选项从图像遗留在右边是路由跟踪, 连续跟踪路由 , 情节响应时间 , 端口探测 和 网络扫描 。
这些额外的选项定义您的版本已购买/试运行比较,功能 请点击这里 。
痕量
VisualRoute允许您跟踪从4默认位置。 这些是你自己的电脑,在美国,一个在英国和和IPv6 Visualware服务器在英国Visualware服务器Visualware服务器。
NetScan
的宗旨的 扫描网络 工具来诱导响应从 网络 上的主机。
例如说205.234.111.214下跌,而不是响应。 但是,这种机器在xxx216隔壁了。 该网络通过地址扫描工具将运行近0.214(它将测试顺序0.213,0.215,0.212,0.216),最后得到0.216的响应,它会显示。
这可以被用来作为地址追查到的0.214位置,你可以相当肯定这是在附近,所以航线将非常相似。
如果不,净扫描工具将贯穿整个子网205.234.111.1 - >“205.234.111.254直到它得到的答复。
情节响应时间
要使用的情节响应时间VisualRoute功能,你需要做到以下几点:
1)输入IP /主机要绘制成的“响应时间 跟踪 “文本框在界面顶部VisualRoute。
2)点击 绘图 按钮,如下图所示。
当您选择的情节响应时间选项将打开一个图形的响应时间,并开始策划到目的地选择。 一个典型的图如下:
该图绘制与时间响应时间。 时间间隔可以使用下拉菜单选择在图表上方的下拉。 要放大图和简单的使用了左,右鼠标点击。
摘要间隔允许您更改在哪个平图显示间隔。 一个较大的区间可能是有用的,且有大量的数据,查看。
你可以找到,只需点击鼠标在图形上更多的图形上的任何一点信息。 就表明了在图像上面显示的tootip。
位置更新
在 一个位置更新 功能,您可以将位置信息添加任何IP地址或IP地址块。 这是获得有用的添加位置,以内部IP的和任何的IP VisualRoute不能。
转到 工具 菜单,选择 更新位置 。 下面的对话框会出现:
您可以添加一个节点命名约定(有用的,如果你公司的主机名的包括系统的位置),或添加一个IP位置或具有类似的IP地址的主机范围。
新增节点的命名约定
点击 添加名称 部分按钮在节点的命名约定,弹出以下对话框:
首先,输入域名这个节点的命名规则,例如与 visualware.com 。
然后输入搜索字符串,将位于该节点的名称。 在上面的例子我们加入 离子 。
这样,你会选择国家和城市的 离子 从下拉菜单为代表的下降。 单击确定将这个节点添加到您的VisualRoute命名约定复制。 从现在起的任何时间 离子 被发现在visualware.com一个节点名的位置与 吉尔福德,英国 会考虑。
添加IP位置
点击 添加名称 按钮下方的 IP地址 部分,弹出以下对话框
第一步是进入CIDR的范围内的IP地址。
例如,要添加范围内的所有主机161.58.180.0 - 161.58.180.255进入161.58.180/24
下一步是将国家和城市的IP地址/主机范围。 请从下拉菜单中的国家,然后城市。 一旦这已完成点击确定按钮以保存更改。
设为首页位置
要设置主页的位置(所有痕迹的位置开始)点击 主页位置设置 按钮。 这将弹出框下面的对话框:
要设定家的位置先检查 所有痕迹开始从同一地理位置 复选框。
现在,像以前一样,选择国家和城市,所有的痕迹,从开始,然后点击 确定 按钮。
从现在起,所有的痕迹,你将开始执行从这个位置。
使用和添加地图
在VisualRoute你可以选择三种预设的地图,并添加您自己的地图。 要自定义地图选择到 地图 菜单选项如下图所示:
1。 添加地图...
2。 ..选择地图 。
3。 添加地图地址要...
添加地图
在 添加地图 选项允许你添加映射到VisualRoute你自己的习惯。 这可能是另一个世界地图或某种类型的网络图。 在添加地图对话框类似于下图:
这个对话的第一部分是您输入您要添加的地图,浏览地图位置的名称。 支持的图像文件的。bmp,。jpg和。gif和。WMF的。
接下来的部分有 三个部分 它。
在 第一个 需要进行检查,如果添加的地图,你已经是另一个世界地图。 如果你添加的是世界地图那么这部分用于指定占地面积的世界,您的自定义地图。
在 第二 部分,选中时,将允许自定义的地图被放大。 您可以设置最小和最大部分放大这一点。
在 第三 部分是你想要什么颜色的线,让被绘制在地图上。
一旦所有的选项都被选中点击 确定 按钮保存地图。
选择地图
选择地图的对话框用于选择映射到显示VisualRoute。 上图显示在下拉菜单中做到这一点。 任何地图可以选择设置为默认使用 默认设置 复选框。 这意味着每次VisualRoute启动时,它会使用默认地图设置为。
如果自定义地图那么被选择的 地图编辑,删除地图和 新增地图点 按钮变为可用。
当需要在地图上被选为单击 确定 按钮以保存更改。
地址添加到地图
地图的地址添加到对话框,主要是用来当世界地图是不是选择了地图。 例如一间办公室的基础设施网络,地图也用。 当这种情况下,IP地址或IP地址将用于需要对自定义地图/图像相应位置范围。
第一步是选择地图/从下拉菜单中的形象。 一旦这已经做了地图/图像将显示在对话框的底部。
接下来的步骤是点击 新的规则 按钮,上面显示的图像。 这将弹出以下对话框
使用上面的对话框在地图上的引脚/图像点的位置,然后分配一个IP地址/ IP范围地图上的一个/图像的位置。
要做到这一点首先进入位于上面的对话框顶部的IP地址或在第一个文本框中输入IP范围。
一旦此已完成使用鼠标光标,然后在地图/图像的位置的IP地址/ IP范围涉及。 坐标会自动填写
当这已完成点击 确定 以保存更改,然后重复这一过程需要时间每一个新的位置。
以下采购价格请完善
采购类别 |
规格及配置 |
数量 |
价格 |
邮件服务器新增 |
IBM X3850 X5,推荐IBM服务器的原因是在Domino 9的未来三年环境中,可以充分基于IBM X3850和原有IBM HS22刀片服务器进行设备虚拟化同步机制,如果基于其他品牌服务器则无法利用HS22中的Domino 9应用虚拟化功能。配置要求:CPU 至强E7级别,内存64GB以上,千兆网卡3块做802.3AD部署及群集心跳,HBA卡要求双链路控制,其他内容无特别说明均以标准配置。(请销售给出具体配置清单来替换) |
2 |
|
HTTP服务器利旧 |
利旧环境新增千兆网卡,网卡规格同邮件服务器的网卡,其他配置不必升级。 |
3 |
|
备份服务器新增 |
存储优化 2U 机架式服务器。 |
1 |
|
备份磁带库新增 |
自己核配置 |
|
|
邮件安全网关新增 |
IBM LotusProtect 邮件安全网关 |
1 |
|
邮件系统集群实施服务 |
现场实施服务 |
1 |
|
邮件系统故障诊断服务 |
现场实施服务 |
1 |
|
TSM备份实施及培训服务 |
现场实施服务,现场培训服务 |
1 |
|
网络链路优化服务 |
现场实施服务 |
1 |
|