我想我需要休息从被抨击来自各方面的关于Perl的状态(虽然我觉得很有意思,特别是这个评论)。不,这一周,我决定去一个完全不同的方向。

每隔一段时间,我想在此强调好奇或故障排除极端的例子除了 ​​总体上是好的,读起来就像一本侦探小说,这些写在小裂缝服务,以适应在我们的脑海中,休眠状态,直到有类似的情况庄稼高达周,数月或数年后,是什么让一个良好的疑难解答的能力,以消除可能原因,直到问题的实际来源透露,和同样,立即呼吁微小的斑点,从遥远的过去的信息的能力,然后运用这些知识,以目前的情况。

[现金在您的IT的故事!请将您的IT故事,  [email protected]如果我们发布的,我们将让你匿名发送给您50美元的美国运通礼品支票。获取最新的实用数据中心的意见和信息马特Prigge的的信息超载博客和InfoWorld的数据中心通讯]

所以,当我发生的事情,死亡,克里斯蒂安Kielhofner的数据包后,我想它应得到承认。

这是故障诊断的水平,大多数人从来没有达到我们正在调查的性质类似的问题,如间歇性网络连接问题,我们通常的嫌疑人通过步骤,拿出1000 999次,更换跳线,更新驱动程序,或做一些同样的行人。但是遇到一个问题,像克里斯蒂安面,多份报告的问题,在全新的硬件平台,完全不同的基础设施,完全不同的客户,涉及的行为,似乎是独立于操作系统的-有没有惯常的犯罪嫌疑人。

写的最好的部分是,它不仅是一个非常奇特的真实世界的情况下,让你猜,但克里斯蒂安详细介绍了他所用的工具,并举例说明他是如何到达最终的答案。对于那些刚刚进入了战斗作为一名网络工程师,甚至那些谁想要添加到他们的技能,通过阅读他的方法和玩弄的工具,引用只会加强这些技能。如果你在所有有兴趣在网络,直呼其名的基础上,一切从Wireshark的tcpreplay的Ostinato固定令人惊讶的许多问题更容易。

短途旅游,到野外也强调一点公认的现象:到底有多少,我们相信在我们的基础设施的最低级的代码。

最根本的问题,,克里斯蒂安面对的是糟糕的代码在英特尔的网络控制器,关闭接口,如果某些条件得到满足 - 一个通用的网络条件发生间歇性的错误。在整个数以百万计以百万计的英特尔驱动的网卡,在这个世界中,一个错误,这是非常罕见的,因为是绝对的最后一个地方,你会寻找问题,因为克里斯蒂安发现。当然,你不看在网卡的EEPROM中的第一步推断网络问题的原因

在大多数情况下,我们盲目的信任这些设备中处于有利位置。这些情况是罕见的,相似的零件的绝对数量在我们的基础设施的基础上,其可靠性和稳定性是相当可观的。我们的工作与我们的服务器,虚拟机管理程序,交换机,路由器和防火墙之间的不同口味的操作系统。我们推位大约在一个较高的水平,迫使最低级的代码,做我们的投标。当你的淤泥一台核心交换机的配置,你操纵的控制杆,导致运行的代码对这些ASIC的。如果该基准是不严密的,无缺陷的代码,就会出现问题和现实开始变形。

,在那里,是问题的关键所在。我们都遇到的问题,似乎藐视物理学和危及我们的网络建设和行为的理解。逃避的途径,我们的基本认识是如何工作的问题是最糟糕的。他们可能是具有挑战性的一个克里斯蒂安面临和需要几天或几周的侦探揭露,或他们可能很简单,而又疯狂为介绍被忽视的许可限制,使网络设备的行为怪异,但故意制作的方式。(如果你遇到了一个问题,你有间歇性的主机连接通过防火墙后面没有可辨别的模式,但似乎解决小时后,当你有时间的工作就可以了,请你帮个忙,并检查防火墙的内部主机数量限制)。

当一切都说过和做过,是值得记住,如果你正面临着​​一个问题,无视所有已知的网络法律,你可能会寻找一个问题,是在一个地方,你不能访问或修复。你可以做的工作,以找出罪魁祸首,并保持制造商的脚火,直到收到一个修复。

大侦探福尔摩斯说,最好的:“当你排除了所有的不可能,无论剩下的是什么,即使是不可能的,一定是真相。”