软件bug能有多贵?

北京时间2015年6月28日,SpaceX发射了一枚火箭,在升空148秒后爆炸。具体原因目前还不知道。

看到这个新闻时,我并没有太多感触。因为这种事故发生了太多次了,其中包括人员伤亡的也不在少数。

然而,直到某一天,我在查找一些测试相关的东西时,看到了另一个火箭爆炸的“旧闻”,感觉到…震撼了一下。

这个新闻现在还有个链接,可以点击这里查看。


懒得点链接的,可以往下看,听我讲。

1996年6月4日,Ariane 5在法属圭亚那发射,39秒之后爆炸。那么,Ariane 5是因为啥炸了呢?

因为一个bug!那则“旧闻”中描述的非常好,

One bug, one crash.

是不是跟“One world, one dream”很像?

而且这个bug也确实算是个昂贵的、严重的bug,因为这个bug,Ariane 5,这个耗费了欧洲航天局10年心血,70亿美刀的大项目,在升空39秒后,灰飞烟灭了。

那么这个bug,到底是咋回事呢?

是这样的,火箭飞上去后,攀升到了2.5英里,火箭导航系统试图改变航向,因为这个转向太特么突然了,就把它搭载的,四个,巨贵无比的,关键是还没有买保险的卫星,一起炸掉了!这个事情发生在升空39秒那个时刻。

那么,这个突然转向是怎么回事?因为火箭的导航系统确确实实接收到了这样一组数据,根据这组数据,火箭的航行方向是不对的,应该调整。然后事实是什么?事实是,火箭才刚刚飞了39秒,方向正确无比!

那么,这组貌似正确,其实错误的数据,是怎么回事?是因为,火箭机载系统在尝试把一组64位的数据,转换成16位数据的时候,溢出了……什么是溢出?打个比方,简单的说,比如你只能用个位数来计数,那么你能记下来的数字,是从0到9这样的,如果来了个10,你就记不了了,因为10是两位的,个位只能记下0,那个十位的1就丢了,这就是溢出。计算机里使用二进制计数的,一大堆1010100101,所谓16位的数,就是用16个1和0来计数,64位数,就是用64个1和0来计数。如果那个64位数表示的数字,超过了16位所能表示的数字,还要把这个64位转成16位,就会溢出。一般情况下,如果有这种转换,肯定会有相应的代码来检查这个转换,避免出错。

那么,看到这里,你肯定会说,我靠!那帮搞火箭机载系统的软件工程师都是干嘛的?这么简单的事情都弄出这么大错来?嗯,你知道了结局,却没有猜对开头。虽然结局是出了个大错,但是在一开始的时候,那帮软件工程师,是知道这个错误的。

什么!你一定感到不可思议了,是吧?既然知道还敢往天上送?搞毛线呢!别着急,是这么回事。Ariane 5上面的系统,是老系统,之前那些火箭的速度是远远不及Ariane 5的,所以,当时的工程师们如此设计,不会出什么问题。当此类溢出问题发生时,他们的解决方案是,把系统重启一下。因为他们认为现实中达不到那么大的速度,不会出现此类的荒谬数据。然后他们保留这个问题的原因是,他们是想把这个错误当做一个特殊的功能,在火箭发射前,利用这个错误快速重启一下系统,把系统的状态恢复到“出厂设置”,然后就可以倒计时发射了……那则“旧闻”中就是这么说的

to leave this function running for the first 40 seconds of flight -- a "special feature" meant to make it easy to restart the system in the event of a brief hold in the countdown.

然后,结局就是前面说的,爆炸了……

你可能感兴趣的:(软件bug能有多贵?)