转自: http://jiangyuan.blog.51cto.com/516322/287881
小型机 小型机是指运行原理类似于PC(个人电脑)和服务器,但性能及用途又与它们截然不同的一种高性能计算机,它是70年代由DEC(数字设备公司)公司首先开发的一种高性能计算产品。
小型机具有区别PC及其服务器的特有体系结构,还有各制造厂自己的专利技术,有的还采用小型机专用处理器,比如美国Sun、日本Fujitsu(富士通)等公司的小型机是基于SPARC处理器架构,而美国HP公司的则是基于PA-RISC架构;Compaq公司是Alpha架构。另外I/O总线也不相同,Fujitsu是PCI,Sun是SBUS,等等。这就意味着各公司小型机机器上的插卡,如网卡、显示卡、SCSI卡等可能也是专用的。此外,小型机使用的操作系统一般是基于Unix的,像Sun、Fujitsu是用Sun Solaris,HP是用HP-Unix,IBM是AIX。所以小型机是封闭专用的计算机系统。使用小型机的用户一般是看中Unix操作系统的安全性、可靠性和专用服务器的高速运算能力。
现在生产小型机的厂商主要有IBM和HP等。IBM典型机器有RS/6000、AS/400等。它们的主要特色在于年宕机时间只有几小时,所以又统称为z系列(zero 零)。AS/400主要应用在银行和制造业,还有用于Domino,主要的技术在于TIMI(技术独立机器界面),单级存储,有了TIMI技术可以做到硬件与软件相互独立。RS/6000比较常见,用于科学计算和事务处理等。
小型机仅仅是低价格、小规模的大型计算机,典型的小型机运行UNIX或者象MPE、 VEM等专用的操作系统。它们比大型机价底,却几乎有同样的处理能力。HP的9000系列小型机几乎可与IBM的传统大型计算机相竞争。
在高端小型机一般使用的技术有:基于RISC的多处理器体系结构,兆数量级字节高速缓存,几千兆字节RAM,使用I/O处理器的专门I/O通道上的数百GB的磁盘存储器,以及专设管理处理器。它们较小并且是气冷的,因此对客户现场没有特别的冷却管道要求。现在小型机跟中型机跟大型机之间没有绝对明确的界限了,因为IBM把很多原来只在大型机和中型机上应用的技术都在小型机中实现了。
小型机跟普通的服务器(也就是常说的PC-SERVER)是有很大差别的,最重要的一点就是小型机的高RAS(Reliability, Availability, Serviceability 高可靠性、高可用性、高服务性)特性。
RAS是Reliability, Availability, Serviceability三个英文单词的缩写,它们反映了计算机的高可靠性、高可用性、高服务性三个著名特点,它们的具体含义如下:
高可靠性(Reliability):计算机能够持续运转,从来不停机。
高可用性(Availability):重要资源都有备份;能够检测到潜在要发生的问题,并且能够转移其上正在运行的任务到其它资源,以减少停机时间,保持生产的持续运转;具有实时在线维护和延迟性维护功能。
高服务性(Serviceability):能够实时在线诊断,精确定位出根本问题所在,做到准确无误的快速修复。
关于IBM的小型机的RAS特性,不得不提到IBM eLiza(蜥蜴)计划。
eLiza 的称呼最早起源于六十年代中期IBM的一个计划,即采用人工智能技术设计一种实现人和计算机之间通讯的程序。在九十年代,IBM设计的深蓝超级计算机战胜了国际象棋大师卡斯帕罗夫,其综合处理能力可比喻于一个蜥蜴(lizard)所具有的功力,即具有预测防范、处理判断以及自我愈合再生能力。
在当今的IT世界,众多企业都无情地面对一个巨大挑战:为了构成一个强大的灵活自如的电子商务运做环境,需要使用大量的服务器、网络设备、复杂的应用软件等,这些设备所涉及的IT技术在发生着日新月异的变化,企业严重缺乏有经验的工程师来维护和管理整个软硬件系统。
IBM公司综合自己多年的IT经验,应运而生的提出了eLiza计划,并给它赋予了具有前瞻性的重要内容:即现代企业要想处于不败的竞争地位,其电子商务环境所使用的软硬件系统应具备下列四项原则:
自我配置能力:系统可以动态自我配置有关资源。
自我保护能力:系统有能力保护自己,不受到非法访问和攻击。
自我愈合能力:系统能够自动预测错误、避免错误、修复错误、取代有关错误部件。
自我优化能力:系统能够自动监视和管理有关资源,将系统性能调整到最佳状态。
为了达到以上目标,系统还需具备以下七个要素:
负载管理(Workload Management)
安全机制(Security)
群集技术(Clustering)
虚拟主机托管(Virtual Server Hosting)
端到端的自动控制(End-to-End Automation)
灾难恢复机制(Disaster Recovery)
端到端的系统管理(End-to-End Systems Management)
下面是IBM p690服务器的RAS特性的介绍
自动首次错误数据捕获和诊断错误隔离能力
自治愈内部POWER4处理器组冗余
业界第一的PCI总线奇偶错误恢复
避免检查中止的不可收集错误处理
动态错误恢复
错误检查和纠正(ECC)或在主存上的等价保护,所有一、二、和三级缓存和内部处理器组
连续和冗余的位操作被使主存具有自治愈功能
在主存上具有的Chipkill纠正功能
N+1的冗余电源,双电源线,和对电源及风扇的在线维护
针对处理器、缓存、内存、I/O和DASD的预计性错误分析
基于运行时错误来决定是否分离处理器运行和启动(动态处理器离线和永久处理器离线)
缓存和主存的离线技术
通过选择高品质的部件最大限度的减少故障
针对电源、风扇和I/O子系统的基于首次故障数据捕获技术的并行、运行间检测技术