黑夜路人

[转]Google Linux Cluster的系统结构分析(余一娇)

原PDF下载：http://hums.ccnu.edu.cn/teachers/yyjcai/TR/TR-2005-04.pdf

Google Linux Cluster的系统结构分析

余一娇^1,2

（¹华中师范大学语言学系武汉430079）

（²华中科技大学计算机学院武汉 430074）

摘要：Google是当前最有影响的Web搜索引擎，它利用一万多台廉价PC机构造了一个高性能、超大存储容量、稳定、实用的巨型Linux集群。本文是从计算机系统结构的角度分析Google集群系统的逻辑和物理构造方法、可靠性、可扩展性、可用性、并行性。文中重点介绍了Google集群的逻辑结构和物理结构、分布式文件系统和超大容量存储器的实现方法。文中分析认为Google集群针对Web搜索需求的特征，用低成本实现了高可用、高性能集群的方法是并行机设计、开发一个成功典范,这种严格追求性价比的设计方法值得借鉴。

关键词：Google 集群系统结构文件系统可靠性可扩展性并行性

The System Architecture Analysis of Google Linux Cluster

Yijiao Yu^{1, 2}

¹Department of Linguistics, CentralChinaNormalUniversity, Wuhan, 400079

²College of Computer Science and Technology,

Huazhong University of Science and Technology, Wuhan, 430074

E-mail: [email protected]

Abstract As the most popular and successful web search engine and a super Linux cluster, Google integrates more than 15,000 commodity personal computers (PC) to support the information storing and processing. The outstanding features of Google Linux Cluster are high performance-cost ratio, high availability and excellent scalability. We investigate it from the view of computer system architecture in this paper. The logical architecture and physical structure, distributed file system, reliability, availability, and huge storage systems are discussed respectively, and the related technologies are analyzed and reviewed. Finally, in the light of Google, we conclude that we should build a high-available cluster with the as least cost as possible, and select the appropriate technologies to satisfy the real application requirements.

Keywords: Google; Cluster; System Architecture; File System, Reliability; Scalability, Parallelism

1. 前言

Google公司于1998年由Stanford大学计算机系的两个博士研究生Sergey Brin和Larry Page创立^[1]；2000年被《Internet Life》杂志评为“互联网上最好的搜索引擎”^[1],今年被世界品牌实验室评为2005年世界品牌500强中的第三名^[2]。与曾经最有影响的搜索引擎Yahoo相比，Google在创立之初在技术和经济资源方面并不具备太多优势，是什么原因导致网络用户放弃Yahoo、接受Google,我认为对搜索结果质量评价的正确观点可能是最主要的原因。1998年期间，网络中的Web页面数量较小，可以采用手工方法对每一个页面进行人工分类。对一个用户查询请求，可以查全所有的Web页面，然后反馈所有相关页面链接。然而在1998年，Sergey Brin和Larry Page在《Computer Networks》杂志上合作发表论文[3]却提出了不同的观点，他们指出：Google追求的高质量网络搜索不是拥有尽可能高的查全率，而是反馈给用户的前几十条链接必须具有很高的精确率。基于该理念，Sergey Brin 和Larry Page在Google搜索引擎中采用了根据链接数量来判定页面质量的PageRank算法，该算法后来成为网页评价研究中的一个很著名的算法。由于PageRank算法的分析和

1 Technical Report, April 2005 Google Linux Cluster 的系统结构分析

改进工作已有很多相关研究和评论，本文不对此进行讨论。本文只关注Google服务器技术。

1998年Google创立之初，该公司的数据中心放置在Larry在Stanford大学的宿舍内，且公司的第一笔资金只有100万美元^[1]。从当时的服务器、大型机价格来看，100万美元即使全部用来购买服务器，也不可能购买十分先进、高档的服务器或大型机。数据中心放置在学生宿舍，受房间面积限制，大型机及附属设备所需占地面积也不可能得到满足。同时大型机对降温要求很高，一般学生宿舍也很难得到保障。关于大型机所需供电、降温需求，以及普通房屋供电负荷相关参数可参考文献[4]。因此根据以上信息，可判断1998年Google不太可能采用、也很难有条件采用传统的大型机作为搜索引擎的服务器。

1998年以后互联网发展速度越来越快，无论是Web页面数量，还是用户提交的搜索请求数量都在短短几年内增长了数十倍甚至上百倍。Google搜索引擎却没有因为计算量和存储量高速增长而变得不堪重负，相反它一直争取在0.5秒时间内处理完成用户请求。如今Google完成查询请求后，还把查询所耗费的时间反馈给用户。以2005年4月21日上午10时51分在华中科技大学校园网内输入“华中科技大学”一词进行检索为例，Google反馈了917,000个查询结果，查询时间却仅为0.22秒。对同一个检索词在不同时间段进行检索，搜索引擎消耗的时间不尽相同，因为处理一个请求所需时间不仅受搜索引擎中待检索页面的数量、大小限制，也与整个系统当前的繁忙程度有关。在0.5秒内完成数据检索，Google服务器应该是高性能计算的一个成功典范。作为面向全球用户的商业搜索引擎，由于全球存在时差，Google必须保证每天24小时都能正常运行，这对Google服务器的可用性提出了巨大的挑战。

Google本是数学中的一个名词，它表示一个十分巨大的数：1后面跟100个0（即10100）^[3]。Sergey Brin 和Larry Page使用Google作为自己的搜索引擎和公司名的主要原因是希望自己设计的Web搜索引擎将来能够支持十分巨大的Web页面检索^[3]。至2005年4月21为止，Google中所收集的Web页面数量已经达到8,058,044,651张（见Google页面）。虽然该值与Google所描述数量还相差甚远，但它成为如今世界上收集Web页面最多的搜索引擎。

本文内容结构安排如下：第二部分介绍Google集群（机群）的逻辑结构和物理结构；第三部分讨论Google的文件系统；第四部分介绍Google的存储系统和存储策略；第五部分讨论Google的高可用性和可靠性；第六部分讨论Google集群在计算和存储中的高并行性。最后根据Google集群的成功经验对大型机或大型集群开发提出一些思考。

2、Google集群的逻辑结构和物理结构

为Google搜索引擎提供硬件支持的不是传统的大型机和服务器，而是技术含量低、廉价的集群技术。至2003年4月，Google集群已集成15,000台PC机，成为当时世界上最大的PC机集群系统^[4]。文献[5]中指出预计到2004年底，Google集群中的PC机台数会超过18,000台，外存储器容量达到5PB。在2000年，Google集群中的CPU个数（每台PC机中仅有一个CPU）只有4,000个，2003年初它便增加到30,000（每台PC机中有两个CPU），因此有理由判断如今Google集群中的CPU个数可能达到或者超过40,000个。为了获得Google集群的最新信息，在本文写作过程中，我曾通过电子邮件向Google Fellow Urs Hölzle博士（文献[4]的通信作者）询问Google集群当前的PC机数目、PC机具体配置等问题，但没有得到回复。以往向国外学者询问论文所涉及的问题，一般都能很快得到详细答复。本文写作过程中，我曾在IEEE, ACM, ScienceDirect等专业科研论文数据库中进行多次检索，以及在Yahoo, Google等通用Web搜索引擎中进行搜索，还查看了Google Lab主页中列出的论文清单，但获得的最新报道仅仅是2004年4月发表的文献[5]。因此，不妨可猜测：Google集群中的PC机数量、PC机具体配置信息可能是搜索引擎公司的重要商业秘密，不便公开。

文献[3]早在1998年就介绍了Google搜索引擎的逻辑结构如图1所示。文献[3]是至今

2 Technical Report, April 2005 Google Linux Cluster 的系统结构分析

关于Google搜索引擎逻辑结构描述最为清晰的一篇论文，并且该文献中作者明确表示这也是他们阅读范围内第一篇详细描述Web搜索引擎结构的论文。由于图1仅是Google搜索引擎的逻辑结构图，我们根据图1判断服务器采到底是采用SMP构架的服务器，或者是MPP构架的服务器，还是集群服务器。图1对理解搜索引擎的逻辑功能模块和检索操作流程很有帮助，对我们在后面分析系统的并行性有帮助。

图1中同一个功能模块如果出现多次，如crawlers，则表示该模块存在多个并行的实例。多个并行实例既可以理解为一台机器中的多个进程或线程，也可以理解成在多台PC机上执行的进程。以crawlers为例，在Google原型系统设计之初，可能就是同一台机器上多个线程，而在2000年以后可能就是多台PC机上都在运行crawlers程序。文献[3]中对每个功能模块都进行详细说明，感兴趣者可直接阅读文献[3]。

图1、Google的逻辑结构图

图2是最新的关于Google服务器系统结构的介绍[4],该文通信作者Urs Hölzle博士由于对Google公司的发展作出了突出贡献，被授予Google Fellow荣誉称号。文献[4]是我们收集到的资料中唯一专门讨论Goolge集群的系统结构的论文。从1998年到2003年，时间相隔五年，但比较图1和图2却发现二者并没有本质区别。图1中的系统结构五年后依然在更复杂、数据和计算更密集的应用环境中继续使用，这验证了图1中的Web搜索引擎逻辑功能结构具有很好的可扩展性。

图2 Google的逻辑结构图

关于Google集群的物理结构最早的全面介绍可能是2001年出版的计算机系统结构经典

3 Technical Report, April 2005 Google Linux Cluster 的系统结构分析

教材《Computer Architecture: A Quantitative Approach》一书^[6]。文献[6]中专门把Google集群作为大型集群的综合性实例，从PC机内部配置，PC机在机柜中的布局、集群系统的能耗和散热处理、网络交换设备、存储设备等多个方面进行介绍。由于文献[6]在计算机系统结构教科书中的权威地位，它的出版使Google集群得到了大家的广泛关注。由于文献[4]发表时间比文献[5]晚两年，以下用文献[4]中公布的PC机配置信息来估算Google集群的计算性能，以及它在TOP500中的排名位置。

浮点数峰值速率是大型机设计、开发和评价的一个重要指标。TOP500在对大型机进行性能排名时有两个重要指标，一个是系统的理论浮点数运算速率，另一个是实际的Linpack测试浮点数运算速率^[7]。文献[6]中指出每台PC机中只有一个奔腾800MHZ的CPU，文献[3]中报道在2002年底一台PC机中有两个2G Intel Xeon的处理器。15,000台PC机则意味着Google集群中有30,000个并行的CPU。从因特网上不难查到2GHZ Xero处理器每个时钟周期内可完成两次浮点数运算，因此可得到2002年底Google集群的理论浮点数运算速率为2G×2×30,000=120,000Gflops=120TFlops。对比2002年11月份的全球TOP500排名列表[7]，发现其中排名第一的地球模拟器的峰值速率是40,960Gflops，Google集群的峰值速率是地球模拟器的近三倍。由于地球模拟器采用向量计算机技术，我们不放把Google集群与TOP500中排名第二的ASCI Q作比较。

ASCI Q是NASA(National Aeronautics and Space Administration)第五台高性能计算机，在参加2002年11月份的TOP500测试时它的基本配置是4096个1.25GHZ处理器，Linpack测试速度7727GFlops，峰值速率为10240Gflops [9]。ASCI Q在2002年没有还没有完全开发完毕，它计划在未来达到11,968个处理器、12TB内存以及600TB的磁盘容量的规模。比较2002年底的Google集群与ASCI Q,发现Google集群的处理器个数几乎是ASCI Q的八倍，且每个CPU的主频较高，理论峰值速率Google集群是ASCI Q的十二倍。

鉴于Google集群是Google公司自己搭建，且没有采用如MyriNet价格昂贵通信效率高的大型机专用高速通信网络设备互连。由于无法收集到Google集群作Linpack测试的数据，但可以基本肯定的是它作Linpack测试的可实际运用速率与峰值速率之比要低于地球模拟器和ASCI Q。因此在Google集群上作Linpack测试的实际速率不一定比ASCI Q高，但由于它的理论峰值太高，即使可利用率低至0.5%（观察TOP500中的记录，可知该数值一般都大于30%），它依然在TOP500的前一百名之内（因为第100名机器是558GFlops）。

本文写作过程中，我查阅了2000年以来TOP500的十次排名记录，都没有发现Google集群。参与TOP500排名的机器是遵循自愿原则（可以在网上填表），可以推测Google有进入前100名的实力，却没有上榜，其最大可能就是没有参与TOP500排名。Google集群不愿意公布性能数据，从很难检索到关于它系统结构分析的论文也是一个反映。

因此尽管在TOP500中没有发现Google集群，但无需质疑的是它无论是在浮点数计算能力还是存储容量方面都是世界上最顶级的计算机之一。某些大型机有很高的性能，且有很高的技术含量，却没有出现在TOP500名单中的情况其实在我国也有。如众所周知的神威巨型计算机，它不仅具备很高的峰值速率，也具有良好的实际性能，至少在国内它与曙光公司、联想公司开发的巨型机具有相当的性能，然而在TOP500上一直没有出现它的名字。

国外关于利用集群技术开发大型机的Beowulf论坛中已有人提出：设计大型机，并注重它能否进入TOP500以及在TOP500中的名次只是学术界的一个游戏而已^[9]。利用集群构架开发的大型机，进入TOP500其实不能代表太高的技术水平，这应该是近年来关于大型机开发的一个共识。如今国内的大型机开发技术已经达到较高的水平，未来几年无需再把能否进入TOP500前十名当作十分重要的目标。因为我们过去设计的一些大型机由于应用效率不高，已经造成了不少资源闲置现象，关于该类报道在互联网上比较多。

Google集群完全能进TOP500，但它却不参加排名。Google集群能否进入TOP500，丝毫

4 Technical Report, April 2005 Google Linux Cluster 的系统结构分析

不影响大家对它高性能、高可用性和高可扩展性的怀疑。作为集群系统的典型例子进入教科书，就是对Google集群的极大肯定。文献[3]中作者再三强调Google集群是由Google公司自行开发的集群系统，并不采用最先进的技术（一般最先进的技术都比较昂贵）。Google集群设计和维护中无处不体现强烈的追求最大性价比、实用的特点。Google集群的设计者不一次性购买很多资源，而是不够时再投入。总之，Google集群构建和维护过程中始终坚持的实用主义特点，值得我们在大型机设计和购买过程中学习。

3、Google的文件系统

作为一个巨大的数据检索系统，Google并没有采用常见的数据库管理系统来管理Web文件及相关数据。Google集群如今收集了80多亿个Web文档，平均每天执行两亿多次用户查询请求。文件数目太多，则检索速度慢；且每个文件大小相差甚远，容易导致硬盘文件存储管理费用巨大。文献[3]中介绍，Google把多个Web文件汇集到一个巨大的文件中进行存储、管理，当然对一个大文档有相关记录信息。关于大文件说明信息的格式如图3所示^[3]。另外因为Web文件数量太多，所占存储区间太大，Google采用ZLIB压缩算法先对原始Web页面信息进行压缩，然后只存储压缩后的结果。ZLIB压缩算法对WEB文档的压缩比为3：1，因此一个64MB的大文件，实际上包含192MB的原始Web文档。

图3 Web文件的描述信息

Google集群中的硬盘是普通的IDE接口的PC机硬盘，虽然便宜但可靠性较低。Google集群维护人员在工作中发现，存储器出现故障在Google集群中并不是少见的异常现象，而是频繁发生。三万个硬盘(15,000台PC机，每台机器中有两个硬盘)同时工作，都不出现故障，用概率计算的方法一算就知道几乎是不可能事件。Google集群总在频繁的执行文件读操作，硬盘出现故障的可能性就更大。硬盘常出故障的现实环境与传统分布式文件系统设计的基本假设有冲突。Google集群应该设计具备持续监视、错误检测、容错和自动恢复功能的分布式文件系统。

Google集群运行过程中还发现了许多来自应用、操作系统、用户、存储器、网络等多方面存在的软件故障。Google集群中的文件操作有一个特性：每个文件基本上是只执行一次写入操作，以后都是频繁执行只读操作，随机写操作几乎不发生。当crawlers从网络中采集到一个Web文件，在内存中完成相关处理后，就写入到一个大文件中，以后每次查询只是执行一次数据读取操作。银行、电子商务等常见的大型数据管理系统中则没有这个特性。针对来自应用领域的特征，Google公司的研发人员在分布式文件系统开发中采用了不同于传统分布式文件系统I/O操作的假设。

Google开发了公司内部的分布式文件系统Google File System（GFS），该文件系统的系统结构如图4所示。GFS中包括单一的GFS Master，多个GFS chunkserver。文献[3]和文献[10]发表时间相差五年，但不难判断文献[3]中的大文件就是文献[10]中的chunk。图4表示GFS不是完全在操作系统层设计的分布式文件系统，而是在已有的Linux文件系统之后再封装的分布式文件系统，因此它依赖传统的Linux文件系统。GFS master中存储了三种重要的元数据：文件和chunk的命名空间、文件到chunk的映射表以及chunk及其备份的位

5 Technical Report, April 2005 Google Linux Cluster 的系统结构分析

置信息（为了提高文件存储的可靠性，GFS中对同一份数据一般存储在三台不同的主机上。对一个chunk而言，它就有两个分布在其它PC机上的备份）。GFS chunkserver中每个chunk大小为64MB，关于每个chunk大小的具体数值选择并不是随意的，而是很有技巧。关于64MB大小的chunk设置的优点和缺点在文献[9]中有很详细的讨论。

图4 Google文件系统的结构

GFS中执行一个简单的读数据操作工作流程如下：首先，应用客户端把文件名和文件在一个chunk中的偏移量转换成一个包含该文件数据的chunk索引；然后，客户端向GFS master发送请求，请求中包括所需要的文件名以及chunk索引。当GFS master收到请求并通过chunk映射表映射后，它向客户端作出响应，反馈给客户端相应的chunk句柄以及该chunk备份的位置。客户端收到反馈信息后，将以文件名和chunk索引为关键词进行缓存。有了所需文件chunk索引和位置信息，客户端一般从多个chunk服务器中选择一个离自己最邻近的chunkserver发出数据访问请求。一般数据访问存在空间局部性，以后如果该应用客户端需要访问同一chunkserver中的数据，它不再向GFS server发送请求，而是直接向chunk服务器发送数据读取请求。关于GFS更详细的讨论在此不再进行更深入讨论，如果希望进一步了解可以参考文献[9]。

4、Google的存储系统

Google集群收集到的Web页面就已达到80多亿张，另外它还有十亿多张图片。文献[5]中报道Google集群中的数据容量在2004年就达到了5PB。作为一个容量巨大且访问频繁的存储系统，Google却没有采用流行的网络存储技术和附网存储技术，甚至就连比较廉价的磁盘阵列也没使用。Google采用的存储方法是用最常见、最普通的一个PC机中带两个硬盘的存储方式。Google放弃主流的并行海量数据存储技术，采用健壮性较低的PC机带硬盘存储的方式最主要的原因是希望降低成本。虽然这种存储方式不太可靠，但通过GFS可实现高效、可靠存储，已被实践检验是有效的海量存储解决方法。

2003年市场上最常见的PC机硬盘存储容量是80G。根据文献[4]中报道，每台PC机中配有两个80G的硬盘，不难计算出Google集群的总容量是80G×15,000×2＝2,400,000G＝2.4PB。由于可靠性和可用性对Google十分重要，不是所有的存储区间都用来存储有效数据。为了提高可用性，有一半的硬盘是作镜像存储。当一个硬盘出现故障，或者数据读写错误时，可用另一个硬盘启动系统或访问其中的数据。集群中的每台PC机都存储了一份独立完整的操作系统，又有一部分存储区域去存放系统软件，因此实际有效存储空间比1.2PB还小。同样出于价格成本因素考虑，Google集群中没有使用SCSI接口的硬盘。使用SCSI接口的硬盘，不仅硬盘自身价格高，且还需转接卡。为了提高数据读取速度，Google集群中的硬盘转速比较高，从而降低旋转等待时间。

6 Technical Report, April 2005 Google Linux Cluster 的系统结构分析

2003年底，Google中每台PC机中竟然配置了高达2GB的内存。由于每个chunk高达64MB，使用大内存对提高系统的性能有良好效果。曾对存储器容量对系统性能的影响进行测试，发现存储器系统不是整个系统性能的瓶颈。

5、Google的可靠性和可用性

可靠性是指系统正常运行时间，可用性是系统正常运行时间与正常运行时间以及故障维修时间之和的比率^[11]，高可用性是评价超级计算机和服务器系统的关键指标之一。作为商业网站，Google集群必须能保证每周7天、每天24小时都正常工作。即使是在系统维护操作时，也不能让整个系统停机。一万多台PC机，总会存在各种各样的故障和异常，几乎所有故障都会降低系统的可用性。即使系统不出故障，Google集群中的PC机每两年也会更新一次。PC机更新是在硬件上彻底更换，更新的过程必定会终止一部分机器服务。设备更新比较耗时，15,000台机器同时更新显然不是两个小时内可以完成。以下分析Google集群提高系统可用性的方法。

首先，Google是Web搜索引擎，可用性要求比较弱。搜索引擎的可用性需求与银行、电信业务中的可用性存在区别，这些区别导致了不同的可用性维护策略。对银行业务连续执行同样的请求，得到的响应必须一致。但对Web搜索引擎，用户期望的可用性是只要能访问Google的入口，键入检索词，几秒钟后能得到检索结果即可。2004年4月17日,我输入“华中科技大学”一词进行检索，得到了1,170,000个检索结果；而在4月21日执行同样的检索，我只得到了917,000条结果。显然两次检索结果差异巨大，但实际上普通用户很难发现这种差异，甚至根本就没考虑过这种现象。

Google中对Index和Web页面数据都采用分布式存储。每台PC机都可能出故障，出现故障后需要一定的故障维修周期。在维修周期内，该机器中所存储的数据可能就不能正常访问，因此导致反馈给用户的检索结果减少。因此，连续多次执行同样的检索请求，但检索结果不一致现象就能得到合理解释。这种非严格的可用性，给Google的维护以及技术方案选择提供了宽松的环境。相反，银行则不得不采用昂贵的硬件设备来维持系统的严格可用性。

其次，Google通过分布在不同地区的多个镜像站点来提供系统的可用性。Google集群耗电量巨大，占地面积大，停电是导致系统可用性降低的致命因素。Google公司位于加州，加州近年来出现了能源短缺、电力供应紧张现象，近年来加州曾多次出现大面积停电现象^[12]。单机或服务器保证电力供应方法是采用UPS电源，而Google集群由于功耗太大，估计采用UPS的可能性比较小，公司自备发电机发电可能是更可行的方法。Google仅是一个Web搜索引擎，即使是公司内部有备用电源，也不能保证当地区停电时网站正常提供网络服务功能。原因是Google与外界连接的通信网络也因停电而终止工作，因此无论Google集群的可用性有多高，只要通信网络具有单一性，它依然无法保证高可用性。

另外，地震、恐怖袭击等其它灾难性事故也将导致单一Google集群无法保证高可用性。加州是太平洋板块和美洲板块的交界处，地震活动比较频繁。2005年4月16日12时18分在加州WSW of Mettler发生了5.1级的地震^[13]；2003年12月23日在加州发生了里氏6.5级的地址，导致多人死亡。运行在地震频繁地区的大型机有必要考虑地震对整个系统可用性的影响，实际上Google公司的研究人员也考虑了该问题，并采取了相关对策。

2001年Google有三个镜像站点，两个分布在加州的硅谷，另一个在美国东海岸的弗吉尼亚。每个Google站点都采用OC48 (2488Mbit/sec)的带宽连接到因特网，硅谷中的两个临近站点还用一根OC12的光纤互连，以便紧急情况下或网络故障时两个镜像站点可共享一根OC48光纤连接互联网。弗吉尼亚州的那个站点在2003年也有了自己的镜像，其连接方法就和硅谷中两个镜像站点的互连方法一致。从一个站点变成地理位置上分离的四个站点，软硬件设备的成本就增加了三倍，但可用性几乎达到了100%。中国用户访问Google经常不通，

7 Technical Report, April 2005 Google Linux Cluster 的系统结构分析

估计是通信网络故障原因较多。这些来自网络中的技术的与非技术处理是Google公司无法解决的。

高度冗余提高了Google的可用性，但Google公司对镜像站点的投资并不是真正的冗余投资。服务器常见的冗余方式是双机备份，当一台机器出现故障时另一台机器立即接管故障机器上的任务。简而言之，就是两台服务器实际上只具备一台服务器的工作效率。如果服务器工作稳定，有一半投资是冗余。由于搜索引擎对可用性要求不是很严格，且每个Google站点自身有很高的可用性，Google的镜像站点不是另一个站点的热备份。通过基于DNS的负载均衡方法，DNS服务器把域名地址www.google.com解析成不同的IP地址，把查询请求分配到四个镜像站点。基于DNS的负载均衡方法并不是Google首创，它是计算机网络技术中的一个常见技巧，简单高效。如DNS服务器收到一个来自中国大陆地区的搜索请求，只要加州的两个服务器不是特别繁忙，它就把域名地址解析成加州两个站点中较为空闲的一台。请求在加州处理，降低了网络通信中的线路传输延时，对降低响应时间有好处。同理，来自欧洲用户的请求则解析到弗吉尼亚的镜像站点。四个站点中的某个站点出现故障或过于繁忙，DNS服务器可以暂时不把请求分配到该站点，而是转移到其它的三个站点，因此Google看来是利用冗余的方法来提高系统的可用性,但建立镜像站点实际上几乎算不上冗余投资。这从一贯坚持节省投资成本的Google而言，无疑是一个很好的设计方案。

第三、Google坚持采用软件方案来提高可用性，而不是使用硬件技术。服务器和大型机中的冗余一般是用硬件，硬件方式意味着更多投资。Google公司的维护人员可以开发软件，如GFS，采用软件方法可达到提高可用性的效果。Google是最大的Linux用户，它可把应用需求直接向Red Hat公司提出，让对方的设计人员开发面向Google的操作系统^[14]。

6、Google如何实现高并行性

如何提供系统的并行性是大型机设计和开发的关键问题，并行性高则意味着系统的加速比大，有利于系统的可扩展性。系统的加速比与实际应用自身的特性紧密相关，如果应用中计算部分所占比例小，而多处理器之间的通信、同步操作多，则并行性难以提高。Google集群的设计者在多篇论文中都表明Google集群的处理能力与PC机数量呈线形关系^[4]，显然这是并行计算中所期望的理想状态。本文认为Google集群提高并行性的技术可归纳为宏观意义上的多发射、多流水。

图5 请求处理流程

图1示出Google的三大功能模块：负责Web页面收集的crawlers、负责Index检索的Index server、以及负责文档检索的Doc Server。Crawlers只负责从网络中不断的采集网页，它与用户的检索请求没有直接联系；Index以及页面检索是直接为用户的请求服务。三者之间通信和同步操作少，适合并行工作。Crawlers以固定周期去发现和采集网络中的Web

8 Technical Report, April 2005 Google Linux Cluster 的系统结构分析

页面，1998年、2000年、2001年以及2003年的文献关于采集周期的报道都是每一个月更新一次。每个crawler所采集页面的地址是由系统分配的，因为分配的地址不同，多台执行crawler程序的PC机可以并行操作。只要Google集群连接到网络的带宽不存在瓶颈，则数据采集信息处理能力与PC的数量成正比增长。

一个请求在Google中的处理过程如图2和图5所示^[15]。步骤1是用户通过Web页面将检索词发送到Google Web Server。步骤2是WWW服务器将查询发送到索引服务器。目前在步骤2执行之前，Google做了一些小处理，如：判断检索词的英文拼写是否正确，如果出错向用户给出提示信息。Google盈利的主要来源之一是广告业务，因此在步骤2执行之前，还有一些关于附加广告操作。

Google Web Server对每个请求所作处理较少，一般不是系统的瓶颈。Index检索与Doc检索之间存在严格的时序关系，即对同一个请求只有在Index server处理完成后，才能去访问Doc Server。把一个请求分成两次查询主要是从效率角度考虑，因为原始Web页面有80多亿张,直接检索则范围太多，检索时间长。Google先对容量大小为数TB甚至是几个PB的原始数据建立高达数MB的索引描述信息，根据Index检索结果，只对部分Web页面进行搜索。Index检索完成后，Index服务器不再处理该请求，而是直接去处理下一个请求。当Index服务器在为第n个请求作检索的时候，Doc服务器可能是在为第n-1个请求进行搜索。Index服务器和Doc服务器在同一时刻并不处理同一个请求，二者可并行为用户服务。若把每一个宏观检索类比为流水线中的功能部件，那么Index服务器和Doc服务器是流水线执行。

多个Doc服务器可以得到数以百万计的检索结果，如本文中描述的对“华中科技大学”检索。多个结果在反馈给用户之前，必须进行一次信息汇总和结果评价排序操作，最后将最好的结果在前几十条记录中反馈给用户。

多发射技术在Google中也有应用。从站点层次来看，Google有多个镜像站点，每个镜像站点之间可以并行为用户服务。位于美国东海岸的镜像站点为美国东部和欧洲用户服务，而加州的镜像站点并行的为亚洲及美国西部用户服务。从站点内部来看，Google Web Server并非是一台PC机，它肯定有多台PC机负责该操作。总之，在同一时刻Google Web Server可以接受多个用户请求，并可以向Index发出多条查询任务。类比单个芯片内部存在多条流水线的现代CPU系统，我们可以认为Google集群中有多条流水线，是一个多发射系统。

表3 每秒Google处理的请求数和Google中的页面数量

时间

Web页面数

每天处理的请求数(百万)

1998年

0.01

1999年1月-6月

0.5

1999年8月-11月

2000年5月-6月

2000年11-12月

1.3Billion

2001年1月-2月

100

2001年11月-12月

3Billion

2002年7月-8月

2.4Billion

2002年11月-12月

4Billion

2004年1月-2月

4.28Billion

2004年11月-12月

8Billion

2005年4月

8Billion

200^[2]

互联网的普及导致Google在单位时间内处理的请求越来越多。表1示出了自1998年以来，Google平均每天处理的检索请求数目增长情况。表1中的数据来自Google公司提供的介绍信息[15]。关于2005年4月份平均每天处理的用户请求数是超过2亿，即大于200M。

9 Technical Report, April 2005 Google Linux Cluster 的系统结构分析

7. 结束语

Google是世界上最成功的网络搜索引擎，它在创办之初就发现并坚持了一个十分正确的搜索结果评价标准:精确率高于查全率，并设计了比较科学的网页评价算法。在Google最具原创性的两篇论文中，对来自硬件领域的可扩展性、可靠性、可用性根本都未曾涉及。Google公司创始人在攻读博士期间发表的论文主要是讲述Google的软件体系、数据结构和页面评价算法，由此可判断他俩擅长软件设计，而不是偏向硬件的计算机系统结构。

随着Belwolf的成功，集群技术成为今年来国际上大型机和高性能计算领域的主流技术。Google集群的设计者在多年前就巧妙的利用集群技术，无疑是一个十分正确的技术选择。因为没有哪台大型机能以如此低的价格，提供如此强的可扩展性。

Google是世界上应用效率最高的集群系统之一，但对集群技术自身的发展它并没有作出太多贡献。Google集群在某种程度上来看，也许不能成为严格的集群服务器，甚至更像一个巨大的计算或存储局域网。因为集群系统研究中最关键的技术是单一系统映象,而所有关于Google集群的介绍中都没有涉及。估计Google集群是通过网络的方式来进行负载均衡和数据访问，不具有严格的集群定义。随着人们对集群定义的逐步放松，特别是Patterson教授和Hennessy教授的《计算机系统结构：一种量化的研究方法》中用很大篇幅详细介绍Google集群之后，它就变成了大型集群成功应用的典范。Hennessy教授既是Stanford大学的校长，又是Google公司的董事。作为计算机系统结构领域的国际著名学者，他有可能直接参与并指导了Google集群的设计和开发，在目前所有关于Google集群的文献中，文献[6]是最全面和细致的一篇。Google集群能否称得上严格意义上的集群，在国外也有争议。但无论是否是集群，对Google而言没有太多意义。因为它已成功的解决了一个大计算量、大存储量、高实时性的应用需求，并且多年来工作得很好。

总之,从计算机系统结构角度来看，我最推崇Google集群研究者和维护者的观点：用最少的钱、用最成熟的技术去构建稳定、高性能、高可用性的系统。目前国内也有很多耗费巨资购买的服务器或者大型机，而真正得到高效应用较少。有些计算或存储服务需求比Google要宽松得多，为什么我们不改变思路，用成熟的技术去构建一个自己的大型计算机系统？本文对Google集群的评价是：用成熟、廉价的技术去构建了一个先进、卓越的计算机系统。这种实用主义的态度，值得我们未来在计算机硬件系统设计和软件系统开发中学习。

致谢

本文是华中科技大学计算机学院谢长生教授讲授的《高等计算机系统结构专题》课程的课程论文，感谢他提供了Google集群系统结构分析这个有趣的问题、并深入浅出的讲授了计算机系统结构领域的技术进展及思维方法。

参考文献

[1] The Google Timeline, http://www.google.com/corporate/timeline.html.

[2] The World’s 500 Most Influential Brands, http://brand.icxo.com/brand500/top500_1.htm.

[3] Sergey Brin and Lawence Page, “The Anatomy of a Large-Scale Hypertextual Web Search Engine,” Computer Networks, Vol. No. 1998, pp. 107-117.

[4] Luiz André Barroso, Jeffrey Dean, and Urs Hölzle, “Web Search for a Planet: The Google Cluster Architecture,” IEEE Micro, Vol. 23, No.2, March 2003, pp.22-28.

[5] Chris Mellor, Google’s Storage Strategy, http://www.techworld.com.

[6] John L. Hennessy, David A. Patterson, “Computer System Architecture: A Quantitative

10 Technical Report, April 2005 Google Linux Cluster 的系统结构分析

Approach, (3rd edition)”, Morgan Kaufmann, May 15, 2002.

[7] TOP500 supercomputer, http://www.top500.org.

[8] List of November 2002, http://www.top500.org/list/2002/11/

[9] Google's cluster, http://www.beowulf.org.

[10] Sanjay Ghemawat, Howard Gobioff and Shun-Tak Leung, “The Google File System,” Proceedings of the nineteenth ACM symposium on Operating systems principles, October 2003.

[11] Kai Hwang and Zhiwei Xu, “Scalable parallel Computing, Technology, architecture, programming,” WCB/McGraw-Hill, 1998.

[12] http://tech.sina.com.cn/i/w/65936.shtml.

[13] Recent Earthquakes in California and Nevada, http://quake.usgs.gov/recenteqs/index.html.

[14] Red Hat Linux Powers Google’s Award-Winning Search Engine, Business Wire, May 30, 2000.

[15] PressCenter of Google, http://www.google.com/press/descriptions.html.

你可能感兴趣的:(Java/C/C++)

icm20608 linux驱动 regmap spi的方式读写寄存器 Embedded-Alien linux kernel linux driver arm linux
开发版芯片imx6ull驱动测量了系统调用read10000次的时间验证了开启硬件浮点和不开启硬件浮点的运算浮点数时间基本相同1.驱动代码#include#include#include#include#include#include#include#include#include#include#include#include#include#include#include#include#in
Python自动化运维：一键掌控服务器的高效之道蒙娜丽宁 Python杂谈运维 python 自动化
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在互联网和云计算高速发展的今天，服务器数量的指数增长使得手动运维和管理变得异常繁琐。Python凭借其强大的可读性和丰富的生态系统，成为实现自动化运维的理想语言。本文以“Python自动化运维：编写自动化脚本进行服务器管理”为主题，深入探讨了如何利用Py
Java复习第四天 Allen_idle 算法 leetcode 职场和发展
一、代码题1.相同的树(1)题目给你两棵二叉树的根节点p和q，编写一个函数来检验这两棵树是否相同。如果两个树在结构上相同，并且节点具有相同的值，则认为它们是相同的。示例1:输入:p=[1,2,3]，q=[1,2,3]输出:true示例2:输入:p=[1,2]，q=[1,null,2]输出:false示例3:输入:p=[1,2,1]，q=[1,1,2]输出:false(2)思路实现a.题目实现如果两
代码随想录算法训练营day28（0121） Lazy.land 算法
1.买卖股票的最佳时机II想到思路其实代码非常简单，其实也跟之前做的那一题摆动序列有一点关联，只不过更加地简单这题的代码，思路很巧妙！题目122.买卖股票的最佳时机II给你一个整数数组prices，其中prices[i]表示某支股票第i天的价格。在每一天，你可以决定是否购买和/或出售股票。你在任何时候最多只能持有一股股票。你也可以先购买，然后在同一天出售。返回你能获得的最大利润。示例1：输入：pr
leetcode136.寻找重复数努力d小白 #其他算法数据结构
标签：计数排序给定一个包含n+1个整数的数组nums，其数字都在[1,n]范围内（包括1和n），可知至少存在一个重复的整数。假设nums只有一个重复的整数，返回这个重复的数。你设计的解决方案必须不修改数组nums且只用常量级O(1)的额外空间。示例1：输入：nums=[1,3,4,2,2]输出：2示例2：输入：nums=[3,1,3,4,2]输出：3示例3:输入：nums=[3,3,3,3,3]输
蓝桥杯Python组最后几天冲刺———吐血总结,练题总结,很管用我学会了晚风时亦鹿学习笔记 Python算法笔记 python
一、重要知识要点1、穷举法2、枚举法3、动态规划4、回溯法5、图论6、深度优先搜索（DFS）7、广度优先搜索（BFS）8、二叉树9、递归10、分治法、矩阵法11、排列组合12、素数、质数、水仙花数13、欧几里得定理gcd14、求最大公约数、最小公倍数15、海伦公式（求三角形面积）16、博弈论17、贪心18、二分查找法19、hash表20、日期计算21、矩形快速幂22、树形DP23、最短路径24、最
Css3 3D转换黄丫丫07 css3 3d css
特点：近大远小物体后面遮挡不可见三维坐标系：三维坐标系其实就是指立体空间，立体空间是由3个轴共同组成的。X轴：水平向右为正Y轴：垂直向下为正Z轴：垂直屏幕向外为正3D位移和3D旋转：主要知识点：3D位移：translate3d（x,y,z）3D旋转：rotate3d(x,y,z)透视：perspective3D呈现transform-style3D位移：translate3d（x,y,z）:Tra
记录一次RPC服务有损上线的分析过程京东云开发者 rpc java sql
作者：京东零售郭宏宇1.问题背景某应用在启动完提供JSF服务后，短时间内出现了大量的空指针异常。分析日志，发现是服务依赖的藏经阁配置数据未加载完成导致。即所谓的有损上线或者是直接发布，当****应用启动时，service还没加载完，就开始对外提供服务，导致失败调用。关键代码如下数据的初始化加载是通过实现CommandLineRunner接口完成的@ComponentpublicclassLoadS
Linux 存储设备和 Ventoy 启动盘制作指南小白也有IT梦 linux 运维服务器
一、Linux存储设备基础知识1.设备路径（/dev）设备路径是Linux系统中物理存储设备的唯一标识，类似设备的"身份证号"。命名规则解析/dev/sda：/dev：device（设备）的缩写，存放设备文件的目录sd：源自SCSIdevice，现在用于表示存储设备a：表示第一个检测到的存储设备数字（如sda1）：表示该设备上的分区编号2.挂载点与挂载过程挂载点是访问存储设备内容的入口，本质是一个
在VSCode中更改专用终端的Conda环境小白也有IT梦 python vscode
步骤打开VSCode：启动VSCode并打开你需要的工作目录。打开命令面板：使用快捷键Ctrl+Shift+P（Windows/Linux）或Cmd+Shift+P（macOS）打开命令面板。选择Conda环境：在命令面板中输入Python:SelectInterpreter并选择该选项。在出现的列表中选择你需要的Conda环境。这个步骤会改变当前工作目录下Python解释器的环境。打开终端：使用
用opencv生成视频流，然后用rtsp进行拉流显示 hunter206206 python opencv python 人工智能
importcv2importnumpyasnpimporttimefromdatetimeimportdatetimeimportgiimportsocketimportsysgi.require_version('Gst','1.0')try:gi.require_version('GstRtspServer','1.0')fromgi.repositoryimportGst,GLib,Gst
CES Asia 2025优惠期倒计时5天，科技盛宴即将开启赛逸展张胜科技
随着时间的推移，备受瞩目的CESAsia2025优惠期已进入最后5天倒计时。作为亚洲顶级的消费电子盛会，CESAsia2025将汇聚众多国内外知名的科技企业，展示涵盖智能家居、智能出行、虚拟现实、人工智能等热门赛道的顶尖成果，是行业交流、商贸合作、趋势洞察的绝佳平台。在这最后的优惠时段内，参展商们仍有机会享受到展位费用的梯度折扣，越早锁定，优惠力度越大，还能优先挑选心仪展位，获得额外的宣传推广资源
CES Asia 2025：民族凝聚力引领科技创新未来赛逸展张胜 ces赛逸展消费电子科技
2024年12月03日，星期二，虽CESAsia2025（赛逸展）尚未举办，但已然引发广泛关注。面对西方组团拒签中国企业的挑战，中华民族正以强大的民族凝聚力积极筹备这场科技盛会。中国科技协会勇挑大梁，凝聚各方力量，为展会的成功举办奠定坚实基础。众多国内科技企业摩拳擦掌，准备在CESAsia2025上展现中国科技创新的卓越实力。这场尚未开幕的展会，将成为科技创新与民族凝聚力的精彩舞台。从充满想象力的
CES Asia 2025：智慧健康与生活科技领域买家聚焦盛会赛逸展张胜人工智能科技大数据
随着科技的飞速发展，智慧健康和生活科技领域正日益成为全球关注的焦点。即将在2025年举办的CESAsia（赛逸展）展会，更是吸引了众多专业买家的目光。这些买家涵盖了医疗机构、美容机构、零售商与电商平台、游戏与娱乐公司以及金融机构等多个领域，他们将在展会上积极探寻行业最新趋势与创新产品，为推动智慧健康和生活科技产业的蓬勃发展注入强大动力。在医疗机构方面，北京大学第三医院、上海交通大学医学院附属瑞金医
引发类型为“System.Windows.Forms.AxHost+InvalidActiveXStateException”的异常解决办法 . 旅行皮箱 asp.net winform cam
这几天在做一个winForm功能时，因为引用了第三方的OCX控件，一般来说一个对象只要实例化就行了但是不知为什么引用这个控件时老是报引发类型为“System.Windows.Forms.AxHost+InvalidActiveXStateException”的异常错误，后经查，除了实例化，还要初始化该对象。AxJAVOLELib.AxJAVOlecam[i]=newAxJAVOLELib.AxJA
[实战]Ubuntu使用工具和命令无法ssh,但使用另一台Ubuntu机器可以用命令ssh,非root用户。江湖一码农 ubuntu ssh linux
现象新安装一台Ubuntu22.04服务器，各种远程工具都无法SSH，但使用公司的另一台Ubuntu22.04的机器可以正常SSH。并且我使用的是非root用户。百度、谷哥上能试的方案全试了一遍，使用命令ssh仍然提示permissiondeniedpleasetryagain。使用工具ssh提示还是Accessdenied。原因经过排查，发现新安装的服务器出现了IP冲突。重新换一个IP即可。我这
Bootstrap4网格系统详解半点寒12W css css3
一、基本概念Bootstrap4的网格系统是其核心部分，它基于一个12列的布局，能够帮助你轻松创建响应式的网页布局。这种网格系统可以让你将页面内容划分为不同的行和列，使得内容在不同设备上都能呈现出最佳的显示效果。二、容器（Container）容器的作用：容器是用来包裹页面内容的元素，它提供了一个水平居中的布局空间，并为内部的行和列设置了合适的内边距。容器的类型：**.container：**这是一
CSS3 2D 转换介绍半点寒12W css css3 css 前端
CSS3中的2D转换（2DTransforms）允许你在二维平面上对元素进行操作，如移动、旋转、缩放和倾斜等，这可以让网页的布局和动画效果更加丰富多样。以下是一些主要的2D转换方法：一、translate（移动）语法：transform:translate(x,y);或者transform:translateX(x);和transform:translateY(y);。其中x和y是长度值（可以是像
使用XMLHttpRequest发送网络请求半点寒12W 计算机网络网络 javascript 前端
使用XMLHttpRequest发送get请求步骤创建xhr对象调用xhr.open()函数调用xhr.send函数监听onreadystatechange事件未携带参数的get请求varxhr=newXMLHttpRequest();xhr.open("get","http://127.0.0.1:8000");xhr.send();xhr.onreadystatechange=function
【Java基础】抽象类、接口、内部的运用与作用分析，枚举类型的使用唐僧洗头爱飘柔9527 java java 开发语言 Java SE 内部类抽象类 interface接口枚举类
1.抽象类在面向对象的概念中，所有的对象都是通过类来描绘的，但是反过来，并不是所有的类都是用来描绘对象的，如果一个类中没有包含足够的信息来描绘一个具体的对象，这样的类就是抽象类。抽象类除了不能实例化对象之外，类的其它功能依然存在，成员变量、成员方法、初始化块和构造方法和普通类一样。并且抽象类和普通类相比还多出了抽象方法。格式：[修饰符]abstractclass类名{//零到多个成员变量//零到多
SQL语言中的查询语句整理唐僧洗头爱飘柔9527 sql mysql 数据库
1、查询语句的介绍：本篇主要介绍sql语句里的查询语句，这其中包括了查询语句中的子内容，也就是拓展的内容，这些内容代入到查询语句中将会有更多的反应。2、查询语句：FROM命令：SELECT字段1,字段2,字段3FROM表文件名执行顺序：mysql共有7个查询命令，FROM命令永远是第一个执行的查询命令执行作用：FROM命令相当于一个读取流，分则将硬盘上表文件加载到内存中生成一个【临时表】供后续查询
RocketMQ源码之消息刷盘分析小虾米 ~ RocketMQ rocketmq
前言刷盘是将内存中的消息写入磁盘，分为同步刷盘和异步刷盘。同步刷盘指一条消息写入磁盘才返回成功，异步刷盘指写入内存就返回成功，稍后异步线程刷盘。在创建CommitLog对象的时候，会初始化刷盘服务：//代码位置：org.apache.rocketmq.store.CommitLogpublicCommitLog(finalDefaultMessageStoredefaultMessageStore
RocketMQ源码分析之事务消息分析小虾米 ~ RocketMQ java-rocketmq rocketmq java
rocketMQ事务消息原理概述RocketMQ采用两阶段提交（2PC）的思想来实现事务消息，当事务消息失败或者超时，同时采用补偿的方式处理这个问题。这两个阶段分别为正常事务消息的发送与提交以及事务消息的补偿。我们看看官方文档给的事务消息的流程图：1、事务消息的发送与提交MQProducer将事务消息发送给MQServer（Broker服务器），这时的消息称为半消息，半消息是不能被消费者消费的。当
HTML＜center＞标签新生派 html 前端
HTML5不支持。标签在HTML4中用于使文本居中对齐。用什么来代替呢？例子居中对齐文本（使用CSS）：h1{text-align:center;}p{text-align:center;}div{text-align:center;}ThisisaheadingThisisaparagraph.Thisisadiv.
分布式IO模块与S7-1200 PLC：打造高效分拣系统的新引擎明达技术分布式物联网
在现代化物流中心，快速、高效、准确的包裹分拣是衡量整个系统性能的关键指标。为了实现这一目标，国产IO模块与西门子S7-1200PLC的结合应用，正成为越来越多企业的首选方案。这一组合不仅优化了数据采集和处理流程，还显著提升了分拣效率，降低了运营成本。精准配合分布式IO模块是工业自动化系统中的关键组件，负责采集现场设备的各种信号，并将这些信号转换为数字信号传输给PLC。在分拣系统中，这些模块外接了各
深度学习环境配置指南！（Windows、Mac、Ubuntu全讲解） Charmve #AI学习指导：从入门到进阶软件安装环境配置计算机视觉实战文档详细开放源码 cuda linux gpu anaconda ubuntu
关注“迈微AI研习社”，内容首发于公众号作者：伍天舟、马曾欧、陈信达入门深度学习，很多人经历了从入门到放弃的心酸历程，且千军万马倒在了入门第一道关卡：环境配置问题。俗话说，环境配不对，学习两行泪。如果你正在面临配置环境的痛苦，不管你是Windows用户、Ubuntu用户还是苹果死忠粉，这篇文章都是为你量身定制的。接下来就依次讲下Windows、Mac和Ubuntu的深度学习环境配置问题。一、Win
git生产常用命令 zjx182021 git
1.从master分支copy代码，修改后push到自己分支下面解决修改代码后push，报错你的代码版本过久的问题GitcopyXXX修改你的代码后Gitcheckout-bnew_branchGitadd.Gitcommit-m“xxx”//下面更新你的代码，会让你的所有代码变回master原样，但是你修改的代码已经在暂存区，push就可以了GitpulloriginmasterGitpusho
国资助力科技创新，闪耀CES Asia 2025 CES_Asia 科技智能音箱人工智能智能电视智能手机
近日，国务院国资委印发《关于改进和加强中央企业控股上市公司市值管理工作的若干意见》，强调控股上市公司在科技创新方面的主动性，鼓励企业通过并购重组提升竞争优势及科技创新能力，促进产业升级，为相关领域的企业创新提供更为宽松的环境。在这一政策的推动下，众多国资控股上市公司积极响应，在科技创新领域不断加大投入和布局。随着CESAsia2025（赛逸展）的临近，预计会有不少国资背景的科技企业在展会上崭露头角
中国民用航空局 CAAC CAAC_SKY 智慧民航交通物流业界资讯职场和发展人工智能
中国民用航空局（CivilAviationAdministrationofChina，简称CAAC）是中华人民共和国国务院主管民用航空事业的国家局，归交通运输部管理。以下是对其的详细介绍：一、历史沿革1949年11月2日，中共中央政治局会议决定，在人民革命军事委员会下设民用航空局，受空军指导。1958年，中国民用航空局划归交通部领导，后改为交通部的部属局。1962年，中国民用航空总局由交通部属改为
Python : CCF-CSP真题——坐标变换（其一）我是阿核 Python 算法 leetcode python 经验分享
试题编号：202309-1试题名称：坐标变换（其一）时间限制：1.0s内存限制：512.0MB问题描述：问题描述对于平面直角坐标系上的坐标(x,y)，小P定义了一个包含n个操作的序列T=(t1,t2,⋯,tn)。其中每个操作ti（1≤i≤n）包含两个参数dxi和dyi，表示将坐标(x,y)平移至(x+dxi,y+dyi)处。现给定m个初始坐标，试计算对每个坐标(xj,yj)（1≤j≤m）依次进行T
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修