百度运维系统Client设计探秘

概要
从大型集群自动化系统管理的视角出发,任何安装到受控服务器上,承担固定任务或者接受主控服务器指令的守护进程、补充与修改操作系统功能与行为的工具等,均属于客户端范畴。包括硬件管理(OOB Management)、操作系统本身、传统认知上的服务器程序(例如sshd)等都是客户端。其中,守护进程以及持有特权的工具,需要使用与普通程序不同的设计方法,存在大量技术陷阱,例如: 如何获得与放弃特权? 如何自动升级? 如何检测、处理和报告异常? 如何控制主控压力? 如何防御攻击? 当集群规模尚小的时候,选择开源技术是最佳的选择,但是随着规模扩大,开源技术的局限性就会越发凸显。在百度的海量集群上迭代数年后,我们总结出一系列的客户端技术要点,并应用到真实环境中,获得了大量第一手数据。

个人简介

钟溢原,百度运维部高级研发工程师,自动化系统管理客户端技术负责人,长期从事于发行版与基础环境标准化、海量服务器自动运维技术的研究。对发行版管理、包管理、配置管理等有深入研究,具备丰富的跨平台软件开发经验。 主持研制机器初始化系统Apollo、轻量级虚拟化系统Executor、作业调度系统Matrix客户端等,覆盖百度全部自有IDC,为百度所有产品提供底层运维支持。 钟溢原于2011年获得上海交通大学电力电子与电子传动硕士学位,从事工业自动化技术研究。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

你可能感兴趣的:(百度运维系统Client设计探秘)