许志强:容联云通讯IM和快速预警系统的改进和成效

个人简介 许志强,现在担任容联云通讯CTO及副总经理,负责容联云通讯的技术和研发工作。在此之前在电信行业有十几年的研发经验,从研发工程师一直做到研发负责人,对于如何构建电信级、大容量、高可用性的平台有相当丰富的经验。在项目管理领域,曾获得过PMP认证,熟悉CMMI开发流程,曾经在印度Infosys总部全程参与CMMI5项目的研发。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

   

1. 大家好,我现在在QCon上海大会的现场,今天很高兴邀请到容联云通讯的技术总监许志强先生接受我们的采访,按照惯例,请您做下自我介绍?

许志强:大家好,我是容联云通讯的技术负责人许志强。先做个广告,简单介绍一下容联云通讯,容联云通讯是一家提供全通讯能力的PAAS平台服务提供商,在互联网10强里面,有8家使用我们的服务,包括BAT像阿里丁丁,或者是腾讯来电,都在使用我们的通讯能力,我们的定位是做最专业的通讯能力的服务提供商,如果大家有通讯能力方面的需求,不管是IP侧的,还是运营商侧的,我们都能够提供,希望能够给大家提供更好的技术服务能力。

   

2. 像云通讯这一块也是非常技术集中的一个领域,你们现在的技术团队都是您在管,那能不能简单介绍一下你们现在技术线是怎么分的,然后具体是怎么样的工程师在里头?

许志强:因为我们现在是全通讯能力,从大的层面来看有两大分类,一类我们归之为传统的通讯能力,这块是跟运营商有关系的,像传统的语音电话,语音会议,还有呼叫中心,这种是传统的,只要跟大家打电话相关的,或者是收发短信这些属于运营商范畴类的,我们称之为传统的通讯能力;另外一类是互联网的通讯能力,像IM,或者纯粹的IP音视频呼叫,这些我们称之为互联网的能力。我们的团队大概是分成几部分,一部分是负责整个PAAS平台的底层平台的构建,它主要是解决大容量,高稳定性的平台建设;然后有一部分团队,因为我们很多的能力都是基于音视频编解码能力,所以我们有一个专门的团队是研究底层的音视频编解码,怎么样在不可靠的网络上保证很好的服务体验;另外还有就是我们会有一些产品线的产品,包括融合通讯的一些产品,这类产品主要是给一些政企客户,他们不愿意做研发,但是他们需要有这样一个融合通讯的客户端,这个客户端又是基于我们开放平台的,我们会有一个Team去专门去做这个;还有就是呼叫中心,我们有一个控股的子公司叫容联七陌,专门提供呼叫中心的这种PaaS能力的提供商,提供这样SAAS服务的能力,目前技术方面来说主要就是这几块。

   

3. 那就不单纯是一个SaaS型的服务,而是有一些针对性的?

许志强:不只是PaaS,还有一些SAAS类的。

   

4. 您之前也是有很多年传统领域通讯的经验,12年的时候开始进入互联网通讯这块,您感觉这个差别大吗?

许志强:差别还是挺大的,因为我们以前一直是给运营商做系统,给运营商做技术支撑,首先研发管理的模式非常不一样,像以前我们做项目可能更多的是采用比较重型的一些流程,像CMM这种比较规范化的管理,它的好处就是项目能够比较保证有条不紊的进行,而且最终能够得到一个相对比较好的结果。但是可能会决策周期比较长,互联网强调的就是快速迭代,快速的推向市场,因为时间就是金钱,时间就是你的创业机会,可能过了几个月,你再推出这个时机已经错过了,所以在互联网开发更多的强调快速实现功能,快速迭代,这个就是第一个比较大的不同的地方。第二个比较大的不同的地方就是以前我们给运营商做系统,虽然相对于其他的企业级系统,它的规模、并发能力都是要求非常高的,但是跟现在互联网来比还是有一点点差别,为什么?因为以前我们做的系统可能都是在一个省一个市里面有一套这样的系统,他面对的用户是有限的,举个很简单的例子,像我们平常打电话,要经过他的程控交换机,一个程控交换机万门,十万门已经是很高了,因为只服务在当地。但是到了互联网以后,因为是通过互联网的网络提供能力出去,整个互联网上的用户,中国的用户也好,国外的用户也好,只要能够接入互联网,就可以调用你的应用能力,你的并发能力会比以前给运营商做系统要大的多,而且还有一个,以前给运营商做系统,系统的部署环境都是非常可控的一个环境,网络肯定就是内网非常好的网络环境,但是一旦到互联网了,网络就不受你可控了,所以要考虑更多的在这种互联网情况下,各种容错情况下,各种保证服务的设计方案,这就是从以前我们传统的给运营商做系统设备转到互联网上的研发,我觉得有这么几点,很大的不同的地方。

   

5. 能不能分享一下,你们今年,您觉得比较值得分享的几个事情,或者改进?

许志强:我们今年做了几个比较大的改进,一个是在即时的IM通讯领域。在我们PAAS平台上线之初,我们就基本上有所有的能力,但是因为最早我们是给运营商做系统,我们更偏向于传统的语音能力的提供,当时IM的能力,我们采用在运营商设备,或者系统里面常用的SIP的协议来做得,后来发现在运营过程中很多用户有IM的需求,而我们这种解决方案没有办法能够给客户很好的体验,所以我们今年就成立了一个专门的IM的团队,来重新构架我们的IM的通讯能力,里面会用比较多的设计理念、新技术,保证给用户的体验是最好的。今年北京的QCON和上海的QCON,我们有很大一部分就是分享我们在IM领域的改进,这是我们今年做的一个比较大的事情。第二个事情呢,就是随着我们系统的规模越来越大,客户越来越多的情况下,我们需要有一个快速预警系统各种异常情况的能力,这种预警以前我们做得比较低层面一点,可能我们所有的服务器模块,机器设备,这些我们有监控,当出现故障以后,我们有运维人员去管理,但是当系统出现类似呼叫呼不出去,或者有些呼叫能出去,有些呼叫不能呼出去,这种逻辑上,或者是说从业务层面上看到的故障,但是在生产环境上看不到故障的时候,以前我们没有一个很好的监控手段。后来我们针对碰到的问题抽象出来了很多监控指标,包括每条线路的接通率情况,每条设备的丢包率情况,包括因为我们在全国各地有很多点,除了像在阿里云布的设备,我们在全国各地还有些机房,我们也去做了一个比较大的改进,我们能够监控到从我们,假如我们有五个点,任意两点之间的通讯,我们走哪里是最优的策略,网络质量,或者网络延时比较大的不会选,我们会选一个最优的路径,我们通过监控提取到了数据,再来反馈到我们的路由选择的策略,加了这些监控点一个最大的好处就是,我们经常可以在用户反馈之前能够知道系统出问题了,这时候我们就会有一些自动调度,或者一些人工调度去来保证用户享受到的服务是无损的,这块也是我们今年一个重点工作。

   

6. 这应该也是一个持续的工作吧?

许志强:是一个持续的工作。然后今年还有个比较大的改进呢,就是大家都知道,一般大家提性能会有一个数据库,而且会依赖于数据库来保证系统的稳定性,可用性。传统的解决方案可能是数据库不稳定就弄主备,但是在主备情况下仍然可能会在切换过程中影响到业务,所以我们今年的改进就是在系统的所有节点上,包括数据库上,没有任何单点故障,而且即使把数据库全部关了,对在线的业务没有任何影响,我们采用了多级缓存的机制,从应用模块的缓存,到内存数据库的缓存,然后再到SQL数据库的记录来保证任何一个中间的点宕了以后,业务不受任何影响,因为本身我们的模块就是分布式设计,集群设计的,以前最大的瓶颈可能就是在数据库这块,今年我们就在这方面也是做了一个比较大的改良来解决这个问题。

   

7. 你们自己的软件升级,包括像你刚才说的,如果所有节点都铺过去,如果没有一个很好的升级手段,也是不太容易做的?

许志强:我们有一套运维平台,所有的操作,模块的升级替换都能够走这个运维平台上去操作,包括定时更新,因为像我们的业务有通话的业务,任何时刻都有可能别人在通话,你不可能随意把模块升级,所以我们做了一种自动的升级系统,就是当你要升级版本的时候,它会先把这个模块从路由里面取出来,然后会判断所有的业务都已经结束了,这时候它会自动把模块升级起来,然后自动校验模块正常,再把它放回路由里面,这个也是我们运维监控里面比较有亮点的东西,能够做到单台机器升级,全部机器升级,还有能够定时升级,有时候我们需要在业务量低峰的时候升级,以前可能就是我们的运维人员熬到晚上两点,三点去,现在只能设一个定时任务,升级完成以后,它也会短信通知,运维人员早上一看有没有问题,有问题就提前介入。

   

8. 如果没有开发功底的运维,他也做不到这个东西。是哪个团队在做的呢?

许志强:这是属于我们PaaS平台下面有个专门做运维监控的一个小的Team来做的,所有的PaaS平台的管理,运维,运营全部是这个团队负责。

   

9. 相当于他也是给你们整个研发平台提供服务?

许志强:没错。

   

10. 最后想请您分享一下之后的一些计划?

许志强:我们之后的计划主要是这样子,因为目前的容联云通讯是市场上唯一一家提供所有通讯能力的PaaS平台,我们强调的是全能力的通讯平台,一站式服务,只要你想到要什么通讯能力,找我们没有错,这是我们一开始的定位,目前市场上我们的品牌定位也是这样。我们下一阶段的目标是希望在所有的通讯能力里面我们能够做到最强,所以我们现在的团队构建也好都是瞄准这个目标,在每一个单项里面做到最突出,我们今年成立一个专门的IM团队,就是为了把我们的IM做得最好,虽然不赚钱,但我们的目标就是把通讯能力让大家用的更简单,质量更好,提供最优质的服务给大家。

   

11. 今天十分感谢徐总接受我们的采访。

许志强:行,好,谢谢。

你可能感兴趣的:(许志强:容联云通讯IM和快速预警系统的改进和成效)