消息推送平台

前言


本文内容整理自58到家平台部负责人任桃术的演讲内容。主要内容包括三部分:消息平台产生的背景、它的整体架构和系统重点以及遇到并解决了哪些问题。

消息推送平台产生的背景


消息平台产生的背景是基于58核心的业务——58速运,58速运的业务是做最便捷的同城的货运。

之前一个速运系统出现问题时,GPS上报跟滴滴的业务比较相近,区别在于滴滴是运人,我们这边是运货。这时存在着一些问题,由于GPS上报比较频繁,系统压力比较大。此外,我们向多个司机推送订单的时候,对于系统的关注性能比较弱,前期采用HTTP的方式进行消息推送,可能导致可用性和消息的到达有问题。因此我们开发了实时消息推送平台,目的就是解决系统的稳定性等性能问题,为业务部门减少压力。

新消息推送系统的整体架构


所有系统设计的话,都是基于某个业务场景的,这里简单介绍一下速运的业务场景。主要包括两端,一个是APP端,可能是用户使用或者是客户的司机,对于司机端知道司机处于哪个位置,会有GPS上报。另外用户下单,对应也是APP操作的。另一个是司机端,我们将用户的订单从APP-server这边推送给附近一批司机的时候,会有司机抢单的流程,把订单消息推送到各个司机端。当然还有其他实时的消息,因为作为一个通用的消息平台,不仅仅服务速运这个业务,还有58到家的家政、丽人等其他业务。

基于上述的业务,我们做了如图1所示的架构设计,整体来说是比较简单的。

消息推送平台_第1张图片

APP端,用户或司机会有下单的流程,有两类消息:第一类消息从APP端发起,用户下单,最终将消息推送给APP-server,另外一个就是从APP-server往APP端走。

msg-gate负责整合百万连接,维护与APP端的海量tcp连接;建立安全的消息通道,消息加解密、消息解压缩、消息流量监控、黑白名单;消息投递,接收APP端投递过来的消息,推送app-server投递过来的消息给APP端。因为要得到实时,优化了没有采用现有业务的方式上报。这边对于gate就是百万链接的流量整合。另外一个它会有逻辑层,将逻辑层转换MQ,这是整体的流程。

一般像我们服务的话,因为哪一个司机和哪个客户对接都要通过消息平台进行发送,所以对于gate层是比较特殊的,是有状态的。另外有一个逻辑层,主要职责也比较简单,就是跟业务相关的,逻辑层最核心的东西就是必须把gate层这边的消息重组到APP上,就是gate和APP有怎样的关系,这是server往APP端的东西。逻辑层职责比较简单,一个就是业务处理,还有也是业务相关的逻辑。

新消息推送系统的设计重点


其实从整体来说,架构还是比较简单的,但最终实现并不是我们想象的那么简单,主要有两个方面的问题:协议设计和快速重连,里面可能会有很多细节。

1协议设计


我们在进行协议设计时候,主要考虑扩展性、可调试性和异步处理。

首要是扩展性。我们可以想象一下,消息平台里面,可能会有哪些扩展的需求?第一类有各种报文,比如登录、APP业务、appserver推送、keepalive等。最终消息推送的话肯定是业务的消息,对于业务包数据的变更我们要做到可扩展。其实也很简单,对于报文的话,比如登陆的话是一个,发消息的是另外一个。另外我们消息传送的话,有几类消息,可能我是个请求消息,另外可能是发出请求之后别人会返回我一个消息,还有一个就是由APP推过来的,在网络上面只有读和写或者收发,但是并不确认这个消息到底属于哪一个类型,所以这边有一个标识。如下图所示。

消息推送平台_第2张图片

一般的话可能还有更复杂的业务,比如有好友、匿名登陆,基于这一类设计的话,可能还会有一个协议的命令,比如登陆有登陆的协议,或者好友有好友的,对应好友可能有一些子命令,比如查看好友信息。如果类似复杂的业务可以把这些消息包规范好,另外像匿名登陆可以用协议族方式,一个大的协议族可以有子命令。另外业务数据包的话,可以通过变长的包体,只要跟业务方约定好,我们是基于怎样训练化的机制就可以了,至于里边放怎样的数据,其实随便,所以就可以做到很好的扩展。

另外可调试性,因为消息的流转会有很多环节,APP端开始到gate,再到MQ等等,假设某个请求包处理失败,我们如何快速知道这个消息包已经流转到哪个步骤了?是APP端的问题,还是msg-gate的问题,还是msg-logic的问题,还是redis的问题?解决的方案比较简单,就给一个统一标识就可以了。如下图所示。

58到家实时消息系统的协议设计等技术实践分享_3.png

还有一个异步化的支持。这种消息通道最重要的是解决通道问题,所有消息处理不能是同步的,必须是异步的,你发一个消息出去,ABC三个包,你收到XYZ三个包之后,你怎么知道它是对应的,就是对应关系的话我们怎么处理,就是加一个ID,如下图所示。

58到家实时消息系统的协议设计等技术实践分享_4.png

你可以维持一个发送包的上下文队列,当你收到包之后你从对应找到上下文做到处理。异步化处理的话两点,第一点是要有队列,另外一个就是必须要有一个回调,基本是队列加回调,因为收到小型包之后回去怎么做不确定,一般是这两个可以解决。

2快速重连


另外一个TCP的快速重连,连接之后只是说明我们可以收发包消息了,但是连接之前要做一些验证,比如是不是合法用户等。

我们解决快速重连的方法就是射线保持,不会清掉就没必要重复创建了。由于无线网络特别不稳定,射线保持也会引入其他的问题。如果断开,射线还在这里的话有两类消息,一类消息从APP-server推送到APP端的时候,因为TCP已经断开了,对应的其实你是发不出去消息的,这种情况下怎么办。

可能会导致往一群司机推送订单的时候,这些司机就断开了,推送会失败,现在的做法会把射线清掉。因为这个情况没法重建TCP链接,因为是从server端到APP端的。

另外一类,APP端往app-server推送消息的时候,因为我们这边TCP连接之后肯定有一些机制保持连接,一种通过心跳,另外再发消息的时候,我会重新建立TCP连接,会出现一个问题,重建连接的时候,我发送连接请求的服务器的话,可能不是上一台,之前连了一台服务器,现在网络点开重连,选的是另外一台服务器,这个是有问题的,导致用户在两台上边登陆了,这个问题怎么解决。

第一个问题,我们其实不好再重建TCP连接,因为是APP-server到APP的推送,好的做法就是把这个射线清掉,因为我们维护了APP端到gate的连接,这个是需要做的。另外一个就是像这种APP端同时登陆两个gate的时候,首先第一步把上一个清掉,重新再建立新的TCP连接。这个东西会有问题就是说网络不稳定,出现APP端跟好几个接入层进行了连接,优化的方案就是会在APP端做一些处理,比如可以记录上一次我和哪一台服务器连接,下一次网络有连接的时候就走上一台的,这样就不会导致登陆两个服务器的情况。

以上是我对到家实时消息推送平台的介绍,希望能够对大家有所帮助。

全站即时通讯技术资料分类


[1] 网络编程基础资料:
《 TCP/IP详解 - 第11章·UDP:用户数据报协议》
《 TCP/IP详解 - 第17章·TCP:传输控制协议》
《 TCP/IP详解 - 第18章·TCP连接的建立与终止》
《 TCP/IP详解 - 第21章·TCP的超时与重传》
《 理论经典:TCP协议的3次握手与4次挥手过程详解》
《 理论联系实际:Wireshark抓包分析TCP 3次握手、4次挥手过程》
《 计算机网络通讯协议关系图(中文珍藏版)》
《 NAT详解:基本原理、穿越技术(P2P打洞)、端口老化等》
《 UDP中一个包的大小最大能多大?》
《 Java新一代网络编程模型AIO原理及Linux系统AIO介绍》
《 NIO框架入门(三):iOS与MINA2、Netty4的跨平台UDP双向通信实战》
《 NIO框架入门(四):Android与MINA2、Netty4的跨平台UDP双向通信实战》
>> 更多同类文章 ……

[2] 有关IM/推送的通信格式、协议的选择:
《 为什么QQ用的是UDP协议而不是TCP协议?》
《 移动端即时通讯协议选择:UDP还是TCP?》
《 如何选择即时通讯应用的数据传输格式》
《 强列建议将Protobuf作为你的即时通讯应用数据传输格式》
《 移动端IM开发需要面对的技术问题(含通信协议选择)》
《 简述移动端IM开发的那些坑:架构设计、通信协议和客户端》
《 理论联系实际:一套典型的IM通信协议设计详解》
《 58到家实时消息系统的协议设计等技术实践分享》
>> 更多同类文章 ……

[3] 有关IM/推送的心跳保活处理:
《 Android进程保活详解:一篇文章解决你的所有疑问》
《 Android端消息推送总结:实现原理、心跳保活、遇到的问题等》
《 为何基于TCP协议的移动端IM仍然需要心跳保活机制?》
《 微信团队原创分享:Android版微信后台保活实战分享(进程保活篇)》
《 微信团队原创分享:Android版微信后台保活实战分享(网络保活篇)》
《 移动端IM实践:实现Android版微信的智能心跳机制》
《 移动端IM实践:WhatsApp、Line、微信的心跳策略分析》
>> 更多同类文章 ……

[4] 有关WEB端即时通讯开发:
《 新手入门贴:史上最全Web端即时通讯技术原理详解》
《 Web端即时通讯技术盘点:短轮询、Comet、Websocket、SSE》
《 SSE技术详解:一种全新的HTML5服务器推送事件技术》
《 Comet技术详解:基于HTTP长连接的Web端实时通信技术》
《 WebSocket详解(一):初步认识WebSocket技术》
《 socket.io实现消息推送的一点实践及思路》
>> 更多同类文章 ……

[5] 有关IM架构设计:
《 浅谈IM系统的架构设计》
《 简述移动端IM开发的那些坑:架构设计、通信协议和客户端》
《 一套原创分布式即时通讯(IM)系统理论架构方案》
《 从零到卓越:京东客服即时通讯系统的技术架构演进历程》
《 蘑菇街即时通讯/IM服务器开发之架构选择》
《 腾讯QQ1.4亿在线用户的技术挑战和架构演进之路PPT》
《 微信技术总监谈架构:微信之道——大道至简(演讲全文)》
《 如何解读《微信技术总监谈架构:微信之道——大道至简》》
《 快速裂变:见证微信强大后台架构从0到1的演进历程(一)》
《 17年的实践:腾讯海量产品的技术方法论》
>> 更多同类文章 ……

[6] 有关IM安全的文章:
《 即时通讯安全篇(一):正确地理解和使用Android端加密算法》
《 即时通讯安全篇(二):探讨组合加密算法在IM中的应用》
《 即时通讯安全篇(三):常用加解密算法与通讯安全讲解》
《 即时通讯安全篇(四):实例分析Android中密钥硬编码的风险》
《 传输层安全协议SSL/TLS的Java平台实现简介和Demo演示》
《 理论联系实际:一套典型的IM通信协议设计详解(含安全层设计)》
《 微信新一代通信安全解决方案:基于TLS1.3的MMTLS详解》
《 来自阿里OpenIM:打造安全可靠即时通讯服务的技术实践分享》
>> 更多同类文章 ……

[7] 有关实时音视频开发:
《 即时通讯音视频开发(一):视频编解码之理论概述》
《 即时通讯音视频开发(二):视频编解码之数字视频介绍》
《 即时通讯音视频开发(三):视频编解码之编码基础》
《 即时通讯音视频开发(四):视频编解码之预测技术介绍》
《 即时通讯音视频开发(五):认识主流视频编码技术H.264》
《 即时通讯音视频开发(六):如何开始音频编解码技术的学习》
《 即时通讯音视频开发(七):音频基础及编码原理入门》
《 即时通讯音视频开发(八):常见的实时语音通讯编码标准》
《 即时通讯音视频开发(九):实时语音通讯的回音及回音消除概述》
《 即时通讯音视频开发(十):实时语音通讯的回音消除技术详解》
《 即时通讯音视频开发(十一):实时语音通讯丢包补偿技术详解》
《 即时通讯音视频开发(十二):多人实时音视频聊天架构探讨》
《 即时通讯音视频开发(十三):实时视频编码H.264的特点与优势》
《 即时通讯音视频开发(十四):实时音视频数据传输协议介绍》
《 即时通讯音视频开发(十五):聊聊P2P与实时音视频的应用情况》
《 即时通讯音视频开发(十六):移动端实时音视频开发的几个建议》
《 即时通讯音视频开发(十七):视频编码H.264、V8的前世今生》
《 简述开源实时音视频技术WebRTC的优缺点》
《 良心分享:WebRTC 零基础开发者教程(中文)》
>> 更多同类文章 ……

[8] IM开发综合文章:
《 移动端IM开发需要面对的技术问题》
《 开发IM是自己设计协议用字节流好还是字符流好?》
《 请问有人知道语音留言聊天的主流实现方式吗?》
《 IM系统中如何保证消息的可靠投递(即QoS机制)》
《 谈谈移动端 IM 开发中登录请求的优化》
《 完全自已开发的IM该如何设计“失败重试”机制?》
《 微信对网络影响的技术试验及分析(论文全文)》
《 即时通讯系统的原理、技术和应用(技术论文)》
《 开源IM工程“蘑菇街TeamTalk”的现状:一场有始无终的开源秀》
>> 更多同类文章 ……

[9] 开源移动端IM技术框架资料:
《 开源移动端IM技术框架MobileIMSDK:快速入门》
《 开源移动端IM技术框架MobileIMSDK:常见问题解答》
《 开源移动端IM技术框架MobileIMSDK:压力测试报告》
《 开源移动端IM技术框架MobileIMSDK:Android版Demo使用帮助》
《 开源移动端IM技术框架MobileIMSDK:Java版Demo使用帮助》
《 开源移动端IM技术框架MobileIMSDK:iOS版Demo使用帮助》
《 开源移动端IM技术框架MobileIMSDK:Android客户端开发指南》
《 开源移动端IM技术框架MobileIMSDK:Java客户端开发指南》
《 开源移动端IM技术框架MobileIMSDK:iOS客户端开发指南》
《 开源移动端IM技术框架MobileIMSDK:Server端开发指南》
>> 更多同类文章 ……

[10] 有关推送技术的文章:
《 iOS的推送服务APNs详解:设计思路、技术原理及缺陷等》
《 Android端消息推送总结:实现原理、心跳保活、遇到的问题等》
《 扫盲贴:认识MQTT通信协议》
《 一个基于MQTT通信协议的完整Android推送Demo》
《 求教android消息推送:GCM、XMPP、MQTT三种方案的优劣》
《 移动端实时消息推送技术浅析》
《 扫盲贴:浅谈iOS和Android后台实时消息推送的原理和区别》
《 绝对干货:基于Netty实现海量接入的推送服务技术要点》
《 移动端IM实践:谷歌消息推送服务(GCM)研究(来自微信)》
《 为何微信、QQ这样的IM工具不使用GCM服务推送消息?》
>> 更多同类文章 ……

[11] 更多即时通讯技术好文分类:
http://www.52im.net/forum.php?mod=collection&op=all

(原文链接: http://blog.qiniu.com/archives/4932

你可能感兴趣的:(设计-架构)