消息队列
消息队列扫盲
维基百科上的描述:在计算机科学中,消息队列(Message queue)是一种进程间通信或同一进程的不同线程间的通信方式,软件的贮列用来处理一系列的输入,通常是来自用户。 这个描述很生硬,对于没有接触过消息队列的你来说可能有点不好理解。
其实消息队列在上世纪八九十年代就有了,只不过它最早并不是用在目前我们所熟悉的互联网集群架构中。最近十几年,互联网发展太快,用户群体越来越大,早期的简单架构早就不能满足需求。所以聪明的架构师们,想尽各种办法解决一切瓶颈,其中消息队列就是一个典型代表。它目前被广泛使用在异步通信领域里。
什么叫异步?举个例子,用户在网站注册一个账号,需要通过邮件确认。正确的步骤是:1)用户填写信息(包括邮箱地址);2)服务器接收用户信息,写到数据库;3)服务器发送确认邮件给用户;4)网站提示用户注册完成。如果这4个步骤逐次完成,则整个流程耗费时间最大的是第三步,有可能需要不到1秒钟,也可能需要1分钟。所以,这样的设计最终会导致个别用户的不耐烦而放弃注册。
如果是异步的思路,那么会把第3步单独摘出来,也就是说不管用户有没有收到邮件,网站都会直接告诉用户注册成功了。这个设计没毛病,但是如何实现异步?这就用到了“消息队列”中间件。还接着说上面的小例子,在第二步的时候,服务器(其实是某个进程)除了将用户信息写入到数据库之外,它还会把用户的邮箱地址写入到消息队列里,而发送邮件的服务会到消息队列里取这个邮箱地址,然后再发邮件给那个邮箱地址。在这个过程中,写消息队列的服务(某个进程)和读消息队列的服务(发邮件的那个服务)没有直接关系,它们只需要专心写和读消息队列即可。
以上小例子,就是消息队列非常典型的一个应用场景。除了这种场景外,它还可以用在流量削峰的场景下。我想,你应该经历过双11淘宝秒抢商品吧,这个其实就是流量削峰。假如正常情况下一个网站架构最多承载1w人同时访问,但做活动时同时在线的人达到了100w,这时候要么增加服务器,要么限制在线活动的人。增加服务器的话,要考虑成本,一年就一次这样的大型活动,总不能为了这一次而增加99倍的设备,一点都不现实,所以只好限制在线活动的人数了。如何实现?消息队列可以做到,做活动时,先让大家排队,只放行1w人进入到消息队列里,而在消息队列里的这些人才可以进入到下一步的商品支付环节。进入消息队列的人支付完成,消息队列里面的人数减少,继续放行新的人进到消息队列里。
消息队列另外一个典型应用场景是解耦合,关于解耦合简单讲就是把本关联在一起的两个步骤拆分开,中间通过一个消息队列服务完成最终的通信,这其实也算是一种异步机制。
消息队列缺点
由于消息队列的异步特性,直接提升了整个架构的处理效率,提升了用户体验。但凡事都有两面性,消息队列在带来性能提升的同时也伴随着缺陷。
-
系统可用性降低
毕竟在整个架构中,我们单独加了一个消息队列中间件,所以增加了风险,如果消息队列服务挂掉,势必会影响到整个架构。
-
系统复杂性提高
本来非常简单的一个逻辑设计,但偏偏要在中间插入一个消息队列,所以这增加了程序员的工作量,需要考虑如何保证消息没有被重复消费、消息有没有丢失、消息顺序等细节问题。
-
数据一致性无法保证
消息如果没有正确写入到消息队列里,或者说读取消息的服务并没有正确读取到消息,这都会影响到数据的一致性。
消息队列点名
目前主流的几大消息队列有:RabitMQ、ActiveMQ、RocketMQ、Kafka、ZeroMQ等,也有一些小众的比如Beanstalk,当然我们之前学过的Redis也可以实现消息队列的功能。
下面关于几大消息队列的对比,我是从网上摘抄的,毕竟这几个消息队列我并没有完全深入研究过,只能借鉴别人的观点。
ActiveMQ基于JAVA语言开发,其社区算是比较成熟,但是目前来说,ActiveMQ的性能比较差,而且版本迭代很慢,不推荐使用。
RocketMQ阿里出品,Java系开源项目,源代码我们可以直接阅读,然后可以定制自己公司的MQ,并且RocketMQ有阿里巴巴的实际业务场景的实战考验。RocketMQ社区活跃度相对较为一般,不过也还可以,文档相对来说简单一些,然后接口这块不是按照标准JMS规范走的有些系统要迁移需要修改大量代码。还有就是阿里出台的技术,你得做好这个技术万一被抛弃,社区黄掉的风险,那如果你们公司有技术实力我觉得用RocketMQ挺好的
Kafka由Scala和Java编写,其特点其实很明显,就是仅仅提供较少的核心功能,但是提供超高的吞吐量,ms级的延迟,极高的可用性以及可靠性,而且分布式可以任意扩展。同时kafka最好是支撑较少的topic数量即可,保证其超高吞吐量。Kafka唯一的一点劣势是有可能消息重复消费,那么对数据准确性会造成极其轻微的影响,在大数据领域中以及日志采集中,这点轻微影响可以忽略这个特性天然适合大数据实时计算以及日志收集。
RabbitMQ在吞吐量方面虽然稍逊于Kafka和RocketMQ ,但是由于它基于erlang开发,所以并发能力很强,性能极其好,延时很低,达到微秒级。但是也因为RabbitMQ基于erlang开发,所以国内很少有公司有实力做erlang源码级别的研究和定制。如果业务场景对并发量要求不是太高(十万级、百万级),那这四种消息队列中,RabbitMQ一定是你的首选。如果是大数据领域的实时计算、日志采集等场景,用Kafka是业内标准的,绝对没问题,社区活跃度很高,绝对不会黄,何况几乎是全世界这个领域的事实性规范。
ZeroMQ只是一个网络编程的Pattern库,将常见的网络请求形式(分组管理,链接管理,发布订阅等)模式化、组件化,简而言之socket之上、MQ之下。对于MQ来说,网络传输只是它的一部分,更多需要处理的是消息存储、路由、Broker服务发现和查找、事务、消费模式(ack、重投等)、集群服务等。
RabbitMQ/Kafka/ZeroMQ都能提供消息队列服务,但有很大的区别。
在面向服务架构中通过消息代理(比如 RabbitMQ / Kafka等),使用生产者/消费者模式在服务间进行异步通信是一种比较好的思想。
ZeroMQ和RabbitMQ/Kafka 不同,它只是一个异步消息库,在套接字的基础上提供了类似于消息代理的机制。使用ZeroMQ的话,需要对自己的业务代码进行改造,不利于服务解耦。
RabbitMQ支持AMQP(二进制),STOMP(文本),MQTT(二进制),HTTP(里面包装其他协议)等协议。而Kafka使用自己的协议。
Kafka自身服务和消费者都需要依赖Zookeeper。
RabbitMQ在有大量消息堆积的情况下性能会下降,Kafka不会,毕竟AMQP设计的初衷不是用来持久化海量消息的,而Kafka一开始是用来处理海量日志的。
总的来说,RabbitMQ和Kafka都是十分优秀的分布式的消息代理服务,只要合理部署,不作,基本上可以满足生产条件下的任何需求。
给大家提供一个参考文档 https://www.zhihu.com/question/43557507
消息队列中角色/名词
-
Broker
消息服务器,作为server提供消息核心服务
-
Producer
消息生产者,业务的发起方,负责生产消息传输给broker
-
Consumer
消息消费者,业务的处理方,负责从broker获取消息并进行业务逻辑处理
-
Topic
主题,发布订阅模式下的消息统一汇集地,不同生产者向topic发送消息,由MQ服务器分发到不同的订阅者,实现消息的广播
-
Queue
队列,PTP模式下,特定生产者向特定queue发送消息,消费者订阅特定的queue完成指定消息的接收
-
Message
消息体,根据不同通信协议定义的固定格式进行编码的数据包,来封装业务数据,实现消息的传输
消息队列中两种工作模式
-
Point-to-Point
其实就是点对点,其过程理解起来比较简单。它好比是两个人打电话,这两个人是独享这一条通信链路的。一方发送消息,另外一方接收,就这么简单。在点对点模式下,消息被保留在队列中。 一个或多个消费者可以消耗队列中的消息,但是特定消息只能由最多一个消费者消费。 一旦消费者读取队列中的消息,它就从该队列中消失。 该模式的典型示例,如订单处理系统,其中每个订单将由一个订单处理器处理,但多个订单处理器也可以同时工作。
-
Pub/Sub
即发布/订阅模式,该模式有点类似于我们日常生活中订阅报纸。对于每一个订阅者来说,可以选择一份或者多份报纸。那么这些我们订阅的报纸,就相当于发布订阅模式里的topic。有很多个人订阅报纸,也有人可能和我订阅了相同的报纸。多人订阅了相同的报纸相当于多人在同一个topic里注册了。对于一份报纸发行方来说,它和所有的订阅者就构成了一个1对多的关系。在这种模式下,消息被保留在主题中。 与点对点模式不同,消费者可以订阅一个或多个主题并使用该主题中的所有消息。 该模式下消息生产者称为发布者,消息使用者称为订阅者。
RabbitMQ
RabbitMQ介绍
官网:https://www.rabbitmq.com
RabbitMQ是一款在全球范围内使用非常广泛的开源消息队列中间件。它轻量级、易部署、并支持多种协议。它基于Erlang开发,天生拥有高并发的能力。
RabbitMQ相关术语
-
生产者
产生消息的进程或服务
-
消费者
接收消息的进程或服务
-
队列
RabbitMQ是消息队列中间件,而真正储存消息数据的就是队列,队列可以有很多。
-
交换器
类似于网络设备交换机,它可以根据不同的关键字,将消息发送到不同的队列。
-
虚拟主机
虚拟主机类似于Apache的虚拟主机,如果没有虚拟主机,当RabbitMQ中的数据越来越庞大,队列越来越多,随之而来的是令人头痛的管理问题,比如队列、交换器命名冲突,它们相互影响等等。虚拟主机能够解决这些问题,而不需要我们部署多个RabbitMQ来负责不同的业务。
虚拟主机提供了资源的逻辑分组和分隔,每一个虚拟主机本质上是mini版的RabbitMQ服务器,他们有用自己的连接、队列、绑定、交换器,更重要的是有用自己的权限机制,这有点类似服务器和运行在服务器上的虚拟机一样。
CentOS7下安装RabbitMQ(单机)
官方文档: https://www.rabbitmq.com/install-rpm.html
安装erlang
curl -s https://packagecloud.io/install/repositories/rabbitmq/erlang/script.rpm.sh | sudo bash
yum install -y erlang
安装RabbitMQ
rpm --import https://packagecloud.io/rabbitmq/rabbitmq-server/gpgkey
rpm --import https://packagecloud.io/gpg.key
rpm --import https://github.com/rabbitmq/signing-keys/releases/download/2.0/rabbitmq-release-signing-key.asc
vi /etc/yum.repos.d/rabbitmq.repo ##内容如下
[bintray-rabbitmq-server]
name=bintray-rabbitmq-rpm
baseurl=https://dl.bintray.com/rabbitmq/rpm/rabbitmq-server/v3.7.x/el/7/
gpgcheck=0
repo_gpgcheck=0
enabled=1
yum install -y rabbitmq-server
启动
systemctl start rabbitmq-server
监听端口为4369,25672
开启web管理控制台
rabbitmq-plugins enable rabbitmq_management
此时可以通过 http://ip:15672 来访问rabbitmq的web管理控制台,用户名密码都是guest,但是有个限制,只允许127.0.0.1访问,所以还需在本机配置一个nginx代理
配置Nginx代理
yum install -y nginx #安装nginx,如果已经安装则省略该步骤
vi /etc/nginx/conf.d/rabbitmq.conf #内容如下
server {
listen 80;
server_name ra.aminglinux.cc; #域名自定义,如果没有dns解析,只能绑定hosts
location /
{
proxy_pass http://127.0.0.1:15672;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
}
}
##到此结束
systemctl start nginx #启动或重启nginx服务
rabbitmq常用命令
虚拟机管理
rabbitmqctl list_vhosts #列出所有的虚拟主机
rabbitmqctl add_vhost <虚拟主机名字> #创建虚拟主机
如:rabbitmqctl add_vhost aming #创建aming虚拟主机
rabbitmqctl delete_vhost <虚拟主机名字> #删除虚拟主机
用户管理
rabbitmqctl add_user #创建用户
如:rabbitmqctl add_user user1 user1_passwd #创建user1用户,密码为user1_passwd
rabbitmqctl list_users #列出所有用户
rabbitmqctl change_password #更改用户密码
如:rabbitmqctl change_password user1 new_passwd #更改user1的密码为new_passwd
rabbitmqctl delete_user #删除用户
rabbitmqctl clear_password #清除用户密码
-
(1) 超级管理员(administrator)
可登陆管理控制台(启用management plugin的情况下),可查看所有的信息,并且可以对用户,策略(policy)进行操作。
-
(2) 监控者(monitoring)
可登陆管理控制台(启用management plugin的情况下),同时可以查看rabbitmq节点的相关信息(进程数,内存使用情况,磁盘使用情况等)
-
(3) 策略制定者(policymaker)
可登陆管理控制台(启用management plugin的情况下), 同时可以对policy进行管理。但无法查看节点的相关信息。
-
(4) 普通管理者(management)
仅可登陆管理控制台(启用management plugin的情况下),无法看到节点信息,也无法对策略进行管理。
-
(5) 其他
无法登陆管理控制台,通常就是普通的生产者和消费者。
rabbitmqctl set_user_tags #赋予用户某个角色
如:rabbitmqctl set_user_tags user1 managemnet #赋予user1用户management角色
rabbitmqctl set_user_tags user2 monitoring management #同时赋予多个角色
rabbitmqctl set_permissions -p #给用户设置权限
如:rabbitmqctl set_permissions -p vhost1 user1 '.*' '.*' '.*' #针对vhost1虚拟主机给user1用户设置所有的配置、读写queue和exchange的权限。
说明:用户权限指的是用户对exchange,queue的操作权限,包括配置权限,读写权限。配置权限会影响到exchange,queue的声明和删除。读写权限影响到从queue里取消息,向exchange发送消息以及queue和exchange的绑定(bind)操作。例如: 将queue绑定到某exchange上,需要具有queue的可写权限,以及exchange的可读权限;向exchange发送消息需要具有exchange的可写权限;从queue里取数据需要具有queue的可读权限。
rabbitmqctl list_user_permissions #列出某用户的权限,即该用户对哪个虚拟主机有权限
rabbitmqctl list_permissions -p #列出指定虚拟主机下所有用户的权限,即哪些用户对该虚拟主机有权限
rabbitmqctl clear_permissions -p #清除某用户在指定虚拟机上的授权
如:rabbitmqctl clear_permissions -p vhost1 user1
插件管理
rabbitmq-plugins list #获取RabbitMQ插件列表
rabbitmq-plugins enable <插件名字> #安装RabbitMQ插件
rabbitmq-plugins disable <插件名字> #卸载某个插件
限制
rabbitmqctl set_vhost_limits -p vhost_name '{"max-connections": 256}' #设置虚拟主机的最大连接数
rabbitmqctl set_vhost_limits -p vhost_name '{"max-connections": 0}' #不允许客户端连接虚拟主机
rabbitmqctl set_vhost_limits -p vhost_name '{"max-connections": -1}' #不限制连接数
rabbitmqctl set_vhost_limits -p vhost_name '{"max-queues": 1024}' #限制虚拟主机里最大的队列数
rabbitmqctl set_vhost_limits -p vhost_name '{"max-queues": -1}' #不限制队列数
其他
rabbitmqctl list_exchanges #列出所有的交换器
rabbitmqctl list_bindings #列出所有的绑定,即把exchange和queue按照路由规则绑定起来
rabbitmqctl list_queues #分别查看当前系统种存在的Exchange和Exchange上绑定的Queue信息。
rabbitmqctl status #查看运行信息
RabbitMQ集群
RabbitMQ本身是基于Erlang编写的,Erlang天生支持分布式(通过同步Erlang集群各节点的cookie来实现),因此不需要像Kafka那样通过ZooKeeper来实现分布式集群。
-
元数据
RabbitMQ内部有各种基础构件,包括队列、交换器、绑定、虚拟主机等,他们组成了AMQP协议消息通信的基础,而这些构件以元数据的形式存在
-
内存节点与磁盘节点
在集群中的每个节点,要么是内存节点,要么是磁盘节点,如果是内存节点,会将所有的元数据信息仅存储到内存中,而磁盘节点则不仅会将所有元数据存储到内存上, 还会将其持久化到磁盘。所以在搭建集群的时候,为了保证数据的安全性和性能,最好是两种节点都要有
规划
主机名 | ip | 节点类型 |
---|---|---|
aming01 | 192.168.222.128 | 磁盘节点 |
aming02 | 192.168.222.129 | 内存节点 |
aming03 | 192.168.222.130 | 内存节点 |
部署集群
1. 配置hosts以及hostname
三台机器设置hostname
hostnamectl set-hostname aming01
hostnamectl set-hostname aming02
hostnamectl set-hostname aming03
三台机器上都需要编辑如下hosts
192.168.222.128 aming01
192.168.222.129 aming02
192.168.222.130 aming03
2. 关闭selinux以及firewalld
三台机器都要执行
setenforce 0
systemctl stop firewalld
3. 安装rabbitmq
三台机器都要安装,步骤参考上面
4. 启动服务
三台机器都启动起来
systemctl start rabbitmq-server
5. 安装management插件
三台机器都要开启
rabbitmq-plugins enable rabbitmq_management
6. 编辑cookie文件
vim /var/lib/rabbitmq/.erlang.cookie #将三台机器的该文件内容编辑为一致
7. 分配节点
aming01为磁盘节点,aming02和aming03为内存节点
aming02和aming03上都执行:
停止rabbitmq
rabbitmqctl stop_app
将aming02作为内存节点连接到aming01
rabbitmqctl join_cluster --ram rabbit@aming01
开启rabbitmq
rabbitmqctl start_app
查看集群状态
rabbitmqctl cluster_status
后续操作
虽然已经搭建了集群,但是我们只能用两个内存节点提供服务,所以需要做一个负载均衡器。我们可以使用Nginx的tcp代理功能或者使用haproxy。
参考文档: http://objcoding.com/2018/10/19/rabbitmq-cluster/#top