1.故障重启恢复顺序:

首先停止Slave,再停止Master;同步最新数据;先重启Master,再重启Slave;查看控制台确保相关的客户端连接进来

2.控制台操作:

所有的操作都在Master上进行;Slave上只能进行查看消息的统计数量操作,确保Slave正常;消息队列查看,订阅发布关系等等都在Master上进行

3.死信队列:

为每个队列启用单独的死信队列,便于数据后续的恢复处理

4.Master配置waitForSlave=true,防止启动后与Slave数据不一致:

初次启动Master,不会提供服务,客户端发送消息会报错;

当Slave启动连上Master后,Master提供正常服务,客户端能正常发送消费消息;

当Slave故障断开后,Master也能正常提供服务。

5.Broker名称要求

使用Java的变量命名规范,否则当broker名称中出现特殊字符,如”:”时,会出现莫名问题,borker会无法启动。

6.JMX远程连接问题

目前在linux下java rmi存在hostname问题,所以必须在启动脚本中(bin/activemq)添加JVM参数:-Djava.rmi.server.hostname=IP

7.网络不好和CPU高负载对Failover的影响

采用Master/Slave和Failover协议方式,客户端Failover会做心跳检查,由于客户端网络环境不好或者其他应用造成CPU高负载,误判断Master不可用了,自动切换到Slave

由于Master和Slave通常部署在相近的环境里面,他们之间的网络没有太多问题,Slave并不认为Master有故障,因此Slave没有提升为Master

这个时候客户端就会出现异常,Slave的连接不能发送和消费消息

开发环境可以采用只连接Master来解决,方便开发,到线上再切换成Failover协议,另外对同一个MQ最好公用相同的连接

心跳检查的参数maxInactivityDuration,默认30秒,failover:(tcp://localhost:61616?wireFormat.maxInactivityDuration=30000)

发表回复