1.故障重启恢复顺序:
首先停止Slave,再停止Master;同步最新数据;先重启Master,再重启Slave;查看控制台确保相关的客户端连接进来
2.控制台操作:
所有的操作都在Master上进行;Slave上只能进行查看消息的统计数量操作,确保Slave正常;消息队列查看,订阅发布关系等等都在Master上进行
3.死信队列:
为每个队列启用单独的死信队列,便于数据后续的恢复处理
4.Master配置waitForSlave=true,防止启动后与Slave数据不一致:
初次启动Master,不会提供服务,客户端发送消息会报错;
当Slave启动连上Master后,Master提供正常服务,客户端能正常发送消费消息;
当Slave故障断开后,Master也能正常提供服务。
5.Broker名称要求
使用Java的变量命名规范,否则当broker名称中出现特殊字符,如”:”时,会出现莫名问题,borker会无法启动。
6.JMX远程连接问题
目前在linux下java rmi存在hostname问题,所以必须在启动脚本中(bin/activemq)添加JVM参数:-Djava.rmi.server.hostname=IP
7.网络不好和CPU高负载对Failover的影响
采用Master/Slave和Failover协议方式,客户端Failover会做心跳检查,由于客户端网络环境不好或者其他应用造成CPU高负载,误判断Master不可用了,自动切换到Slave
由于Master和Slave通常部署在相近的环境里面,他们之间的网络没有太多问题,Slave并不认为Master有故障,因此Slave没有提升为Master
这个时候客户端就会出现异常,Slave的连接不能发送和消费消息
开发环境可以采用只连接Master来解决,方便开发,到线上再切换成Failover协议,另外对同一个MQ最好公用相同的连接
心跳检查的参数maxInactivityDuration,默认30秒,failover:(tcp://localhost:61616?wireFormat.maxInactivityDuration=30000)