|
|
楼主 |
发表于 2021-6-17 15:55:06
|
显示全部楼层
使用 rabbitmq 中 heartbeat 功能可能会遇到的问题8 o$ J! q6 }3 i( x5 Z' G" z+ i# D
【问题场景】 客户端以 consumer 身份订阅到 rabbitmq server 上的 queue 上,客户端侧在 AMQP 协议的 Connection.Tune-Ok 信令中,设置 heartbeat 为 0,即要求服务器侧不启用 heartbeat 功能。服务器由于异常断电原因停止服务,结果客户端在短时间内无法感知到服务器端已经异常。
! G4 R5 S3 t3 K- x; p& n/ L, J; h- u* @' s; E
刚刚出现这个问题时,就有测试人员和业务人员找到我这边说:经过改造的 rabbitmq-c 库可能存在重大 bug,服务器都关闭了,客户端怎么还那像什么都没发生一样继续工作着呢?听到这种疑问,我只问了两个问题就想到了答案:
( E5 y- ~2 r. B: e" z* m& T
3 i8 q3 C f8 B% {+ I( e# _6 Q业务中是不是仅仅作为 consumer 运行的?+ P, z& ]! j6 b& }+ v5 F/ E
服务器能否确认是因为异常断电导致停止服务?- S- B7 W, X7 q4 q
服务器和业务程序之间是否还有中间路由设备?
- \! ]& d' Y' C7 N. w) g业务人员告诉我上述问题的答案分别是:是的、是的、没有。呵呵~~所以答案就已经确定了,你想到了么?# r7 m/ c& N% {( k5 z! K% u& b
/ m3 e! T+ u7 L: _' v* G! n2 X" E
【问题分析】
4 Y* R, }! H! b/ _ 这个问题可以从以下两个层面进行分析:
/ R5 s- T% K7 \+ D" z
7 L; M, q! @2 @; I9 J; `TCP 协议层面5 O; ]! `# b/ p) }+ E8 T: n
在此层面上讲,上述问题属于典型的 TCP 协议中的“半打开”问题,典型描述如下:
1 Y# J0 p* V% N$ @ H8 [' z 如果一方已经关闭或异常终止连接而另一方却还不知道,我们将这样的 TCP 连接称为半打开(Half-Open)的。任何一端的主机异常都可能导致发生这种情况。只要不打算在半打开连接上传输数据,仍处于连接状态的一方就不会检测另一方已经出现异常。 半打开连接的一个常见原因是,当客户主机突然掉电,而不是正常的结束客户应用程序后再关机。当然这里所谓的客户机并不是仅仅表示客户端。$ P5 a! I: P- s0 B4 [) E( x
在这种情况发生时,作为 TCP 链路上只接收不发送数据的一方,只能依靠 TCP 协议本身的** keepalive 机制**来检查链路是否处于正常状态。而通常 keepalive 机制下,需要大约 2 个小时时间才能触发。8 T& t V) _) e w0 d9 B0 U
5 S i2 W) `2 A/ d% i
/ L$ _) | n: P6 ~AMQP 协议层面
. ?. K& h5 h( G t1 S$ b! k/ G在此层面上讲,客户端由于是作为 consumer 订阅到 queue 上的,所以在该 AMQP/TCP 连接上客户端不会主动发送数据到 rabbitmq server 侧。当服务器由于异常断电停止服务后,consumer 不会接收到 AMQP 协议层面的终止信令,所以无法感知对端的情况。
. \: R$ P1 S) F
1 h' R5 d, _# O2 M一种可能的解决办法是客户端侧在接收 N 次超时后,通过发送 AMQP 协议中的 Heartbeat 信令检测服务器端是否处于正常状态。; E0 u% _; w" O* U) \/ Y4 Y7 q
, p+ [# p4 G$ C% Y8 f在场景描述中说道“客户端侧在 AMQP 协议的 Connection.Tune-Ok 信令中,设置 heartbeat 为 0”,如果是将 heartbeat 设置为 30 会如何?答案是会同时触发服务器端和客户端的 heartbeat 功能,即服务器端会在一段时间内没有数据需要发送给客户端的情况下,发送一个心跳包给客户端;或者一段时间内没有收到任何数据,则判定为心跳超时,最终会关闭tcp连接(参考这里)。而客户端侧同样会触发对发送和接收 heartbeat 计时器的维护,分别用于判定发送和接收的超时情况。
, ~/ G5 ?* |( U' }$ t
1 n2 u7 _! R( ]所以,需要解决的问题可以描述为: 客户端作为 consumer 订阅到服务器上的 queue 后,在无业务数据需要处理时,需要通过检测 Heartbeat 帧(信令)来判定服务器是否处于异常状态(换句话说,自己是否已经是“半打开”的 TCP 连接)。
4 ]7 |. ]/ I$ ]: ]+ M1 J: j. r
& n* g2 Y; z2 L( a! e+ E+ G【解决办法】- V* _) P6 x& a
建议的解决办法如下:# [: i) }- S7 r1 [8 z. }
. y, @2 A) h% w# k 客户端必须启用 heartbeat 功能(解决“半打开”问题的基础);
# ]& ^* ]/ K3 A0 S2 M8 E' I 客户端需要支持在发送空闲时,发送 heartbeat 的功能(因为目前客户端作为 producer 是长连接到 rabbitmq server 上的);
/ m; i* A1 `" f8 ?3 {. W- j6 } 客户端需要支持在接收空闲时,通过检测服务器端发送来的 heartbeat 帧来判定服务器端(或网络)是否处于正常状态(因为客户端作为 consumer 也是长连接到 rabbitmq server 上的,同时不会主动向 rabbitmq server 发送数据)。: v i% c# S+ ^. Z D* A, |
% \# y/ u& C9 P5 g8 f& ~: v2 _* E
, ]' }% C" S1 N, T8 c2 x/ O
总结:; K% D4 J& v0 e5 m& j- B9 p
只要客户端启用 heartbeat ,那么服务器就会在满足“一定条件”时,定时向客户端发送 heartbeat 信令,同时也会检测在空闲状态达到规定时间后是否收到 heartbeat 信令;而客户端侧作为 consumer 时,需要判定是否接收到数据(无论是常规数据还是 heartbeat 信令),若在一定时间内没有接收到数据,则认为当前链路可能存在问题。后续可以从业务上触发 consume 关系的重新建立。2 y5 W9 R% x7 i7 }3 M+ B
# u4 \3 ?+ q g& f. l4 B$ o7 F背景
7 }' M+ \! c! Q. q* E( z" {; w2 R由于长期以来,在我们的 Node.js 服务端项目中,离线任务大部分用的是 kue,这是个轻量级的任务队列,之前 也有过介绍。而周五那天我正准备将之前的 kue 队列重构成 RabbitMQ 的队列的相关代码上线。4 [ }* j f7 K( q- }+ n
2 g( _* v9 R( y! S; G0 f' I
RabbitMQ 任务队列是我基于 amqplib 实现的,在生产环境跑了半年有余,没什么大问题。
9 s: [% O2 e2 d* C( t! o, e/ C9 J0 v9 q( s
但是,按照墨菲定理,你最担心的事情总会发生,或者说:出来混迟早是要还的。
4 A. I) \' l& S) v0 X; b
0 H6 L! ^/ V7 z2 {悲剧, R% j! Q k! F% D: ?" |
结果,明明在预发布环境测试没问题的,却在正式环境完全不起作用,一直在报 EPIPE 的错误,并且在之后 ack 时报 channel closed 的错误。+ Q/ Z9 g) ~4 t9 w) d" @3 Z
! z5 \6 K# F0 R) h7 x
同时,RabbitMQ 管理后台看到,任务队列在一直堆积,已经累计了 5k 的任务量,可能你会觉得不多,但是如果告诉你,每个任务需要执行 1 到 20 分钟不等呢?3 ]7 |' M7 d8 E% t, S+ t9 O1 T
3 w7 }5 k. l: J2 t" j5 S6 l
显然,先是把我吓了一跳,不过又马上镇定下来,毕竟处理过的线上事故大于十个手指能数的数量了。! ]7 z% G8 c; {+ v2 S* J
& i0 h0 Z+ h* [8 B+ R5 L回滚
/ o) n q- ]) u* F冷静想了想,这个离线任务里的业务虽说重要,但一时的任务堆积关系不是很大,而且任务会重新创建,回滚到旧代码就行,于是我将所有的代码一键回滚。* J, F8 e+ P1 [
+ J$ T0 S F1 I2 v# z) c现在,改来找问题原因了。" q* O2 C# ?5 Y9 C4 @
; v. Z4 X7 F; C9 g- R8 _寻找( O2 A' u0 m, E- B$ r2 q1 I
按照目前的所掌握的信息,似乎还不能定位问题所在,大致能确定的是:TCP 连接有问题,导致 ack 数据写到了已经关闭的 sockets 上面了,才会导致 EPIPE 的错误。# ]& B8 m# ^4 b, ^( s/ M* A
% G" V9 c* J; E6 Y9 U
TCP 连接为什么会关闭连接?
' w5 ~7 ^: u$ K# a1 a一般来说,TCP 正常的关闭,会有四次握手:
5 G0 e4 w, X6 A( b2 v6 g1 V* e: M$ x# m5 Y; a" f
『我要关了哈』# K' C; k2 x: G0 Q
『好的』,『我也要关了』
8 Y8 Z1 \: K& u5 v 『恩,拜拜』
! }6 \3 h6 ~' Y9 {3 Q' P" ^. ` ! {- r6 G0 k: @: d/ k
' @6 _ _) U% Y( X. k' @9 S/ ?' z而不正常的错误,会有 ECONNRESET 或者 Connection reset by peer 之类的错误提示,EPIPE 的话,一般是对方主动关闭,而没有通知到我方。5 f( _* W; C4 G9 n5 e
! J% g! i* a3 m0 i: N' |
于是,原因显然是需要在对方机器上去找,因此登录到 RabbitMQ 的机器上查看日志,果然,发现了非常多的错误日志:% E& a# t' C6 h. H% C$ e; d
# G. X/ v0 X! G% Y2 u' `& C* N
=ERROR REPORT==== 9-Jun-2017::16:07:39 ===( z7 C* P9 E) Z t
closing AMQP connection <0.9305.6670> (X.X.X.1:33647 -> X.X.X.2:5672):
* m9 ~$ e0 h2 T5 c2 q6 ?+ f+ x missed heartbeats from client, timeout: 60s; y- B# r2 F8 m" \. g. s
( s6 B; b# \2 n5 a6 v
; Y( Z$ K1 M' t/ [9 \, A( Y这是什么意思呢?关键信息是最后一行,missed heartbeats from client, timeout: 60s 。
+ `8 A: h. N& F; J3 G4 u3 |6 f- f5 k4 A, f( J, U$ ?& g/ V0 B2 t2 b! B
很明显,超过默认 heartbeats timeout 的时间了,于是 RabbitMQ 认为这个客户端已经不行了,所以主动断了连接。
1 k1 ^9 \8 R2 {$ M9 B1 A
7 g+ d$ s% d4 v0 ~7 Q$ f; `9 y好了,那么继续下一步。+ ~5 z* W" \% y3 Z* |" o6 T
3 X6 t0 }& n0 z* o5 C" c为什么会出现 heartbeats timeout ? d+ O l3 J5 V
在 RabbitMQ 官方文档上 [1] 找到这样的解释:在 server 3.0 以及之后的版本中,client 以及 server 会协商一个 timeout 值,默认是 60s (3.5.5 之前是 580s),回过头来看服务器版本,已经大于 3.5.5,(其实看日志也知道了),也就是 60s。
& p; g/ I2 z j* P: ~- N
+ l1 p5 e4 @+ _0 N/ M7 d7 B& _; s5 Pserver 每隔 timeout / 2 就会发送一个心跳包,如果都错过,就会认为这客户端没救了,会主动关闭连接,然后客户端需要重新连接。6 Q z/ p1 `' x; O4 C# \/ c j
* b9 ~/ u: t7 }3 b# H7 _2 O% B于是,兴奋地赶紧设置下 heartbeat 时间,来个 3600s。
- L$ \/ h( |4 t" b8 F4 [; o: h# d P: K4 P4 i
很明显,问题没那么简单,错误还是在出现。& A4 {; w, T h5 a: {: b5 E
! ^$ Q) e* U) U$ Z回过头来,再看看文档,注意 『协商』 这两个字,也就是说,结果不是我设置了就能成功的,server 该怎么做还是怎么做,于是 60s 的默认 timeout 不能通过 client 来修改。
! R1 m# ~# A6 S0 ], N0 q9 u
% {# P" K! c8 C8 ^: s2 @7 }/ A但是这会儿我又不敢修改了,server 的 timeout 是全局的 [2],如果改了就意味着所有的连接都是这个数了,这可太危险了。( G4 m& b8 T6 n k' E
# I7 _3 v" q/ I# O' h
整理下思路,看看手头上已有的信息,于是把眼光放到了 client。 X$ c' X; ^- [8 A: D
+ b2 h4 ]( q. S为什么会超过默认 heartbeats timeout 的时间?
. E, S5 Q2 }, l0 S8 R+ h0 {其实这会儿,答案已经呼之欲出了:+ Z: f, L3 C, |+ ^
0 r8 `" m4 W; z5 |# Y8 `事件循环太长导致
$ @5 V# r" f* `( e' D4 N4 E( W+ m; [
Node.js 不同于其它正常语言,它是单进程模型,没有所谓的进程并发,即使底层的线程也是为了异步 io。
+ x6 S. K/ L5 C" \9 B5 E; g3 W/ E3 p+ o! {2 v5 Q
也就是说,一旦一个事件里面的 CPU 被占满,其它 io 操作都会在事件队列中等待,导致事件循环过长。而在这个问题中,它的表现就是:client 的心跳包所在的事件,无法通过 TCP 这样的网络 io 操作发送至 server。
7 N( m4 v/ Z& y, Y! I3 K' u7 P4 s. i6 p i$ J8 N( P! k# h- M
这才明白,我重构的部分是 CPU 密集型的任务,这恰恰是 Node.js 最软肋的地方。 i, ?5 G# o. p* J
$ y1 d; F/ Y1 g8 \; o
解决
6 a6 ]2 @. |8 u: c显然对于 CPU 密集型任务,我们一般有这几种方案:2 X) b* q; u! }' j% M9 Z' w
& l# c& _( e6 ^7 _0 s J
fork 一个进程去处理,父进程负责 RabbitMQ 通信,子进程负责跑任务;
" w* Q- z, N7 V, O8 a LsetImmediate,分拆 CPU 任务;
- O0 \6 [7 ~' D换语言,用 Go,Rust 或者 Python之类的语言去处理;, J/ h) ^5 U, k# U: F) b# [
那么,为了尽快解决线上的问题,第一个就是我们的选择:最快,最直接。
$ F8 H! P, B0 `: l' V0 p- t% o3 c* S" w! u/ d
总结, f+ K' f( g" z* v8 @' b
staging 环境不一致问题需要解决;
; _/ f1 o1 `0 Y! s! A2 W$ _重构有风险,入坑需谨慎;
! u4 f ~& S* y7 @, C) t7 K& _造轮子可以,测试需完善;
! u B8 |+ M) e4 ^$ X" i. a4 l7 j* t7 CRef
; E" T( d% L* G. ~% ]https://www.rabbitmq.com/heartbeats.html
& k- a; s* l: ]( q) _1 Ghttps://www.rabbitmq.com/configure.html
/ {. L+ D+ p& y( {( d确保与心跳和阻塞连接超时的良好连接
# g+ R X! b2 \+ q0 R此示例演示了心跳的明确设置和阻止的连接超时。
$ A/ @1 l3 F1 q- Q
' G5 Y+ z/ M. a6 k: U U从RabbitMQ 3.5.5开始,代理的默认心跳超时从580秒减少到60秒。因此,在同一个运行Pika连接的线程中执行冗长处理的应用程序可能会因心跳超时而出现意外断开的连接。在这里,我们为心跳超时指定显式下限。1 g. \* v- b: s; L- R8 l2 F3 ]% q
- e/ d* H3 f7 C$ `3 W( |
当RabbitMQ代理耗尽某些资源(例如内存和磁盘空间)时,它可能会阻止执行资源消耗操作的连接,例如发布消息。一旦连接被阻止,RabbitMQ就会停止从该连接的套接字读取,因此客户端的命令不会通过该连接上的代理,直到代理解除阻塞。被阻止的连接可能持续一段无限期,停止连接并可能导致挂起(例如,在BlockingConnection中),直到连接被解除阻塞。阻塞连接超时旨在中断(即,丢弃)已被阻止超过给定超时值的连接。4 x. N% Z, s# e$ T/ O% B
3 d E, i u4 W! s V配置hertbeat和阻塞连接超时的示例:
( i& r) |* I* Q. |6 G/ G9 C4 u( n
$ N7 c' V# g. Q* ximport pika+ N' T/ i& J' {( M5 B
, R/ `7 |; ~. s4 O5 u6 B, S; f# c' fdef main():. |5 F. {. g! Z, s$ s7 [; q
8 j2 b) N2 {1 F/ G1 f$ \
# NOTE: These parameters work with all Pika connection types
2 M5 O+ }- N0 K% o params = pika.ConnectionParameters(heartbeat_interval=600,0 C( ]8 V. l- N6 o, ?8 h7 e& p. Q
blocked_connection_timeout=300)
; q" G; S: A3 ^# c+ J
( ?$ D3 d. D2 n) @( d; a! s conn = pika.BlockingConnection(params)2 c) n4 A8 V. {7 m! v7 D: t
$ m' s" A) x/ c- K0 A' t chan = conn.channel()- F4 N$ Z) H0 a' V
+ g! Y: `4 v( |5 @8 J! W! y- ]( g3 W chan.basic_publish('', 'my-alphabet-queue', "abc") {$ A. s' X# Q# u. [
5 G. L5 H5 X/ \; z/ z4 S3 \: k
# If publish causes the connection to become blocked, then this conn.close()
. R3 u3 T }* U" M% }5 R% _+ H # would hang until the connection is unblocked, if ever. However, the
: U6 W( }! n8 Y) y; Q* ^) y" J # blocked_connection_timeout connection parameter would interrupt the wait,# J" x( z9 D) ] g
# resulting in ConnectionClosed exception from BlockingConnection (or the
% c9 P9 k+ y5 y9 t: V# a @* l2 Q3 H # on_connection_closed callback call in an asynchronous adapter)+ I0 F x8 s. o* |: S* d" u; }$ k+ `
conn.close()
; u/ O6 x: r2 }& I6 |9 m+ C
: q/ f7 T# f) R+ g. l3 kif __name__ == '__main__':
) ]6 d/ q& v: x; @3 R main() |
|