|
|
Timeout receiving bulk data from MASTER if the problem persists try to set the 'repl-timeout'
9 X! s5 c9 u: T- p, \- @5 J9 I7 F0 ^
2 y; ?9 N3 E$ [8 v2 |! D& u7 [问题现象:
6 e. y5 f! V2 T. ?9 V# b% E% j* S% l6 X
集群状态 1主 2从,主没有开启bgsave,从开启bgsave。现象所有redis可以访问,进行操作。主不断开始bgsave 1从停止bgsave。
/ N4 E& U g! ~# O+ B$ A
% W w: W" {+ i- B5 x- } l主日志报错# Connection with slave XXXX lost.
8 d0 L, K5 i* d; a$ y, f, @7 T. B' s# f
从日志报错# Timeout receiving bulk data from MASTER... If the problem persists try to set the 'repl-timeout' parameter in redis.conf to a larger value.: Y/ }; V. r( w* Y% N# Y
) x9 g, b) @3 u: W F5 y
1 S! d& V5 ~' R/ u" B2 E: u/ \' s" f b
/ i! ~, v/ H0 F- Q) ]% }. M问题总结:
$ Z) P5 s5 [9 g0 U' k" [0 y
% R- G* W: F O$ u Z0 u5 qrepl-backlog-size repl-timeout 这2个参数 每次从和主可以同步的数据大小,如果进行同步的时候超过了这个限制,就到导致如上报错。
3 k- D/ O3 H/ l/ d% M% ~/ F
: q4 l# D$ |+ [8 H9 s8 u4 L3 O; Z1 O
' o* y% B/ C. ^$ W" t2 E8 K
问题现象:
* j p: V0 W. r) t
3 I( t D2 K/ }3 o; V+ L% ^1 w! ~重启从服务器,主报错Client id=1317049445 addr=10.10.3.112:7412 fd=39 name= age=394 idle=0 flags=S db=0 sub=0 psub=0 multi=-1 qbuf=0 qbuf-free=32768 obl=0 oll=4360 omem=76118609 events=rw cmd=psync scheduled to be closed ASAP for overcoming of output buffer limits.
( E* ?) z/ W* _
0 `- y( J# @& p注意到这么一句话:psync scheduled to be closed ASAP for overcoming of output buffer limits。看起来是psync因为超过output buffer limits将被close。7 M0 F& c) `. h; q! i& U
* W |( l% w; v2 P! K于是查看了一下client-output-buffer-limit。发现这是Redis的一个保护机制。配置格式是:
^2 `% r4 v& B7 R( n
O$ ` O3 _' B: c* {* s9 S' y5 wclient-output-buffer-limit <class> <hard limit> <soft limit> <soft seconds>, F2 q- G. E2 A$ O3 f
具体参数含义如下:
. m& J( S' a8 R. b5 d- a: T& X0 t- H0 ~; I' Z' s/ v( P6 r M
class: 客户端种类,包括Normal,Slaves和Pub/Sub
' g) m* J5 C2 G; UNormal: 普通的客户端。默认limit 是0,也就是不限制。
0 j3 H# N. N: u( e6 r! F, _3 pPub/Sub: 发布与订阅的客户端的。默认hard limit 32M,soft limit 8M/60s。
% e$ S7 O. \7 C+ a) YSlaves: 从库的复制客户端。默认hard limit 256M,soft limit 64M/60s。
9 K4 O, p( n6 Q0 W- Jhard limit: 缓冲区大小的硬性限制。8 M5 p3 {; x! @ Z! U3 a Q1 T
soft limit: 缓冲去大小的软性限制。
9 N& K5 L2 O/ |soft seconds: 缓冲区大小达到了(超过)soft limit值的持续时间。
( v. [( I- M& i0 S |/ W' yclient-output-buffer-limit参数限制分配的缓冲区的大小,防止内存无节制的分配,Redis将会做如下自我保护:3 ?6 y! b8 Y1 e6 v% l# Y6 R( c
# A9 W2 ^ V$ S7 dclient buffer的大小达到了soft limit并持续了soft seconds时间,将立即断开和客户端的连接6 X9 N. _# H# v0 l+ ]+ J2 j
client buffer的大小达到了hard limit,server也会立即断开和客户端的连接9 q8 v- Z* k# R. t& ^
再看看我们从库的这个配置,其实就是默认配置:( q- F: N, L0 W3 g
5 v# s1 \6 b) @0 @' g# J
# 客户端的输出缓冲区的限制,因为某种原因客户端从服务器读取数据的速度不够快,4 X# q0 z- {" Q/ |: _
5 |- h7 L5 q* y; p- v; Y3 t
# 可用于强制断开连接(一个常见的原因是一个发布 / 订阅客户端消费消息的速度无法赶上生产它们的速度)。, G6 @) B: A8 M+ y9 x7 l
/ ^* s- R( Q& u2 r: H# 可以三种不同客户端的方式进行设置:
9 z! Z0 c: o0 z" S
9 s' `9 ?* k3 u; I5 }; o# W# ~) T# normal -> 正常客户端
, G z" }6 `/ J- E2 W
) K a" d. l, k# slave -> slave 和 MONITOR 客户端
$ F: n- S$ E2 J& R) J% X+ p" E5 r# J: g3 @8 y
# pubsub -> 至少订阅了一个 pubsub channel 或 pattern 的客户端
9 n/ V. b5 Z% B6 D% v0 y
% }7 Q7 k/ M8 L$ @, r# 每个 client-output-buffer-limit 语法 :" N6 d7 A: |0 G, r0 c
; S, c# j# B& S) L& ^( D3 c# client-output-buffer-limit <class><hard limit> <soft limit> <soft seconds>
. d l2 j3 j5 j& S, n) f% ?! [: I
# 一旦达到硬限制客户端会立即断开,或者达到软限制并保持达成的指定秒数(连续)。9 `! @' ~5 c$ Z4 E* i
5 i5 k$ s7 o4 M0 N
# 例如,如果硬限制为 32 兆字节和软限制为 16 兆字节 /10 秒,客户端将会立即断开
' U( Y* Q' ~6 c' Q# {% N
5 l" I8 v5 S8 r# 如果输出缓冲区的大小达到 32 兆字节,客户端达到 16 兆字节和连续超过了限制 10 秒,也将断开连接。
. e) q) V [2 ^: b2 `' e) n# |
# 默认 normal 客户端不做限制,因为他们在一个请求后未要求时(以推的方式)不接收数据,
, w1 F7 q1 \/ v9 w5 _
; W7 ^8 P4 s# M" \) N7 ]# 只有异步客户端可能会出现请求数据的速度比它可以读取的速度快的场景。/ j$ Y+ {) q/ j" j! V5 y% t
* V- C9 t/ S# i& S
# 把硬限制和软限制都设置为 0 来禁用该特性+ O y" h' ], O$ T5 O/ o
+ E: O3 Z& ` c; R
client-output-buffer-limit normal 0 0 0) f. u5 K' i& [/ X, r
. a& _ I+ b7 A5 T% zclient-output-buffer-limit slave 256mb 64mb 60$ D) w% z* K% ]3 K' h7 A
, ` l0 J( q" P- i! o% P
client-output-buffer-limit pubsub 32mb 8mb 605 B9 `- H/ S$ }6 D. Y9 Q! q- J
; o6 B0 S' }& }
redis的replication buffer其实就是client buffer的一种。里面存放的数据是下面三个时间内所有的master数据更新操作:
7 m# P7 ~' Y e9 @6 J1 m* V a' n, d! f( @% ] R
master执行rdb bgsave产生snapshot的时间
. o3 {: a+ v/ c% K( a# `master发送rdb到slave网络传输时间* ^8 D T+ w+ M: q9 d: K
slave load rdb文件把数据恢复到内存的时间
( a% i$ v$ m% L" W; c可以看到跟replication backlog是一模一样的!, R; {1 }) }1 {. p6 C j0 ?! I! ~
9 | }- q3 \" V) E# H& b; X0 c; t9 ^
replication buffer由client-output-buffer-limit slave设置,当这个值太小会导致主从复制链接断开:1 Z( q* d* p) ~6 {
& H) v X) y( g( H& ~: ]( |当master-slave复制连接断开,server端会释放连接相关的数据结构。replication buffer中的数据也就丢失了,此时主从之间重新开始复制过程。 K! W j: m4 ^
还有个更严重的问题,主从复制连接断开,导致主从上出现rdb bgsave和rdb重传操作无限循环。' [2 W: C( E9 H3 o4 X% I
看起来确实server(这里就是master)会因为缓冲区的大小问题主动关闭客户端(slave)链接。因为我们的数据变更量太大,超过了client-output-buffer-limit。导致主从同步连接被断开,然后slave要求psync,但是由于repl-backlog-size太小,导致psync失败,需要full sync,而full sync需要Discarding previously cached master state,重新load RDB文件到内存,而这个加载数据过程是阻塞式的。所以导致slave出现间歇式的不可用。而切换到master之后,master的整个同步操作都是fork一个子进程进行的,所以不影响父进程继续服务。所有的现象都能清清楚楚的解释上。
: E Y4 C4 j, K0 {0 y0 `, v
) v/ ~. p1 m3 G# {; S7 V* n, D* D- ]" F
7 |8 B" t! ]% N$ j) p+ r l
更改配置 client-output-buffer-limit client-output-buffer-limit slave 0 0 0 " 重启slave问题解决 W l8 D4 `2 H9 H0 o8 o0 T t
) s( F+ m/ w7 p4 T0 q" M- U& q# ~ |
|