|
|
2 {; m& H. x1 y4 N% `9 Y9 ]
ceph -s1 ]8 v% b- ]3 h0 _5 \
cluster:
. l" W* v! A9 `6 g! a+ g, g' | id: 5fa16469-8be4-4457-8a78-12b1910afff7
' b& |: Q6 r w. N0 o: R1 k health: HEALTH_WARN9 [6 d) s2 Z/ u3 n# b# V
1 OSD(s) experiencing BlueFS spillover
! X4 z \5 z- F$ s6 H U5 U `+ p, G2 x$ `
& e2 c: l% e/ D+ V; @: C
9 a/ w( N! @4 p- G+ ~0 J } ceph health detail z% X+ E) q+ {1 J
HEALTH_WARN 1 OSD(s) experiencing BlueFS spillover) e$ Y3 u6 x( Q; F6 m" k% [
[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover/ c8 z; T& _0 }" V v6 m2 f! y
osd.18 spilled over 39 GiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device7 r6 S8 c8 N0 y& E' M$ ]1 _
& ~& _' |+ C$ A9 ~% S问题很奇怪,以前没有遇到过8 L9 H0 J, F! p( M K
+ N6 a' W6 Q8 s8 i4 _ {( y
HEALTH_WARN 1 OSD(s) experiencing BlueFS spillover0 y: r0 G; ~6 \/ n% [
[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover
" { S& ?. p! r; ]/ b8 D# n osd.18 spilled over 39 GiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device. V* w) w' @4 o0 T3 d, C; L. s
1 v/ m9 v E4 O u+ p0 X. D: i0 \' a$ N
查看官方解答说明:+ o1 U! M1 Y1 N+ j
( C& X1 k) o, F3 O" T
# L6 ]+ ^9 `9 q; w T! r
导致 BlueFS Spillover 的代码问题已在 RHCS 5.0 及更高版本中解决。
+ n3 k3 J9 r# v# \5 Q请参阅 Root Cause 部分中的提及的 Bugzilla 和 Errata。. B& j* q+ n% p. |
; \1 N/ [. I- X0 F! h- ^6 N q如果您可以接受因为这个问题导致的 HEALTH_WARN,且您的 Ceph 集群计划很快会升级到 RHCS 5.3 或更高版本,则不需要进行任何操作。8 `2 w2 Z7 }* L+ I4 {8 _3 f
! k3 F& e) R+ D7 F/ x t4 x ]' B/ D7 T
如果您希望清除 HEALTH_WARN,请在每个 OSD 上执行以下操作(一次在一个 OSD 上执行)。
, ^8 R. [; f6 M- compact OSD
" s: ~1 m; Y* q9 s- Z- 保护到托管 OSD 节点的 shell,并重新启动 OSD
, K# [& b+ s3 J, H- 再次 compact OSD2 D5 P7 E6 ^: N+ o) E. y+ ~
- 保护到托管 OSD 节点的 shell,并重新启动 OSD
6 ~" w/ a8 k3 i" p; ?
0 R( j/ c/ f `) E解决办法:- |! m+ j( O' d. I
3 w( X' B$ G" u
- @0 v% S1 W, x- F% P* G
# ceph daemon osd.<id> compact <--wait 2 minutes afterwards
4 _+ c% i: W$ k( M+ \) N& k% k/ |' ~; n u' r8 I
( z" \% l- g8 E$ `0 k1 j" N1 I- E示例:
% M' H5 h3 X( y d3 h2 g" o7 {2 Gceph daemon osd.18 compact{ "elapsed_time": 22.966318924999999}
" M: I* ^2 w3 \$ _+ p9 b* F0 Z! I) |/ E, V$ d1 C- U0 X3 [* C
# systemctl stop ceph-osd@{id}; sleep 2; systemctl start ceph-osd@{id}3 |: r& M) n; ~8 }' ^
示例:systemctl stop ceph-osd@18.service ;sleep 2 ;systemctl start ceph-osd@18.service
" o- c# m% R/ h h! K- k$ R _! m
* j4 e3 E# m/ QRemember to repeat both commands a second time after ~1 minute执行这两条命令要保证1分钟之后。
* V% T4 c% P/ }9 ~
- x/ m& _9 K# x1 V7 _再执行ceph -s状态恢复正常。9 M2 o u9 o/ q: V; {
ceph -s cluster: id: 5fa16469-8be4-4457-8a78-12b1910afff7 health: HEALTH_OK ; i4 Y; g0 n1 B& } I
- L: W0 \% y' r" N [& B8 D9 g( }; ~( w
( }8 g G6 S) u: P7 C% O; J1 g
+ X2 L$ n. C, S4 {( E% e" [- P% K! I% d% R% }* K) @; s `
|
|