|
|
$ X0 c& Y+ b0 L
ceph -s
4 @- c: r2 B! U5 ] S: ~3 u) v cluster:0 _2 [8 c+ I, {9 R. h
id: 5fa16469-8be4-4457-8a78-12b1910afff7/ @2 a0 P$ q# ~: t1 r$ I+ R/ { t
health: HEALTH_WARN
% K4 F3 ^# G/ Y! H) g* ^( P+ K 1 OSD(s) experiencing BlueFS spillover7 N# b6 O% F. n5 ?- E3 u" ?! g; ^1 h/ `4 s
+ V2 S2 `& |3 Y3 |5 H3 Z$ r T- ?
" w/ H: U5 W4 f9 I' i+ N8 t9 K- l+ K/ P! u
ceph health detail
! q) K7 F& a j* w' x4 _HEALTH_WARN 1 OSD(s) experiencing BlueFS spillover+ I! x4 B u" P! p6 z+ K: ]9 r
[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover+ r( w) u4 ^5 L1 u
osd.18 spilled over 39 GiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device
" i* z. `; i0 H3 @ J2 R; H9 |# N6 ]+ {5 \& q
问题很奇怪,以前没有遇到过. T0 A* k3 |1 B1 p6 |: @
3 l" G2 N q/ r/ B/ \
HEALTH_WARN 1 OSD(s) experiencing BlueFS spillover
& ]! ~6 m a3 d$ w, v[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover
T+ a# r+ R+ r" D osd.18 spilled over 39 GiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device
4 F- ^! v7 }# w1 u/ ]* Z7 [' [0 S6 `9 ?% i4 B' h& o1 s
1 h7 r3 ^3 E$ S查看官方解答说明:
9 X/ H8 t$ w0 q7 _) n+ V6 E1 O+ e% T' {" f y6 j
, B3 \, ?; @3 b导致 BlueFS Spillover 的代码问题已在 RHCS 5.0 及更高版本中解决。. ` |/ C- _& ^& G0 H: l
请参阅 Root Cause 部分中的提及的 Bugzilla 和 Errata。' O( {0 i6 f6 t- v0 r
( J1 F1 {9 |: l0 `# B0 T4 _6 b如果您可以接受因为这个问题导致的 HEALTH_WARN,且您的 Ceph 集群计划很快会升级到 RHCS 5.3 或更高版本,则不需要进行任何操作。- r w/ d4 a2 x$ p: O0 p H
' n3 \ ~6 F! {7 T. `: q# H
如果您希望清除 HEALTH_WARN,请在每个 OSD 上执行以下操作(一次在一个 OSD 上执行)。
( l5 D2 r! @" ?" @4 E3 ?6 M- compact OSD
; ]! S) T4 F. T" D7 x5 {- 保护到托管 OSD 节点的 shell,并重新启动 OSD
8 z7 J$ I5 L% K% r: `- 再次 compact OSD
) P, r! ^% K& z- 保护到托管 OSD 节点的 shell,并重新启动 OSD* Z: ]* e( ]' t8 l
8 S1 H7 o. S; Y, d解决办法:: D: R4 o. G! R% K, Z) A+ s; W
# D/ w2 f' E9 f- Y, ?& I+ ^& y+ {: D+ P0 P% V4 i* L
# ceph daemon osd.<id> compact <--wait 2 minutes afterwards* c% [% V* K: w \0 @/ B' J
$ p4 N1 L' y# d2 k3 F6 F9 t+ B. j e1 I7 c
示例:
* `2 `1 X( T" ^/ P+ ^- iceph daemon osd.18 compact{ "elapsed_time": 22.966318924999999}
* G5 h( y* X- Z) H# e7 b; T) q3 m% {+ B! K+ w |. w
# systemctl stop ceph-osd@{id}; sleep 2; systemctl start ceph-osd@{id}9 o% K+ c$ _4 D
示例:systemctl stop ceph-osd@18.service ;sleep 2 ;systemctl start ceph-osd@18.service ) F: c' R( K3 U- E( \3 }
, q" D/ K# ]. E3 w7 F- Y% R; ^: t
Remember to repeat both commands a second time after ~1 minute执行这两条命令要保证1分钟之后。& C* [0 F+ `6 h0 Z8 E& l2 R
' [4 K5 w# v; D4 X# y. g
再执行ceph -s状态恢复正常。+ S* W/ m2 \' E& c4 c
ceph -s cluster: id: 5fa16469-8be4-4457-8a78-12b1910afff7 health: HEALTH_OK 1 p! u2 @3 }9 q6 [* G
1 t5 I# Z- \: t( G' O
# M' B/ m+ L- R9 ?
( @- Y% e {6 }/ Y+ L! e
. H4 g# H% \: f6 B% |3 N: B* i |
|