|
|
2 k7 O4 ~. p3 G- l; U0 V4 I ceph -s1 E! [" a4 L. P1 @* [) z
cluster: q, c9 B& I6 L0 E' q( o9 `
id: 5fa16469-8be4-4457-8a78-12b1910afff73 u6 w, N9 R7 b+ Y+ X
health: HEALTH_WARN
8 H3 J% x/ e0 }7 t8 a 1 OSD(s) experiencing BlueFS spillover
. F/ b5 c+ l$ ]# { v- F2 ?8 c2 R Y5 o# |2 V9 w
1 [& r+ a. Z6 U. B
3 M8 |' N E3 l8 u! `( x ceph health detail
4 T( B6 T' O8 G+ FHEALTH_WARN 1 OSD(s) experiencing BlueFS spillover+ {+ M5 k: C: A
[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover
/ u2 V+ c M+ @9 m osd.18 spilled over 39 GiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device! S5 I1 [% B8 a1 N5 J/ Y& u
. X' O- H5 O$ p' \, i问题很奇怪,以前没有遇到过
6 [" S# ^% v% q. ~8 Y
0 X) U0 Z) h _0 h" y/ Z9 {HEALTH_WARN 1 OSD(s) experiencing BlueFS spillover
) H# r" P+ i' p3 Z8 n2 e[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover) s! ]+ Y! Z) k1 R' ~: V- w
osd.18 spilled over 39 GiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device( a+ D' _' E) D' r$ X* L- V
2 W1 F/ _: w5 j; I5 n, F- |
! g; m; o4 k" a$ G# i' p
查看官方解答说明:5 _; m7 W0 y4 t) l( L
. Y0 M, C' K7 G% Y% X. |( I; I {& [- D
导致 BlueFS Spillover 的代码问题已在 RHCS 5.0 及更高版本中解决。0 {" P, I" R" a# ~$ i
请参阅 Root Cause 部分中的提及的 Bugzilla 和 Errata。/ O. j% d) ]- s7 E
) J" U6 d1 k: P, ~3 n9 ^( T
如果您可以接受因为这个问题导致的 HEALTH_WARN,且您的 Ceph 集群计划很快会升级到 RHCS 5.3 或更高版本,则不需要进行任何操作。
+ i r# ]9 I ]1 x4 S; d& W% r, q2 I7 [' b+ k, M4 ]6 k
如果您希望清除 HEALTH_WARN,请在每个 OSD 上执行以下操作(一次在一个 OSD 上执行)。
' i) U' r) _% I) [$ L4 b! `. ]- compact OSD
* x3 R. z& C7 R! q8 z- 保护到托管 OSD 节点的 shell,并重新启动 OSD$ P% F T4 S; B' b
- 再次 compact OSD
1 V# z) ]% c' B8 Q- 保护到托管 OSD 节点的 shell,并重新启动 OSD
' [3 ]9 k1 J7 L1 y A7 ^& N5 B, |3 r
解决办法:
+ a. R" y" m) }* F8 J. b" O% @* Q7 s
# [4 q, q8 Y. q. y# @ K) K: |# J( G# ceph daemon osd.<id> compact <--wait 2 minutes afterwards
! B9 V; Y& X8 I9 N: o5 }7 g( R( C- X1 T+ G
% g* D! q V7 `' e- ]7 g示例:
5 g1 ^ F+ {9 L4 z$ \7 R+ c6 eceph daemon osd.18 compact{ "elapsed_time": 22.966318924999999} d; ?9 Q+ V5 F. z& U
1 T2 ?( C8 G+ o" k, V6 a9 \
# systemctl stop ceph-osd@{id}; sleep 2; systemctl start ceph-osd@{id}
1 n$ Q$ W( M8 b6 d示例:systemctl stop ceph-osd@18.service ;sleep 2 ;systemctl start ceph-osd@18.service
& w2 Q/ {/ h4 ]
' p5 E( z8 G8 e0 r! WRemember to repeat both commands a second time after ~1 minute执行这两条命令要保证1分钟之后。
9 D+ I- N2 M$ J, Q* s
; Q+ E0 c5 Q4 w* u再执行ceph -s状态恢复正常。
( N( {* e! H; R, ~7 o1 i ceph -s cluster: id: 5fa16469-8be4-4457-8a78-12b1910afff7 health: HEALTH_OK
( Y( Y! z, E% I9 g- o- ]! Y) `/ V. [3 S8 M/ i
1 w8 F/ Y+ a; G) ?
& U$ G+ ?/ m" e
, t: p; V" s6 \3 i! r% u0 H/ s7 |: b |
|