找回密码
 注册
查看: 856|回复: 3

1 OSD(s) experiencing BlueFS spillover ceph分布式存储

[复制链接]

0

主题

0

回帖

9

积分

管理员

积分
9
QQ
发表于 2025-3-27 09:17:29 | 显示全部楼层 |阅读模式
2 {; m& H. x1 y4 N% `9 Y9 ]
ceph -s1 ]8 v% b- ]3 h0 _5 \
  cluster:
. l" W* v! A9 `6 g! a+ g, g' |    id:     5fa16469-8be4-4457-8a78-12b1910afff7
' b& |: Q6 r  w. N0 o: R1 k    health: HEALTH_WARN9 [6 d) s2 Z/ u3 n# b# V
            1 OSD(s) experiencing BlueFS spillover
! X4 z  \5 z- F$ s6 H  U5 U   `+ p, G2 x$ `
& e2 c: l% e/ D+ V; @: C

9 a/ w( N! @4 p- G+ ~0 J  } ceph health detail   z% X+ E) q+ {1 J
HEALTH_WARN 1 OSD(s) experiencing BlueFS spillover) e$ Y3 u6 x( Q; F6 m" k% [
[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover/ c8 z; T& _0 }" V  v6 m2 f! y
     osd.18 spilled over 39 GiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device7 r6 S8 c8 N0 y& E' M$ ]1 _

& ~& _' |+ C$ A9 ~% S问题很奇怪,以前没有遇到过8 L9 H0 J, F! p( M  K
+ N6 a' W6 Q8 s8 i4 _  {( y
HEALTH_WARN 1 OSD(s) experiencing BlueFS spillover0 y: r0 G; ~6 \/ n% [
[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover
" {  S& ?. p! r; ]/ b8 D# n     osd.18 spilled over 39 GiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device. V* w) w' @4 o0 T3 d, C; L. s

1 v/ m9 v  E4 O  u+ p0 X. D: i0 \' a$ N
查看官方解答说明:+ o1 U! M1 Y1 N+ j
( C& X1 k) o, F3 O" T
# L6 ]+ ^9 `9 q; w  T! r
导致 BlueFS Spillover 的代码问题已在 RHCS 5.0 及更高版本中解决。
+ n3 k3 J9 r# v# \5 Q请参阅 Root Cause 部分中的提及的 Bugzilla 和 Errata。. B& j* q+ n% p. |

; \1 N/ [. I- X0 F! h- ^6 N  q如果您可以接受因为这个问题导致的 HEALTH_WARN,且您的 Ceph 集群计划很快会升级到 RHCS 5.3 或更高版本,则不需要进行任何操作。8 `2 w2 Z7 }* L+ I4 {8 _3 f
! k3 F& e) R+ D7 F/ x  t4 x  ]' B/ D7 T
如果您希望清除 HEALTH_WARN,请在每个 OSD 上执行以下操作(一次在一个 OSD 上执行)。
, ^8 R. [; f6 M- compact OSD
" s: ~1 m; Y* q9 s- Z- 保护到托管 OSD 节点的 shell,并重新启动 OSD
, K# [& b+ s3 J, H- 再次 compact OSD2 D5 P7 E6 ^: N+ o) E. y+ ~
- 保护到托管 OSD 节点的 shell,并重新启动 OSD
6 ~" w/ a8 k3 i" p; ?
0 R( j/ c/ f  `) E解决办法:- |! m+ j( O' d. I
3 w( X' B$ G" u
- @0 v% S1 W, x- F% P* G
# ceph daemon osd.<id> compact  <--wait 2 minutes afterwards
4 _+ c% i: W$ k( M+ \) N& k% k/ |' ~; n  u' r8 I

( z" \% l- g8 E$ `0 k1 j" N1 I- E示例:
% M' H5 h3 X( y  d3 h2 g" o7 {2 Gceph daemon osd.18 compact{    "elapsed_time": 22.966318924999999}
" M: I* ^2 w3 \$ _+ p9 b* F0 Z! I) |/ E, V$ d1 C- U0 X3 [* C
# systemctl stop ceph-osd@{id}; sleep 2; systemctl start ceph-osd@{id}3 |: r& M) n; ~8 }' ^
示例:systemctl stop ceph-osd@18.service ;sleep 2 ;systemctl start ceph-osd@18.service
" o- c# m% R/ h  h! K- k$ R  _! m
* j4 e3 E# m/ QRemember to repeat both commands a second time after ~1 minute执行这两条命令要保证1分钟之后。
* V% T4 c% P/ }9 ~
- x/ m& _9 K# x1 V7 _再执行ceph -s状态恢复正常。9 M2 o  u9 o/ q: V; {
ceph -s  cluster:    id:     5fa16469-8be4-4457-8a78-12b1910afff7    health: HEALTH_OK ; i4 Y; g0 n1 B& }  I

- L: W0 \% y' r" N  [& B8 D9 g( }; ~( w
( }8 g  G6 S) u: P7 C% O; J1 g
+ X2 L$ n. C, S4 {( E% e" [- P% K! I% d% R% }* K) @; s  `

70

主题

73

回帖

1201

积分

网站编辑

积分
1201
发表于 2025-3-27 10:42:45 | 显示全部楼层
ceph daemon osd.18 perf dump | grep -C 3 bluefs
& w" }( R: g+ B- i  C! @7 d+ E. \        "msgr_recv_encrypted_bytes": 154032,& ~% I% n8 X+ p" G3 |, \, i0 Z
        "msgr_send_encrypted_bytes": 120167 b: W0 M3 c  o! X3 }
    },/ b2 Q, ]8 P( L6 }/ X) d3 `
    "bluefs": {
* C; T, a6 X) d! A        "db_total_bytes": 200038932480,
  G! \% `/ g- F# _8 \& V        "db_used_bytes": 1681915904,$ N. k; B" Z- _* `0 }
        "wal_total_bytes": 200038936576,

0

主题

0

回帖

9

积分

管理员

积分
9
QQ
 楼主| 发表于 2025-3-28 09:24:15 | 显示全部楼层
HEALTH_WARN 1 OSD(s) experiencing BlueFS spillover6 z+ L3 l! U+ f1 _. s
[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover3 d/ n" v: L- o, [' k  ]$ P
     osd.25 spilled over 774 MiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device
1 ?& s8 b4 h* \1 W" o! l

0

主题

0

回帖

9

积分

管理员

积分
9
QQ
 楼主| 发表于 2025-3-28 09:30:15 | 显示全部楼层
ceph daemon osd.25 compact
6 X" J# i1 n' U+ ~, w5 R$ F
* S3 |* `) L% P" w" k2 @/ @( O: g9 L. h6 F  \  J$ c; V
{: c+ ^) P- Z5 L7 U2 U7 f
    "elapsed_time": 23.914333896999999# m7 v; q' G# Z; i' b) D8 \
}
1 N( }8 V2 \& ^) _) Z
# y! ]% {. `# [1 y" ~+ Y3 T# Z
0 a3 h0 z4 ]/ Psystemctl stop ceph-osd@25.service ;sleep 2 ;systemctl start ceph-osd@25.service& X# g% s: T% `# z

/ s& x3 S% C7 `8 _" w& Z6 J+ w6 L0 |2 R7 ?% T& H
ceph health detail& n; v, X) C& U; W+ J8 M1 b
HEALTH_OK# Q) ^" H4 d& z* C% _
4 k) \% f5 d% H, _% n& B

0 V, c" k8 M0 d$ f% N" L8 l9 R ceph -s
, z3 o2 \; }- C5 ^8 {- d  cluster:
; c$ P8 X# R( C% T0 l' n: C    id:     5fa16469-8be4-4457-8a78-12b1910afff75 m# g6 V8 r) K5 C6 A
    health: HEALTH_OK" ^$ a& [# B6 q

# |/ Z3 e; v, s1 r8 ?9 h0 _
您需要登录后才可以回帖 登录 | 注册

本版积分规则

返回首页|Archiver|手机版|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )

GMT+8, 2026-6-11 22:03 , Processed in 0.018067 second(s), 22 queries .

Powered by Discuz! X5.0

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表