易陆发现互联网技术论坛

 找回密码
 开始注册
查看: 732|回复: 3
收起左侧

1 OSD(s) experiencing BlueFS spillover ceph分布式存储

[复制链接]
发表于 2025-3-27 09:17:29 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?开始注册

x
3 P* R3 D  |2 i: g& P
ceph -s
9 ~- ?# x3 D  M1 O: Q2 c  cluster:' A( [* g& O) q9 V. U
    id:     5fa16469-8be4-4457-8a78-12b1910afff71 `7 x1 O$ ]9 \& @0 w  v! \
    health: HEALTH_WARN
# g7 b$ m  r! g+ M            1 OSD(s) experiencing BlueFS spillover
7 Z& a. I  _9 V % Y6 V+ d- ?8 X6 t

8 n7 [0 y* ?8 N
" h8 B% j; V; A, _ ceph health detail
$ O1 J! E! k# UHEALTH_WARN 1 OSD(s) experiencing BlueFS spillover/ q9 i; w, w- b4 \( d
[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover' K8 m$ r" y5 X( q$ b4 R: d, d# e8 l
     osd.18 spilled over 39 GiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device. }4 _% g4 U' p3 S0 i4 e
" U( F! n& R) m% G# W  R2 Z
问题很奇怪,以前没有遇到过
+ g+ r8 b8 P1 C4 p, Y  O) O8 X2 W! x& G; n: U
HEALTH_WARN 1 OSD(s) experiencing BlueFS spillover
; ?: R: N2 H: k0 A[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover
% `' T! K4 g9 S0 V* g# g     osd.18 spilled over 39 GiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device
9 K8 ]+ Y  O: G7 m, F& F8 d, K
$ R7 i3 q% {+ s7 f2 N8 a( \
% t7 h, ~1 z; y5 N查看官方解答说明:1 A3 s5 ~/ |; H

# x; x- G9 ^$ D% |3 {, t6 ^5 M+ `3 b( V7 I& ^0 y5 q+ k
导致 BlueFS Spillover 的代码问题已在 RHCS 5.0 及更高版本中解决。
& Q  V# x1 R1 w" \8 v请参阅 Root Cause 部分中的提及的 Bugzilla 和 Errata。
/ W0 o' z6 C4 p+ S1 E+ j6 B& f; E
如果您可以接受因为这个问题导致的 HEALTH_WARN,且您的 Ceph 集群计划很快会升级到 RHCS 5.3 或更高版本,则不需要进行任何操作。
$ P& @& B. T2 P1 t! m1 l+ ?0 @8 q. {- E8 d6 C, a6 v: c
如果您希望清除 HEALTH_WARN,请在每个 OSD 上执行以下操作(一次在一个 OSD 上执行)。8 o+ j% e% r3 S/ M/ O
- compact OSD
+ f* s9 `! H7 p0 v$ I- 保护到托管 OSD 节点的 shell,并重新启动 OSD- ?/ S6 v2 I0 F' n
- 再次 compact OSD  y) ]+ o$ y4 U1 C3 Y. B2 c
- 保护到托管 OSD 节点的 shell,并重新启动 OSD
& t4 D1 e' h0 z% _# E
6 f0 ]# Z9 x. w/ V3 u9 Q解决办法:" z' e% ?+ A2 v9 [5 w$ n

) D' B# t) S. K; V  j& b) I& S( q& }; y1 g) t) K* X2 K* [
# ceph daemon osd.<id> compact  <--wait 2 minutes afterwards8 \* `" ^  Q% X' O# T, I
9 F% C; w( z% {0 v& w- Q

% {, w5 Z* ^% P! R3 p示例:$ i. @7 h% N  {8 H  d4 G# o# Q
ceph daemon osd.18 compact{    "elapsed_time": 22.966318924999999}
5 @8 }0 i3 Z% u4 K  @0 S& D) \' n' X. }/ s; j
# systemctl stop ceph-osd@{id}; sleep 2; systemctl start ceph-osd@{id}
4 b% F) e3 C; ^! s" l, D: K" v示例:systemctl stop ceph-osd@18.service ;sleep 2 ;systemctl start ceph-osd@18.service & T7 O( r( v9 R8 A

. v. F) P: B) K1 J4 R# M2 SRemember to repeat both commands a second time after ~1 minute执行这两条命令要保证1分钟之后。% w6 q8 ^% R* Q* x3 i
! l- [: h  P7 z) g( R# n) B3 s
再执行ceph -s状态恢复正常。
( r  M" B9 `. |. M; P ceph -s  cluster:    id:     5fa16469-8be4-4457-8a78-12b1910afff7    health: HEALTH_OK
& e$ I- p0 Q7 M9 U. u
0 R9 \- j! A1 r
- x1 a# a7 A$ i# D! k, \; f# F, a+ T4 G9 I# `; k$ d
+ c5 f- u4 f4 M
发表于 2025-3-27 10:42:45 | 显示全部楼层
ceph daemon osd.18 perf dump | grep -C 3 bluefs 3 p+ U% J* b$ [; i- Z8 G0 B  o
        "msgr_recv_encrypted_bytes": 154032,
5 n2 W! ^' O' n7 T4 d% V9 z( [        "msgr_send_encrypted_bytes": 120167 u* o0 E7 |/ q. k$ B  q; G
    },7 ~$ T1 V% \2 e. A+ j
    "bluefs": {
- ^+ j3 o8 r# I, ?1 j        "db_total_bytes": 200038932480,
# p" i# O/ b1 M        "db_used_bytes": 1681915904,9 y& t2 Y( l5 A
        "wal_total_bytes": 200038936576,
 楼主| 发表于 2025-3-28 09:24:15 | 显示全部楼层
HEALTH_WARN 1 OSD(s) experiencing BlueFS spillover
9 Q( {, x( v7 T! E- X( {[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover
# j5 ]( y3 M$ L5 ~. M5 l# }     osd.25 spilled over 774 MiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device* R; R/ H4 Q1 R* p2 @
 楼主| 发表于 2025-3-28 09:30:15 | 显示全部楼层
ceph daemon osd.25 compact
7 k* ]3 {- J. X8 ~8 c. }. j1 P# ^" r  r7 A! O9 s3 _6 ^

- h& Z# X. ]% x: V8 c" |{
) O- X: H2 w+ b1 `  f* S    "elapsed_time": 23.914333896999999
. ~$ h2 z  _  T! @}3 J& O$ h: z/ \2 F/ }. _

: b, ^* M/ E4 a8 h; ^/ s3 J
: B8 [" e: ~7 N& ~4 d# asystemctl stop ceph-osd@25.service ;sleep 2 ;systemctl start ceph-osd@25.service% G& E$ B) X; ^3 i+ x. |- {; ?' h

8 k3 s* s' o4 |
6 e- |+ a7 P  E6 k" r  k) dceph health detail
) @. [4 a; i) [) `0 U# X7 G/ V8 aHEALTH_OK
, H/ \" A% Y" ^5 C8 c: Q' U* w
7 v) K1 Q) E) b+ C3 S/ q
# F' q$ Y) D5 L! U8 }5 N7 x ceph -s7 e2 i$ \( t9 [& N( ]
  cluster:
5 y, f3 |6 ]3 O: a, C    id:     5fa16469-8be4-4457-8a78-12b1910afff7
) L( ?* }" D; W5 ], f3 D    health: HEALTH_OK1 o# ~# X/ N& y; R

! p7 q/ M( o; d& |. f- F  |6 n
您需要登录后才可以回帖 登录 | 开始注册

本版积分规则

关闭

站长推荐上一条 /4 下一条

北京云银创陇科技有限公司以云计算运维,代码开发

QQ|返回首页|Archiver|小黑屋|易陆发现技术论坛 点击这里给我发消息

GMT+8, 2026-3-9 00:30 , Processed in 0.045231 second(s), 21 queries .

Powered by Discuz! X3.4 Licensed

© 2012-2025 Discuz! Team.

快速回复 返回顶部 返回列表