易陆发现互联网技术论坛

 找回密码
 开始注册
查看: 736|回复: 3
收起左侧

1 OSD(s) experiencing BlueFS spillover ceph分布式存储

[复制链接]
发表于 2025-3-27 09:17:29 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?开始注册

x

% L- b% x& N& T# I+ F" ?) e ceph -s0 \  i) J% g  h) J  H; @& H
  cluster:
2 A2 j; [1 f+ m2 A    id:     5fa16469-8be4-4457-8a78-12b1910afff7
' t# t) l' T1 Q# v8 m    health: HEALTH_WARN. B* g4 E* U5 O: Z+ |
            1 OSD(s) experiencing BlueFS spillover- x6 A# h8 F8 T% b( {

. }2 x# Z% g' O; Y$ R" s2 Z; j$ D$ o4 A' s$ c# J* E8 s( U6 m1 e

. n' M1 w2 l" [8 i ceph health detail - U3 q% E, Z8 U7 C% C; s8 {) t
HEALTH_WARN 1 OSD(s) experiencing BlueFS spillover8 Q& O& n1 e5 K/ N' D
[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover
- k8 j% D$ w1 l8 J. I* g' J     osd.18 spilled over 39 GiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device
+ f) F9 H: B+ y# ~6 u7 H% {2 ]* c/ ^0 O- F0 r4 P
问题很奇怪,以前没有遇到过
* m- N! F, z9 E' r$ G" b) Z. G* [# v; t3 o+ C% y
HEALTH_WARN 1 OSD(s) experiencing BlueFS spillover
0 B0 A( P3 g$ s: a1 j9 M[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover
; c# E% A; [3 O5 [0 ]* F  L! F2 e     osd.18 spilled over 39 GiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device8 H. ~, o" {1 y( j: P3 ^+ t6 ?
6 I0 Z% N3 a: W' a, U9 G
2 _5 f3 k8 U! ^& d/ S
查看官方解答说明:
* I4 {7 L8 h5 H9 r  I! K% `' M; r( U' R
$ g4 Y0 K( Z" L8 x# I3 m, v
导致 BlueFS Spillover 的代码问题已在 RHCS 5.0 及更高版本中解决。% g6 R" ]$ G1 E
请参阅 Root Cause 部分中的提及的 Bugzilla 和 Errata。* S3 u5 \' v5 w/ v6 y9 z0 E2 V
$ o$ d" A* }7 Q+ J& P- @* u
如果您可以接受因为这个问题导致的 HEALTH_WARN,且您的 Ceph 集群计划很快会升级到 RHCS 5.3 或更高版本,则不需要进行任何操作。
( {- y7 i" E% B0 h* a5 w! S3 v2 ^9 e- l4 G' p9 r) u
如果您希望清除 HEALTH_WARN,请在每个 OSD 上执行以下操作(一次在一个 OSD 上执行)。
) r" M- [) `* @8 e0 y# p- e; z- compact OSD6 {* Q' }$ S/ S
- 保护到托管 OSD 节点的 shell,并重新启动 OSD
. a  I9 E5 p9 R) L  \! U- 再次 compact OSD
, j# n9 F  J5 Y7 N! _- 保护到托管 OSD 节点的 shell,并重新启动 OSD; z3 A$ w. ~8 a8 B1 B0 H' N7 V8 l' p
0 E. Q  j2 Y( g6 [0 U5 F
解决办法:, d9 q* h- k* U& N5 t7 x" {2 t4 i
0 v; E2 j8 x) Y

- `5 I: x6 r: O" Z# ceph daemon osd.<id> compact  <--wait 2 minutes afterwards
8 x+ W% J9 S3 A7 m* E# ~# C" v, T" `; ?% \* i3 _2 m6 e# e' y# ]6 w

% Z3 L; w3 p9 _$ u% _示例:+ n8 `- _2 V7 z  e7 o2 j6 v
ceph daemon osd.18 compact{    "elapsed_time": 22.966318924999999}
0 m2 Z% n0 H$ y& A2 [* P# M/ `: Z% {
" X* O3 \' z* ~4 \( E5 L% k  e, L6 T5 A# systemctl stop ceph-osd@{id}; sleep 2; systemctl start ceph-osd@{id}
4 o( I% l5 \) C; w, `- g6 W& t示例:systemctl stop ceph-osd@18.service ;sleep 2 ;systemctl start ceph-osd@18.service 0 [: F" r" O! p6 [& v
' ]" `' P* ]. N6 \. g
Remember to repeat both commands a second time after ~1 minute执行这两条命令要保证1分钟之后。
) [! R$ }6 f" S  ^  X+ Z) Z: ^( r1 k* D6 [$ {  M
再执行ceph -s状态恢复正常。9 s; F8 i& m+ E! d; e
ceph -s  cluster:    id:     5fa16469-8be4-4457-8a78-12b1910afff7    health: HEALTH_OK
7 g) a$ K% L9 z1 ]
- X* H1 i$ v$ R! i" a
8 y6 F7 u4 Y* R" G# c$ |9 V& s7 y2 m" S$ g  s
+ y; }7 @" G. Q& ?# u5 Q
发表于 2025-3-27 10:42:45 | 显示全部楼层
ceph daemon osd.18 perf dump | grep -C 3 bluefs
# U( S8 n( H1 I; j        "msgr_recv_encrypted_bytes": 154032,
" g9 m# b- r7 K  s* g$ a- m        "msgr_send_encrypted_bytes": 12016
* C3 H$ w6 K& w6 k4 q. A$ b    },
7 {1 N. Q8 c2 a, X. y0 }1 I9 w2 u; l    "bluefs": {
& y7 B- u& ]: i; k- R: T. P        "db_total_bytes": 200038932480,
+ @' g  e: d0 a+ _# a        "db_used_bytes": 1681915904,: t* W  ]0 J$ V2 e0 {
        "wal_total_bytes": 200038936576,
 楼主| 发表于 2025-3-28 09:24:15 | 显示全部楼层
HEALTH_WARN 1 OSD(s) experiencing BlueFS spillover
8 U$ G$ I. A1 S, l9 q# h  Z8 r[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover
+ n; d, Z7 a" U* [9 h0 k     osd.25 spilled over 774 MiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device( {! y9 x% E9 f: b: m, L( ?+ N# f1 w
 楼主| 发表于 2025-3-28 09:30:15 | 显示全部楼层
ceph daemon osd.25 compact
$ X% h) B. F( @$ }  U/ P
3 }0 Q+ [- t4 H. K- d; y5 ^  U, i& x
$ z" f2 B6 T/ n- [{5 o) I" y0 x" u6 m% n# H& \0 A
    "elapsed_time": 23.914333896999999
. y: o# B/ ?3 U1 i" p# \; c}/ o" H2 ?- C! u  ^! q( A

: _$ ~( L: z' A
; M2 T" h; H, q5 F. Fsystemctl stop ceph-osd@25.service ;sleep 2 ;systemctl start ceph-osd@25.service
7 H0 G7 L1 A# c7 [3 q# {
5 _4 a, m8 K% F1 u
7 ^% f8 ^* I1 f* I- v  I6 hceph health detail* J% M8 I& X, {0 ]1 W/ K
HEALTH_OK: `5 c2 c8 \0 _  F9 E# O5 C) v1 y
* ^% C: f' Y$ \6 f# p
/ R3 ~9 A' y9 c* i6 c# U
ceph -s
5 J$ k3 X# q; b5 W  cluster:& O* t/ U9 ?7 n/ }5 C4 ~
    id:     5fa16469-8be4-4457-8a78-12b1910afff7
, m) }/ K) C" _    health: HEALTH_OK  a' ~% d, \, p7 `4 Y
/ j7 u/ ^' X; z8 @: v
您需要登录后才可以回帖 登录 | 开始注册

本版积分规则

关闭

站长推荐上一条 /4 下一条

北京云银创陇科技有限公司以云计算运维,代码开发

QQ|返回首页|Archiver|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )点击这里给我发消息

GMT+8, 2026-4-8 23:59 , Processed in 0.050704 second(s), 22 queries .

Powered by Discuz! X3.4 Licensed

© 2012-2025 Discuz! Team.

快速回复 返回顶部 返回列表