找回密码
 注册
查看: 858|回复: 3

1 OSD(s) experiencing BlueFS spillover ceph分布式存储

[复制链接]

0

主题

0

回帖

9

积分

管理员

积分
9
QQ
发表于 2025-3-27 09:17:29 | 显示全部楼层 |阅读模式
$ X0 c& Y+ b0 L
ceph -s
4 @- c: r2 B! U5 ]  S: ~3 u) v  cluster:0 _2 [8 c+ I, {9 R. h
    id:     5fa16469-8be4-4457-8a78-12b1910afff7/ @2 a0 P$ q# ~: t1 r$ I+ R/ {  t
    health: HEALTH_WARN
% K4 F3 ^# G/ Y! H) g* ^( P+ K            1 OSD(s) experiencing BlueFS spillover7 N# b6 O% F. n5 ?- E3 u" ?! g; ^1 h/ `4 s

+ V2 S2 `& |3 Y3 |5 H3 Z$ r  T- ?
" w/ H: U5 W4 f9 I' i+ N8 t9 K- l+ K/ P! u
ceph health detail
! q) K7 F& a  j* w' x4 _HEALTH_WARN 1 OSD(s) experiencing BlueFS spillover+ I! x4 B  u" P! p6 z+ K: ]9 r
[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover+ r( w) u4 ^5 L1 u
     osd.18 spilled over 39 GiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device
" i* z. `; i0 H3 @  J2 R; H9 |# N6 ]+ {5 \& q
问题很奇怪,以前没有遇到过. T0 A* k3 |1 B1 p6 |: @
3 l" G2 N  q/ r/ B/ \
HEALTH_WARN 1 OSD(s) experiencing BlueFS spillover
& ]! ~6 m  a3 d$ w, v[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover
  T+ a# r+ R+ r" D     osd.18 spilled over 39 GiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device
4 F- ^! v7 }# w1 u/ ]* Z7 [' [0 S6 `9 ?% i4 B' h& o1 s

1 h7 r3 ^3 E$ S查看官方解答说明:
9 X/ H8 t$ w0 q7 _) n+ V6 E1 O+ e% T' {" f  y6 j

, B3 \, ?; @3 b导致 BlueFS Spillover 的代码问题已在 RHCS 5.0 及更高版本中解决。. `  |/ C- _& ^& G0 H: l
请参阅 Root Cause 部分中的提及的 Bugzilla 和 Errata。' O( {0 i6 f6 t- v0 r

( J1 F1 {9 |: l0 `# B0 T4 _6 b如果您可以接受因为这个问题导致的 HEALTH_WARN,且您的 Ceph 集群计划很快会升级到 RHCS 5.3 或更高版本,则不需要进行任何操作。- r  w/ d4 a2 x$ p: O0 p  H
' n3 \  ~6 F! {7 T. `: q# H
如果您希望清除 HEALTH_WARN,请在每个 OSD 上执行以下操作(一次在一个 OSD 上执行)。
( l5 D2 r! @" ?" @4 E3 ?6 M- compact OSD
; ]! S) T4 F. T" D7 x5 {- 保护到托管 OSD 节点的 shell,并重新启动 OSD
8 z7 J$ I5 L% K% r: `- 再次 compact OSD
) P, r! ^% K& z- 保护到托管 OSD 节点的 shell,并重新启动 OSD* Z: ]* e( ]' t8 l

8 S1 H7 o. S; Y, d解决办法:: D: R4 o. G! R% K, Z) A+ s; W

# D/ w2 f' E9 f- Y, ?& I+ ^& y+ {: D+ P0 P% V4 i* L
# ceph daemon osd.<id> compact  <--wait 2 minutes afterwards* c% [% V* K: w  \0 @/ B' J

$ p4 N1 L' y# d2 k3 F6 F9 t+ B. j  e1 I7 c
示例:
* `2 `1 X( T" ^/ P+ ^- iceph daemon osd.18 compact{    "elapsed_time": 22.966318924999999}
* G5 h( y* X- Z) H# e7 b; T) q3 m% {+ B! K+ w  |. w
# systemctl stop ceph-osd@{id}; sleep 2; systemctl start ceph-osd@{id}9 o% K+ c$ _4 D
示例:systemctl stop ceph-osd@18.service ;sleep 2 ;systemctl start ceph-osd@18.service ) F: c' R( K3 U- E( \3 }
, q" D/ K# ]. E3 w7 F- Y% R; ^: t
Remember to repeat both commands a second time after ~1 minute执行这两条命令要保证1分钟之后。& C* [0 F+ `6 h0 Z8 E& l2 R
' [4 K5 w# v; D4 X# y. g
再执行ceph -s状态恢复正常。+ S* W/ m2 \' E& c4 c
ceph -s  cluster:    id:     5fa16469-8be4-4457-8a78-12b1910afff7    health: HEALTH_OK 1 p! u2 @3 }9 q6 [* G

1 t5 I# Z- \: t( G' O
# M' B/ m+ L- R9 ?
( @- Y% e  {6 }/ Y+ L! e
. H4 g# H% \: f6 B% |3 N: B* i

70

主题

73

回帖

1201

积分

网站编辑

积分
1201
发表于 2025-3-27 10:42:45 | 显示全部楼层
ceph daemon osd.18 perf dump | grep -C 3 bluefs
6 x1 r  m0 d0 W0 o$ S8 _" N1 Q        "msgr_recv_encrypted_bytes": 154032,& W& M) R9 S, Q/ V& X$ p
        "msgr_send_encrypted_bytes": 12016
$ \) \* [. o; q% m  J2 C% ]. Z    },
# J. k& ~+ L; X    "bluefs": {. ~* E* A9 y7 Z; ]! K( ^
        "db_total_bytes": 200038932480,
3 Z2 b6 C0 O9 d( a# K        "db_used_bytes": 1681915904,
* Y4 v7 G6 }9 {2 \        "wal_total_bytes": 200038936576,

0

主题

0

回帖

9

积分

管理员

积分
9
QQ
 楼主| 发表于 2025-3-28 09:24:15 | 显示全部楼层
HEALTH_WARN 1 OSD(s) experiencing BlueFS spillover: ]7 w6 p5 {4 ~% |7 Z" B# r
[WRN] BLUEFS_SPILLOVER: 1 OSD(s) experiencing BlueFS spillover
/ H$ C3 F2 F, e8 u     osd.25 spilled over 774 MiB metadata from 'db' device (186 GiB used of 186 GiB) to slow device0 f8 U" b* T/ Z1 l, @6 F

0

主题

0

回帖

9

积分

管理员

积分
9
QQ
 楼主| 发表于 2025-3-28 09:30:15 | 显示全部楼层
ceph daemon osd.25 compact ) c6 j/ ]$ Q- B" K, W, ?# w$ l7 S0 O7 A0 ?
. W- l$ D( n1 \) o( M: `6 ~- F
. W( E. R+ Y4 \' l7 M
{
1 a8 s0 }( q! l, W6 j    "elapsed_time": 23.914333896999999
5 B/ N  m( _9 i3 [}
2 S  K) [( T6 K  F5 x+ @  o$ ~# @' Z5 h) Y" A* C6 [8 \) Q
% [% I1 ?0 V) k/ \* }" I
systemctl stop ceph-osd@25.service ;sleep 2 ;systemctl start ceph-osd@25.service
: i9 \* X! G" Q8 ^; I; f1 c. q' s' r0 H" o4 X
* X: z+ }' t; X- t5 o7 D2 m% b
ceph health detail
1 k8 H/ J, G; pHEALTH_OK
. z1 G4 x4 H6 N5 \" I
  A! F6 v% V) x( ^. c2 _  X4 ~/ M
' d2 M9 D- a0 x5 h7 C3 F ceph -s  k: h  O# d+ \! J6 T6 ~. e4 y( [
  cluster:- u6 G, q( U2 R5 `& s1 Z
    id:     5fa16469-8be4-4457-8a78-12b1910afff79 Y  U% P  a/ T( h) d
    health: HEALTH_OK
3 O6 [+ J$ h* _) ?4 o; t# B9 @5 y/ O4 v# u5 B2 O* T- C
您需要登录后才可以回帖 登录 | 注册

本版积分规则

返回首页|Archiver|手机版|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )

GMT+8, 2026-6-11 22:56 , Processed in 0.015936 second(s), 22 queries .

Powered by Discuz! X5.0

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表