找回密码
 注册
查看: 3962|回复: 3

HEALTH_WARN 1 failed cephadm daemon(s)

[复制链接]

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
发表于 2021-7-25 20:37:36 | 显示全部楼层 |阅读模式
HEALTH_WARN 1 failed cephadm daemon(s)% a+ F% U0 p; B. Q2 d
ceph health detail) b8 [0 @4 M& b7 G4 I4 `- X3 P$ |8 `
HEALTH_WARN 2 failed cephadm daemon(s)
1 G+ c6 s; f  R; h& m4 l: Z[WRN] CEPHADM_FAILED_DAEMON: 2 failed cephadm daemon(s)
: r! m) ]3 H7 R8 f5 G+ t8 S0 L% E    daemon alertmanager.controller on controller is in error state) o; c. v/ b3 K! G& b8 ]' M7 G6 {
    daemon grafana.controller on controller is in error state2 {, ~9 [: _. a6 o, i3 ^5 ]6 T0 O3 ~

9 @. x$ s8 e! `7 e1 H. x4 w7 j/ f
! x0 C" l; e! m

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2021-7-25 20:52:05 | 显示全部楼层
经过排查,应该是系统层间安装过ceph集群,没有清理干净。新版本还不知道怎么全部清除,还在测试中。

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2021-7-25 20:59:12 | 显示全部楼层
[root@compute01 ~]# ceph status0 g8 M% ?: F9 e$ p5 o* ?. V
  cluster:
8 `/ {! r. I- Y% C9 B    id:     4c1f752a-ed1a-11eb-8ce5-0025908471d6
4 j6 Z4 g- S$ K* {' w    health: HEALTH_WARN
8 r/ M/ i. Z: K( X/ P; z            2 failed cephadm daemon(s): }' Z% R" k. V9 f' D
            clock skew detected on mon.compute019 Q0 T( B2 D6 F# I
" k$ g; G$ t; y4 U' Q& U/ W. ]
  services:
3 _: Z6 |! x+ u1 O" b$ p) C2 ~    mon: 2 daemons, quorum controller,compute01 (age 3h)
- s; R2 x  j$ L$ d5 y& a& w    mgr: compute01.getqhn(active, since 3h), standbys: controller.kxfttd8 z3 H) D& h8 O: p
    osd: 3 osds: 3 up (since 3h), 3 in (since 3h)# n/ Y- l/ p5 ~$ m' l* Q# f
* R8 M, i4 D4 Q! Y* ]
  data:4 a( s  e$ X* V1 S
    pools:   1 pools, 1 pgs3 y/ |: l: O2 [: R( P: D
    objects: 0 objects, 0 B
* c" h3 r  ], L! `1 k    usage:   3.0 GiB used, 1.2 TiB / 1.2 TiB avail0 o: H3 A; N/ Q+ n
    pgs:     1 active+clean
  l7 n9 Z  B1 h- u9 R# B3 e/ e$ w/ H3 y( R5 X6 |7 r
/ [0 P/ R: c  P" N
[root@compute01 ~]# systemctl status ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6
; T) I) q" X. ~7 L3 |ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service          ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service  ?& V0 N; B) v
ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service     ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target
/ [& y* m! t& ~, Qceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service  % n$ Y! C3 Y: j. U7 @$ P' g/ \' j4 W
[root@compute01 ~]# systemctl status ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6
& d5 ?( B# I8 \ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service          ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service
$ u( ^0 ?& V# _+ |* R* }. Q+ o# Pceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service     ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target
0 |* A+ c4 U  q# A: iceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service  % N3 y* j& Z& Y2 e. z$ a
3 T9 a: ~) T, G' H# K

) H# P) g/ \' i7 Z- T
& _* L; Z" v4 C
) ?; r0 M' `: Z6 F* q$ ^6 F[root@compute01 ~]# systemctl disable ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service          ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service     ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service
. v, `; i" z1 ?: dRemoved [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service[/url].. C% g. A! E# D' N0 L8 |2 h
Removed [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service[/url].
: p' G0 S  _: M9 I% J+ ~+ x0 ?2 j3 T+ JRemoved [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service[/url]./ ^( i( P- h+ Y+ R# N7 Y# S% N
Removed [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service[/url].
( x& A+ W* w; l6 w. z( C3 q9 V. _7 L: v' E3 g0 N. D
/ n: m& g$ G7 i$ U% G+ N- u
[root@compute01 ~]# cd /var/lib/ceph
. m5 F: D) a4 f6 C
) e6 |$ J) E$ D+ D[root@controller ~]# cd /var/lib/ceph
4 s/ ?; ], K9 x- W+ d5 f) Y[root@controller ceph]# rm -rf 1e87bca4-e7ce-11eb-aa90-0025908471d6/
1 Y' A$ V6 i* m  ~
/ M5 U( u1 T  b8 t( d3 |
) G8 w" v4 V( C. x3 i* w: a+ ?[root@controller ceph]# ceph status  , a3 ]# L. i: Q2 e& R! J3 \
  cluster:
/ ^3 }; p1 B( P/ h# L    id:     4c1f752a-ed1a-11eb-8ce5-0025908471d6
0 G0 ]( s) o/ j% |8 X! d    health: HEALTH_OK, r, g, g4 a4 p- j1 E2 q! p  I

8 k. i: G' w$ s" P  W4 u, }4 n9 T  services:6 L2 P1 [6 W8 W- K/ e+ i7 l' c
    mon: 2 daemons, quorum controller,compute01 (age 84s)
' R4 k' g" Z: |( m0 A( S  J& w    mgr: compute01.getqhn(active, since 30s)$ B. K; f) \& c: \9 e# O
    osd: 3 osds: 3 up (since 14s), 3 in (since 4h)9 J% p$ m: Z9 P# K) I, ^
. x: s$ ?! z' V. T% W+ R
  data:$ C* |" Y& M# ]
    pools:   1 pools, 1 pgs
' B3 ~) c' u# |" b0 ^    objects: 0 objects, 0 B2 m* a2 B2 t0 j; X
    usage:   3.0 GiB used, 1.2 TiB / 1.2 TiB avail
5 |& ?: f# E- X5 m, u: M, t$ Z    pgs:     1 active+clean" n) i/ X5 a! p: P7 D" M- W

$ F  ?4 T1 [- o+ v问题竟然解决。
2 c& Q& I. c0 {1 B. m+ l
0 W- ~& S7 R) f3 }1 s8 u) X

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2023-8-19 09:50:20 | 显示全部楼层
admin 发表于 2021-7-25 20:59, E+ M# B: ~  \+ p. N+ Q
[root@compute01 ~]# ceph status9 |2 k/ R( M5 z' y) H  Y+ z( C
  cluster:6 u1 O+ `  M7 z( b+ i' J0 n5 g! D2 |
    id:     4c1f752a-ed1a-11eb-8ce5-0025908471d6

# s( K4 @0 {* ~3 I7 f  Z! }# f可能原因是因为生产了一个不一样的cluster_id导致信息不一致不对称引起。如果一个纯净的系统也出现这个问题,需要排除原因。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

返回首页|Archiver|手机版|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )

GMT+8, 2026-6-11 23:05 , Processed in 0.021888 second(s), 26 queries .

Powered by Discuz! X5.0

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表