找回密码
 注册
查看: 3961|回复: 3

HEALTH_WARN 1 failed cephadm daemon(s)

[复制链接]

0

主题

0

回帖

9

积分

管理员

积分
9
QQ
发表于 2021-7-25 20:37:36 | 显示全部楼层 |阅读模式
HEALTH_WARN 1 failed cephadm daemon(s)
+ h" ~) D  |6 S5 |+ X: w9 tceph health detail
9 C0 D! P. k  c) pHEALTH_WARN 2 failed cephadm daemon(s)
; e* S* W9 R- Z, U5 s# C[WRN] CEPHADM_FAILED_DAEMON: 2 failed cephadm daemon(s)
: n- _4 Y- \, m2 g$ \9 _    daemon alertmanager.controller on controller is in error state
7 S/ V7 A4 M8 m    daemon grafana.controller on controller is in error state
" x. ~9 A& W* ^6 \' d  Q0 h; S0 a5 Y+ h' k7 u# x+ H9 `
/ g8 `7 ]2 ^* Y

0

主题

0

回帖

9

积分

管理员

积分
9
QQ
 楼主| 发表于 2021-7-25 20:52:05 | 显示全部楼层
经过排查,应该是系统层间安装过ceph集群,没有清理干净。新版本还不知道怎么全部清除,还在测试中。

0

主题

0

回帖

9

积分

管理员

积分
9
QQ
 楼主| 发表于 2021-7-25 20:59:12 | 显示全部楼层
[root@compute01 ~]# ceph status
3 \: z: t% E8 p1 R3 |4 D+ U6 ^  cluster:
/ J2 O% A& i3 _* W: b1 b    id:     4c1f752a-ed1a-11eb-8ce5-0025908471d6
/ @& a, t5 R5 }, f/ a4 T    health: HEALTH_WARN
  x) G  V0 N- p            2 failed cephadm daemon(s)( x  g1 }) A( u+ z+ n+ w8 F
            clock skew detected on mon.compute014 m: k: t& C" J- n; j: t

. ^# J- B6 V7 a- w8 r: [* n' D  services:
. k9 p" B( y- F+ m. l- e0 J  I    mon: 2 daemons, quorum controller,compute01 (age 3h)4 p( B& C0 `2 V* v; j' z; \9 t
    mgr: compute01.getqhn(active, since 3h), standbys: controller.kxfttd
  C- F, D7 B1 a2 s  d    osd: 3 osds: 3 up (since 3h), 3 in (since 3h)
3 m$ }. [0 l. P " }$ k  Z  ]+ v" w& q: y
  data:1 \0 ?* ?' [2 ^, O) D& @
    pools:   1 pools, 1 pgs; e" d& M3 A' b( g
    objects: 0 objects, 0 B
2 r8 v. r  v: |. d6 P    usage:   3.0 GiB used, 1.2 TiB / 1.2 TiB avail" [3 t5 {( h6 x# Z# V* r" _
    pgs:     1 active+clean, v1 T7 h0 w' O0 w6 V! I8 ]6 _
1 X9 G! A. X+ _5 w, w

& Q* p0 d1 [: B$ j( P* N[root@compute01 ~]# systemctl status ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6
+ @8 q( [8 w( J. F2 X: q+ {ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service          ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service
7 ~4 [' B& @8 S/ @% ^7 bceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service     ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target
$ q! g5 y* ^+ r% [$ ?3 qceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service  / Y% O& ?$ I, C/ q
[root@compute01 ~]# systemctl status ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6
: U' ~! L, s+ z4 x; ~+ Kceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service          ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service
- G5 P* j: Z5 yceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service     ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target7 v8 Q/ i6 _+ T" _) k! v' r" R" Q
ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service  
! h0 c( t5 h: W# e
6 t1 p9 a. t( D7 n9 `: \. s
/ V" R, f! M& o" t0 M% H  \6 t/ U
  L* \9 q4 b' {! U
+ D( e' J0 N6 A[root@compute01 ~]# systemctl disable ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service          ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service     ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service " X& j* ^3 R/ @+ V: x) z2 H0 X: B
Removed [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service[/url].
! `! k0 O- }/ Q0 bRemoved [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service[/url].* e2 Y2 v9 v/ [
Removed [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service[/url].4 m3 S7 i1 ^6 x# _) N9 t& T1 ?4 l# @- x
Removed [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service[/url]., T4 y: E" F4 q! i. ]: P

5 k! D# c# c& r' D% a
* o" g% A- {  t2 Z' t3 r; i[root@compute01 ~]# cd /var/lib/ceph, N5 d$ i6 l' v# H1 L
8 z3 n( z! ?! I, Y
[root@controller ~]# cd /var/lib/ceph! F% G3 [4 K# P7 o5 u: N
[root@controller ceph]# rm -rf 1e87bca4-e7ce-11eb-aa90-0025908471d6/
) w7 E0 y6 ?8 }4 j: q- P7 E
. s7 ?& f2 N" t3 {3 c5 i1 M# f! D0 J; [! `- }
[root@controller ceph]# ceph status  / @; E7 t- A0 k7 Y3 m9 D9 {- L
  cluster:" T/ @+ Z' T% F9 `2 ]) m
    id:     4c1f752a-ed1a-11eb-8ce5-0025908471d6$ b: h7 f' ~* D$ \- u1 E8 W  q
    health: HEALTH_OK5 d8 |: \# U$ `: _( P, h3 S

, t! |( A0 e- s& C  services:
8 S7 a( v; j+ i2 i; U* s( H$ I4 o    mon: 2 daemons, quorum controller,compute01 (age 84s)& L0 s2 ?- B, I0 Z
    mgr: compute01.getqhn(active, since 30s)- S# Q7 C9 }4 e9 h5 R
    osd: 3 osds: 3 up (since 14s), 3 in (since 4h)
2 \9 m, c. ^/ O+ c& p $ [9 q  h$ e! [, Z9 f. O
  data:
5 J* @0 Y4 U! b4 \: ^9 V8 a- W: L, m    pools:   1 pools, 1 pgs
) ^$ k! w* v( A0 F/ L    objects: 0 objects, 0 B% X6 k" i; A0 y4 ]
    usage:   3.0 GiB used, 1.2 TiB / 1.2 TiB avail1 p6 t1 J1 I* }6 O- h
    pgs:     1 active+clean
" l' X2 |; N1 s
# ~8 y% p+ m4 u+ g  f9 Z% ?0 C8 J问题竟然解决。
# B; \' _" k7 N& F% N
7 x8 v. r1 M3 N2 P7 k0 W6 |' T

0

主题

0

回帖

9

积分

管理员

积分
9
QQ
 楼主| 发表于 2023-8-19 09:50:20 | 显示全部楼层
admin 发表于 2021-7-25 20:59
2 k+ I% M% _( l: S. Z: W1 k6 A[root@compute01 ~]# ceph status
5 W2 l7 l! X* I1 u0 l1 x; ]4 W/ x  cluster:
) E7 \" Q+ z8 [; p5 @1 C9 {! f4 K# g    id:     4c1f752a-ed1a-11eb-8ce5-0025908471d6
/ X/ w+ K+ \4 f; h2 k
可能原因是因为生产了一个不一样的cluster_id导致信息不一致不对称引起。如果一个纯净的系统也出现这个问题,需要排除原因。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

返回首页|Archiver|手机版|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )

GMT+8, 2026-6-11 22:59 , Processed in 0.026205 second(s), 26 queries .

Powered by Discuz! X5.0

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表