易陆发现互联网技术论坛

 找回密码
 开始注册
查看: 3955|回复: 3
收起左侧

HEALTH_WARN 1 failed cephadm daemon(s)

[复制链接]
发表于 2021-7-25 20:37:36 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?开始注册

x
HEALTH_WARN 1 failed cephadm daemon(s)4 x7 }" c6 v( n8 C( X1 h6 D
ceph health detail  s/ D( w: w7 s
HEALTH_WARN 2 failed cephadm daemon(s)8 J8 N4 V' Q  r7 r1 h. j, N& }; f( Q
[WRN] CEPHADM_FAILED_DAEMON: 2 failed cephadm daemon(s)
. h  }: V9 }% Y' n    daemon alertmanager.controller on controller is in error state
! w4 m  }+ y$ y. K: f( A    daemon grafana.controller on controller is in error state1 _0 h- j& k' h2 }  Q
2 X- J# b  j) d- a3 W, s6 O; v
/ e5 H5 Z! C5 `1 l
 楼主| 发表于 2021-7-25 20:52:05 | 显示全部楼层
经过排查,应该是系统层间安装过ceph集群,没有清理干净。新版本还不知道怎么全部清除,还在测试中。
 楼主| 发表于 2021-7-25 20:59:12 | 显示全部楼层
[root@compute01 ~]# ceph status
  Z) ]$ L% R( `9 p- C  cluster:$ E4 @- ^, c6 O' h: @" V8 I
    id:     4c1f752a-ed1a-11eb-8ce5-0025908471d66 m  D) ^( x) ^
    health: HEALTH_WARN
3 M! R- |5 p# `6 L0 O            2 failed cephadm daemon(s)8 o4 H9 A4 M# s5 k
            clock skew detected on mon.compute01
8 G6 [% A& c3 P$ B5 H+ R0 M
6 c# D: `( P3 s  services:
+ `- x9 {% w6 c0 `) |3 t    mon: 2 daemons, quorum controller,compute01 (age 3h)$ [! h# |5 N) S5 C# i, n
    mgr: compute01.getqhn(active, since 3h), standbys: controller.kxfttd
  D4 V5 R) z& X0 G3 B    osd: 3 osds: 3 up (since 3h), 3 in (since 3h)
* k' e) g( Y' c8 \
, Y) j7 r- K' _0 ?+ G  data:
1 Y6 Z) t4 Y( }0 K1 i    pools:   1 pools, 1 pgs
7 h" r3 o; D( P9 ]- z& L1 I# _    objects: 0 objects, 0 B1 e: ~8 h: h2 ?# |" k& W* \
    usage:   3.0 GiB used, 1.2 TiB / 1.2 TiB avail7 O* O$ A9 ~  R. h! `
    pgs:     1 active+clean
/ G) z9 e0 H( N9 L- U% \9 {
4 O% z6 x* V8 `0 X; i" F! z6 [/ o) j: N" X+ y
[root@compute01 ~]# systemctl status ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6
7 G# q; m7 V! s; ?; w( A, lceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service          ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service, x0 M1 @7 [# O: K0 L( V# t. M6 f1 B
ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service     ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target& I" J: |4 D6 f% z9 U- z* D8 v
ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service  
6 y0 p2 Y+ S0 h& p% h" r( v! J[root@compute01 ~]# systemctl status ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6
2 c/ @7 X% ~# \$ [, L$ e2 U" Sceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service          ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service) V% a0 D0 ~/ v. T  r
ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service     ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target9 B% l8 Y( y' s$ z
ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service  
0 ~$ n" y$ \. `" V3 Z9 _6 n2 ?. ~6 Q$ C2 F
/ [5 n1 ], \0 S1 F. i
2 F$ g: ~! U8 J0 Y7 z3 o

9 m! o% ^3 X- g8 _[root@compute01 ~]# systemctl disable ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service          ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service     ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service
" V8 U! t* \- T9 [+ ZRemoved [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service[/url].
. w* w- P8 Q, O/ X" ^( |: a0 T; SRemoved [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service[/url].. y* ~, _& \) W2 }+ n, q
Removed [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service[/url].9 w4 S1 A9 l7 j# a8 S
Removed [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service[/url].
' i- A4 m  ~+ Y' U% x. K% ~5 N9 V2 h$ q9 w# I
6 A) l$ C8 P" p9 v
[root@compute01 ~]# cd /var/lib/ceph
; ^1 x5 n/ V! ?2 O" c  I5 {- W+ K  ?% ?& I# j
[root@controller ~]# cd /var/lib/ceph
' f: X4 i6 v! K0 I. o4 e[root@controller ceph]# rm -rf 1e87bca4-e7ce-11eb-aa90-0025908471d6/0 p3 e$ ~  g- K1 L6 @) N7 j7 [9 S5 a
7 H4 H. r3 b6 {* P; V  Q) h

4 d: o! G% E* O[root@controller ceph]# ceph status  . `9 Y% B# K: ^3 O
  cluster:
2 B+ g, }# ?, Y* }    id:     4c1f752a-ed1a-11eb-8ce5-0025908471d6
3 x; Z# y1 U1 V+ N9 A7 i    health: HEALTH_OK% a8 V- q# i# ~$ _! \6 I

- s: }# P9 H8 [/ g8 B0 q  X  services:
+ }4 i# t2 B; i    mon: 2 daemons, quorum controller,compute01 (age 84s)
. @9 I1 W# P" \) C8 i    mgr: compute01.getqhn(active, since 30s)7 p1 g# o6 W9 ~
    osd: 3 osds: 3 up (since 14s), 3 in (since 4h)
4 C& X7 Z9 e! ^% T, Q 9 N6 J3 S8 r* V* C
  data:! Z6 d9 X0 P* t$ Q+ E2 k, M5 x6 j
    pools:   1 pools, 1 pgs1 l0 d7 d4 Q- p& S/ D9 G
    objects: 0 objects, 0 B
- H' Q& Z* L) b( C" j# D8 m    usage:   3.0 GiB used, 1.2 TiB / 1.2 TiB avail" z( H, W0 m4 x7 k1 d8 B1 g5 H* h$ ?
    pgs:     1 active+clean8 _# a7 I( ~% h- L- l
% Q' N3 X5 P! R, G
问题竟然解决。
2 \- }* B- A- y) B: F0 E* @
8 H+ M& N( s1 A& X0 D( Q9 o, H4 Q

点评

可能原因是因为生产了一个不一样的cluster_id导致信息不一致不对称引起。  详情 回复 发表于 2023-8-19 09:50
 楼主| 发表于 2023-8-19 09:50:20 | 显示全部楼层
admin 发表于 2021-7-25 20:59/ ?  i# I, t5 ]! u  L, }) P
[root@compute01 ~]# ceph status
  k: {3 {# K  _/ a# c5 o  cluster:
4 m2 a, a" i5 M* \% `9 s    id:     4c1f752a-ed1a-11eb-8ce5-0025908471d6

" V( w/ e. J, e2 Y+ W4 F+ [可能原因是因为生产了一个不一样的cluster_id导致信息不一致不对称引起。如果一个纯净的系统也出现这个问题,需要排除原因。
您需要登录后才可以回帖 登录 | 开始注册

本版积分规则

关闭

站长推荐上一条 /4 下一条

北京云银创陇科技有限公司以云计算运维,代码开发

QQ|返回首页|Archiver|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )点击这里给我发消息

GMT+8, 2026-4-8 21:31 , Processed in 0.061556 second(s), 24 queries .

Powered by Discuz! X3.4 Licensed

© 2012-2025 Discuz! Team.

快速回复 返回顶部 返回列表