易陆发现互联网技术论坛

 找回密码
 开始注册
查看: 3954|回复: 3
收起左侧

HEALTH_WARN 1 failed cephadm daemon(s)

[复制链接]
发表于 2021-7-25 20:37:36 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?开始注册

x
HEALTH_WARN 1 failed cephadm daemon(s), K1 T/ a% b8 b; v3 r( k
ceph health detail
: }0 Y$ w, F3 t" ?; }5 fHEALTH_WARN 2 failed cephadm daemon(s)
' n) L# m. i# a  ^* W[WRN] CEPHADM_FAILED_DAEMON: 2 failed cephadm daemon(s)7 A1 q- m5 ?& M  z
    daemon alertmanager.controller on controller is in error state( k% ^7 v, ~  }- p) v% F
    daemon grafana.controller on controller is in error state
2 t2 d# `" _5 Y8 m/ `4 W( H7 W  C8 ]9 a- ?& u3 f" _
3 ^( l6 W5 k! K4 b/ E
 楼主| 发表于 2021-7-25 20:52:05 | 显示全部楼层
经过排查,应该是系统层间安装过ceph集群,没有清理干净。新版本还不知道怎么全部清除,还在测试中。
 楼主| 发表于 2021-7-25 20:59:12 | 显示全部楼层
[root@compute01 ~]# ceph status
0 k7 L% D- R* l4 t# z+ X/ G# E  cluster:
  N( \( ~) n; b    id:     4c1f752a-ed1a-11eb-8ce5-0025908471d69 J6 ?! I+ \( J
    health: HEALTH_WARN/ D7 N, N. r/ G) N: b
            2 failed cephadm daemon(s)
6 D. W; k+ `+ z! O- Q' k( b            clock skew detected on mon.compute01
6 z  D* s( u+ k% ^% J / v2 |3 a$ v: _2 F; Y
  services:
( ]/ \" H$ m0 a: I% x1 u# K    mon: 2 daemons, quorum controller,compute01 (age 3h), c3 C6 L: C7 Q
    mgr: compute01.getqhn(active, since 3h), standbys: controller.kxfttd
9 j$ f5 b4 ]" t: K9 Y% J    osd: 3 osds: 3 up (since 3h), 3 in (since 3h)! g2 ^6 ^8 @1 f3 u( Y5 y$ M. S- f. `& j
8 X8 B+ A8 K$ \& ?1 _
  data:( \& Y. k: c# }+ v& }" n4 d4 a
    pools:   1 pools, 1 pgs) x+ s+ d! h1 I* q; I' e! y+ b
    objects: 0 objects, 0 B0 v, w' O2 O& W! S) _( P, F
    usage:   3.0 GiB used, 1.2 TiB / 1.2 TiB avail
$ Q! m9 B7 |8 X3 S7 y4 @4 u, l, c1 a    pgs:     1 active+clean7 [7 P* T/ }$ J  g) R7 i
* n( M! V$ ?8 t7 Y7 h1 \

$ e( z$ ~5 b7 N. m9 D& G[root@compute01 ~]# systemctl status ceph-1e87bca4-e7ce-11eb-aa90-0025908471d66 q  d; o/ z4 e5 i3 T
ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service          ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service6 ~+ ?9 H0 B7 V; f
ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service     ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target* H9 P8 E! N; Z& M% a& g
ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service  6 s, ~6 u7 P/ J" y
[root@compute01 ~]# systemctl status ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6
1 \9 _6 \" |+ h* {: sceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service          ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service  G; ~" A- O, C+ k9 _- N# L0 e
ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service     ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target
: {6 j3 P  K* m& |) I9 Rceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service  
, a! v: N8 Q0 S+ o7 n; X- l8 T
1 X9 u. T/ `4 B: G( M3 o. e% Y3 @' ~4 b. U8 c
( |9 l! \1 c" F  V; C7 s4 y3 w

, o' E6 X- C( V& y1 e3 I3 z. h[root@compute01 ~]# systemctl disable ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service          ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service     ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service ) z' e6 }5 W% w) {. v
Removed [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service[/url].( r' {# S% u8 O# p+ U
Removed [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service[/url].
: J( U: e# @" w9 C3 eRemoved [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service[/url].
5 ]% h% @* y* B# n: B" iRemoved [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service[/url].
6 B0 ]* V" C/ c5 h. V% f0 z( J* U! _* Z! t
3 q/ X1 q* S9 w; B
[root@compute01 ~]# cd /var/lib/ceph
, j5 ]* Y! P. I, o( o; V& e) j! N, K1 H  B& C! j7 I
[root@controller ~]# cd /var/lib/ceph
9 @  k& p1 \( j: x1 G[root@controller ceph]# rm -rf 1e87bca4-e7ce-11eb-aa90-0025908471d6/
% s( ~$ _7 }1 b/ y% j+ P7 B$ s: x( q, y8 S4 e3 C  U
6 |, X/ J, y$ F( T, q' x! `
[root@controller ceph]# ceph status  ) C! @) m2 Q( l) W  o6 E" l
  cluster:2 W  Z" S2 m# n
    id:     4c1f752a-ed1a-11eb-8ce5-0025908471d6( r3 A. n: J3 V4 ]5 j/ y
    health: HEALTH_OK0 r0 K9 N3 F3 @6 o& r
+ d" R* m4 P' `! f
  services:! I* c5 `, i* H+ R; g" j) R% o
    mon: 2 daemons, quorum controller,compute01 (age 84s)/ T9 n! i, d6 O/ L+ q
    mgr: compute01.getqhn(active, since 30s)$ l" r7 W, v8 M4 |1 [
    osd: 3 osds: 3 up (since 14s), 3 in (since 4h)
- V; P# \" G4 g) h
/ Q3 E, h) U9 |3 G, d  data:, [0 ~. J) e. c8 M0 s
    pools:   1 pools, 1 pgs
; `( C$ ?/ {8 l( A9 m9 b8 E" k! X    objects: 0 objects, 0 B
4 M% _; A, M% ^; ^0 D) t    usage:   3.0 GiB used, 1.2 TiB / 1.2 TiB avail% k! M0 e- a- B: f" w/ i  P/ Y% ^8 x/ }
    pgs:     1 active+clean! o% q; r2 f/ ^% G, V% ]
& M2 B+ J0 \; |+ U
问题竟然解决。4 p, F9 P* X5 U4 ^% s0 g' w3 n
7 x( d5 c. Z7 Y; A! x: @5 }

点评

可能原因是因为生产了一个不一样的cluster_id导致信息不一致不对称引起。  详情 回复 发表于 2023-8-19 09:50
 楼主| 发表于 2023-8-19 09:50:20 | 显示全部楼层
admin 发表于 2021-7-25 20:59
* }+ S# k1 e/ P3 F! O- ~+ }[root@compute01 ~]# ceph status
9 f( N. A/ |8 n( K% ?  cluster:% m& ]. l: T- U+ q/ g2 _, ~
    id:     4c1f752a-ed1a-11eb-8ce5-0025908471d6

1 g/ C  [% n: v  a# E. `可能原因是因为生产了一个不一样的cluster_id导致信息不一致不对称引起。如果一个纯净的系统也出现这个问题,需要排除原因。
您需要登录后才可以回帖 登录 | 开始注册

本版积分规则

关闭

站长推荐上一条 /4 下一条

北京云银创陇科技有限公司以云计算运维,代码开发

QQ|返回首页|Archiver|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )点击这里给我发消息

GMT+8, 2026-4-8 21:30 , Processed in 0.051416 second(s), 27 queries .

Powered by Discuz! X3.4 Licensed

© 2012-2025 Discuz! Team.

快速回复 返回顶部 返回列表