找回密码
 注册
查看: 3963|回复: 3

HEALTH_WARN 1 failed cephadm daemon(s)

[复制链接]

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
发表于 2021-7-25 20:37:36 | 显示全部楼层 |阅读模式
HEALTH_WARN 1 failed cephadm daemon(s)* B; J, Q0 q" B" |8 ^
ceph health detail1 `- c4 f4 c% E, o
HEALTH_WARN 2 failed cephadm daemon(s)$ A( S9 G# _2 c9 l9 U" Z* |5 }- C
[WRN] CEPHADM_FAILED_DAEMON: 2 failed cephadm daemon(s)
% Z' Z- G! ^% N/ {; R    daemon alertmanager.controller on controller is in error state7 p! ]* r) s4 V1 I* ^' D& I
    daemon grafana.controller on controller is in error state
/ ?3 T3 t" }7 _- b6 b  c. I7 n$ {: [2 }6 O8 h
; f; V( y2 s7 i: n* Y6 m

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2021-7-25 20:52:05 | 显示全部楼层
经过排查,应该是系统层间安装过ceph集群,没有清理干净。新版本还不知道怎么全部清除,还在测试中。

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2021-7-25 20:59:12 | 显示全部楼层
[root@compute01 ~]# ceph status
0 Q3 P( C8 b  U* v3 `5 ^' B  cluster:9 n4 \, V0 r9 f' w# q. G+ l: |
    id:     4c1f752a-ed1a-11eb-8ce5-0025908471d6
9 I2 g* V4 U. }. _    health: HEALTH_WARN$ |0 c) k% ~* v
            2 failed cephadm daemon(s)+ Z5 \( l/ ]# u! [# W& q* y
            clock skew detected on mon.compute016 n4 J1 d6 Z- m$ t% {

, X1 m& M" b8 Y  services:
* v% Y  s4 R6 u: Q. d4 f: I    mon: 2 daemons, quorum controller,compute01 (age 3h)! i9 F- B4 h! q; R. N
    mgr: compute01.getqhn(active, since 3h), standbys: controller.kxfttd9 D% c. m/ o& ]
    osd: 3 osds: 3 up (since 3h), 3 in (since 3h)
% r7 y  Z+ g' H: K1 p& j8 E& D4 o
% _0 `* J6 p) [) i& r4 q0 Q  data:
) W' r2 q" ]5 D; U; K    pools:   1 pools, 1 pgs
+ V8 q: a7 ]/ \# P3 i  q/ p    objects: 0 objects, 0 B3 I6 ^7 N- W3 R* C) S) r& A
    usage:   3.0 GiB used, 1.2 TiB / 1.2 TiB avail) V, ~$ ?+ ]3 u6 L6 X6 C
    pgs:     1 active+clean
6 L$ r" {8 G" ^* S5 Y4 g5 X. F
8 D: I2 c" T) P2 n9 B( H# x2 H/ j% M7 B* w/ p8 l  R
[root@compute01 ~]# systemctl status ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6
2 f; v" |" P7 |+ Bceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service          ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service1 N: Q0 E, \% l/ D' }: [
ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service     ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target
; J. e9 X% i8 J5 a( fceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service  
# m; [' Y* z3 k$ @, o4 r[root@compute01 ~]# systemctl status ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6) O! |; P. |1 A# }7 G  \
ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service          ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service- ^2 C1 C& U" `
ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service     ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target
) w. l7 K+ p# m; C, Rceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service  
! F* H+ x" q* f, l+ W+ G  j' `: r8 b+ |
6 S# V8 v" i( j: y) I, @
3 W% v; N# H; P" M5 B) h% ]9 r7 S. `! A  l6 P' h& V& Y( ?
8 S" Y4 {- g+ M9 d; P
[root@compute01 ~]# systemctl disable ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service          ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service     ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service 5 E& T8 k+ q; I; T6 g0 k
Removed [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@crash.compute01.service[/url].
1 N+ J& k6 i8 Z* S, j3 WRemoved [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@mgr.compute01.bunbzp.service[/url].$ J4 ~: M4 f6 M: w
Removed [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@node-exporter.compute01.service[/url].
* i0 y1 I8 c8 z4 M9 ?# L& TRemoved [url=]/etc/systemd/system/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6.target.wants/ceph-1e87bca4-e7ce-11eb-aa90-0025908471d6@osd.0.service[/url].
  H* }$ q0 A/ t. Q; S
" {0 p* `9 J3 z" S* y1 ~9 u8 B, x8 I& m
[root@compute01 ~]# cd /var/lib/ceph. g( p9 B2 x1 w+ [$ N3 a
: C' j0 h* t" k7 C( M9 ~) p
[root@controller ~]# cd /var/lib/ceph! X5 {5 W6 X( Z% h; g6 K3 j8 d
[root@controller ceph]# rm -rf 1e87bca4-e7ce-11eb-aa90-0025908471d6/$ h( Y' D- Q  S/ K

' V- \# |1 ^( d$ B8 D4 [
3 D9 V8 ~" k- d+ A. P! n; }0 g[root@controller ceph]# ceph status  $ _9 m1 `% D! J
  cluster:
' z% O- ?- R2 ~; w8 c. l    id:     4c1f752a-ed1a-11eb-8ce5-0025908471d6
4 I, y7 \; V2 t6 l    health: HEALTH_OK+ s2 L6 T8 E  @
. R/ [6 B. a! ~5 }2 y. O, s6 l
  services:
) i6 b. P1 u* R  Y6 _    mon: 2 daemons, quorum controller,compute01 (age 84s)
+ S" K  j2 t- R( b# ?$ S& B    mgr: compute01.getqhn(active, since 30s)
1 \, g4 L2 A$ E+ c! e    osd: 3 osds: 3 up (since 14s), 3 in (since 4h)
8 _' u# k& E+ \2 N8 m
% `. d' [6 C) f- T. u) x  data:
) Q  V. ]1 Y7 H, S/ O5 i  K    pools:   1 pools, 1 pgs7 B- J/ x9 f! w0 Z: W
    objects: 0 objects, 0 B3 u8 u! Q1 c! x. _( F/ M6 ?$ N
    usage:   3.0 GiB used, 1.2 TiB / 1.2 TiB avail  M# E. P, B9 \8 Q& ^1 X4 y
    pgs:     1 active+clean
1 f* B; I! Y! g8 j% \
, p/ o; j& w& Q问题竟然解决。
' n/ o' `$ v, X  Z4 q! E7 O! @. y0 Q4 Y4 j) W/ z

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2023-8-19 09:50:20 | 显示全部楼层
admin 发表于 2021-7-25 20:59
  J9 S- \9 D: B3 @[root@compute01 ~]# ceph status" K! D" g& T7 w
  cluster:+ H) d# p5 e* @" d3 X
    id:     4c1f752a-ed1a-11eb-8ce5-0025908471d6
' r4 P, m) _+ {4 ^2 [
可能原因是因为生产了一个不一样的cluster_id导致信息不一致不对称引起。如果一个纯净的系统也出现这个问题,需要排除原因。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

返回首页|Archiver|手机版|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )

GMT+8, 2026-6-12 00:11 , Processed in 0.017445 second(s), 26 queries .

Powered by Discuz! X5.0

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表