易陆发现互联网技术论坛

 找回密码
 开始注册
查看: 170|回复: 4
收起左侧

ceph存储当mon节点全部出现问题的时候或者单独一个节点出现问题时恢复过程

[复制链接]
发表于 2024-10-18 08:30:57 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?开始注册

x
当mon节点全部出现问题的时候或者单独一个节点出现问题时恢复过程9 v8 e+ c! f2 Q9 ]; A0 @, g
; n+ I, t% E! G7 V/ O
: d7 k4 j- B* N5 u5 }& ?
ceph一直无法正常的执行ceph -s命令;4 j/ Y* m6 \; D% a
4 s* \. _" _2 @6 @; i

5 W0 q8 s0 `! K1 O
! u: x. A: i/ Q+ zceph分部署存储告警monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]1 O) n5 n7 W: ]% B

( I; b$ |6 P7 t) J. ~" S2024-10-17T22:33:47.295+0800 7f20fe7fc700 -1 monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]( J2 H( h! A" W. Q7 {1 C
2024-10-17T22:33:47.297+0800 7f20ff7fe700 -1 monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]
  X, |0 Z: J5 S1 f2 W# h& ^! x6 y! {8 x- [0 g0 ^
/ ^* a7 W/ m! ]/ J% Z8 B
7 S+ v) `3 J, z" d+ O+ \
环境中也就只有gm268-3节点因重启失败夯住是好的,gm268-1和gm268-2都已经被损坏。只能想办法从3上入手解决。
# f! ~$ A! m, H5 G) u: y! j0 w
" p1 f* X. `% _; x5 x+ P3 O& ^, c结果过程:- L9 Z1 u; Q- @5 o( [' Z
% {0 j1 R5 B5 V) _9 h
1、在gm268-3节点上导出monmap文件:& X1 D: J9 e0 f4 L) ]& ^

1 d. h; D6 D" `) z  u/ U4 a% g! O5 [% P  k7 E& S: f& ~' L' w
$ monmaptool --create --clobber --fsid ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9 --add gm268-3 10.12.3.2:6789 --add gm268-2 10.12.2.2:6789 --add gm268-1 10.12.1.2:6789 /tmp/monmap
- z- o- @7 E, L  W$ umonmaptool: monmap file /tmp/monmap
, `! E7 X& @% P7 {3 ymonmaptool: set fsid to ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9
% e5 r, [: j" @  l+ l8 N, Fmonmaptool: writing epoch 0 to /tmp/monmap (3 monitors)4 Y# I9 r8 W2 Y4 r

( R' H0 L* A$ E7 p) o' n1 t$ i0 J" I' p# |/ q' R. K* e, e
导出monmap,好的节点写在前面,后面把所有的坏节点加上就可以了。
5 `5 J0 n6 G! e
! O6 Z5 F" l7 M  U3 @查看下导出的文件信息:+ S2 u$ a. A8 E' m
( A1 J! d3 k/ d8 v4 t
$ monmaptool --print /tmp/monmap
; ]' A! w) p1 F! M# }monmaptool: monmap file /tmp/monmap
% T; ]: a$ ~$ C/ ^( V! O3 pepoch 0
$ E# X1 I) m% [3 M7 R! C. @fsid ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9
5 n) ~) U9 {1 H( y( J" Vlast_changed 2024-10-18T13:17:03.645872+08007 G0 b% o* j, d( x  P5 v2 d* Z
created 2024-10-18T13:17:03.645872+0800* w, N: h, t7 P( q% J% e/ p
min_mon_release 0 (unknown)
9 D8 e) d3 ]- [( \7 a0: v1:10.12.1.2:6789/0 mon.gm268-1
% V9 V+ g3 P, w" o1: v1:10.12.2.2:6789/0 mon.gm268-2! c7 A( }5 P- }# E
2: v1:10.12.3.2:6789/0 mon.gm268-3; L/ ?: s: o; t" F+ e; H
# q# N3 B$ y7 ^7 |1 ]: h. Y% d
5 R3 T9 _& V$ d3 g

5 r+ T; }, v: P. S; W$ c/ z) s; p2、去gm268-1和gm268-2的节点上找到/var/lib/ceph/mon 目录,备份下。删除掉。因为文件被修改了,导致文件有异常,没有导致认证出问题。原有的/etc/ceph/目录不能删除。+ o" U& [, m, S) P5 I" F

: e7 @5 I+ {) J+ `" W* D" I, a6 |+ H0 ?, y
3、将正常节点上keyring和导出的monmap文件传送到其他两个节点上:* h9 g8 P$ S! u: m) _

) l1 A6 D# I& x6 h3 O6 a- l scp /var/lib/ceph/mon/ceph-gm268-3/keyring  gm268-2:/tmp/0 y& h6 V7 k+ ?3 f9 ?1 [, I  q
scp /var/lib/ceph/mon/ceph-gm268-3/keyring  gm268-1:/tmp/
8 u8 F! }- i. q" r4 `& _7 c% l$ \/ j
scp /tmp/monmap  gm268-1:/tmp/
9 w" W: p+ C8 G( B# Pscp /tmp/monmap  gm268-1:/tmp/$ ]% c, }( \* k3 c! b7 D+ v3 w! i; z
; I" D$ ~2 N+ M5 @" z  I3 X. \

' S- K7 `8 a  T2 l3 F9 d+ B4、重做gm268-1和gm268-2 节点mon  , R( a! P% m# w: r9 W  Y
ceph-mon --cluster ceph -i gm268-1 --mkfs --monmap /tmp/monmap --keyring /tmp/keyring -c /etc/ceph/ceph.conf
/ I* a1 `, T0 T7 T( y
+ S1 j+ N) z/ f) z切换到/var/lib/ceph/mon目录下  O+ Q( {' S  Q; c: p7 i. S5 ?
执行:! G9 J( e5 C3 H  k0 _( u1 h
chown -R ceph:ceph mon/% W0 f1 O" i" p* H) o' [

' I- X( u1 e) O$ C8 f# E% m2 K% k启动mon服务:
! B$ V9 ]* S5 y+ qsystemctl start ceph-mon@gm268-1.service
" [5 s4 N* F( p1 ^7 E' P. r
9 P+ l/ R( J# o4 v8 V1 a$ o: m9 w查看服务:
0 o, c+ L: V. q" V+ S; e4 y& w' K- ]% B
$ systemctl status ceph-mon@gm268-1.service & w( |0 {+ c- R, V+ {- W
ceph-mon@gm268-1.service - Ceph cluster monitor daemon
1 O" a& {* I) Q9 S  r4 X' K3 Q" D   Loaded: loaded (/usr/lib/systemd/system/ceph-mon@.service; enabled; vendor preset: disabled)
& a5 Z: D2 _! @3 w( k) u3 U; n   Active: active (running) since Fri 2024-10-18 13:21:24 CST; 38min ago
- p* m& u4 e) o5 J" f8 j Main PID: 664542 (ceph-mon)
% `+ ^' H% y2 T% X8 |    Tasks: 27
" M8 ]8 d( C9 s: `& o   Memory: 286.0M; K% t7 N2 x8 |. R: ^
   CGroup: /system.slice/system-ceph\x2dmon.slice/ceph-mon@gm268-1.service
; K* A/ k  c6 |+ r           └─664542 /usr/bin/ceph-mon -f --cluster ceph --id gm268-1 --setuser ceph --setgroup ceph  l7 Q- g1 P& f1 s2 b% B

' B' u# `' F" R' Z1 J0 I( F2 mOct 18 13:21:24 gm268-1 systemd[1]: Started Ceph cluster monitor daemon.' {6 ]! {* f+ i9 X. U4 P/ u$ x
Oct 18 13:21:24 gm268-1 ceph-mon[664542]: 2024-10-18T13:21:24.793+0800 7fcc5f804700 -1 mon.gm268-1@0(probing) e11  stashing newest monmap 11 for next startup
" p% H. {5 b$ u7 [" JOct 18 13:21:24 gm268-1 ceph-mon[664542]: ignoring --setuser ceph since I am not root* {/ O. @1 t! h4 U
Oct 18 13:21:24 gm268-1 ceph-mon[664542]: ignoring --setgroup ceph since I am not root7 i3 k6 K5 L1 [2 l

3 e8 v# Q. R3 ^( x9 c& C( O( K4 i
& E. ?: t* {0 P! `! ^. Z" a节点修复完成。
3 }1 C0 Z, w0 R6 D* {节点二上$ @% C$ t$ c! `' [0 D! z

8 J9 X' M; y. W6 C+ H9 Jceph-mon --cluster ceph -i gm268-2 --mkfs --monmap /tmp/monmap --keyring /tmp/keyring -c /etc/ceph/ceph.conf 5 p1 R7 t  B: e/ b  K2 H
; t) O% X( v" X" Q1 ~# v6 n
切换到/var/lib/ceph/mon目录下3 E7 [) ~7 I& Y2 g; t9 L
执行:
5 W% j* P7 v1 X0 J( l( lchown -R ceph:ceph mon/3 A, _) k8 z% f0 U' d
/ Y( q, P! x# u8 U
启动mon服务:
% ^1 b. }0 b  `" K9 k7 Usystemctl start ceph-mon@gm268-2.service" l. U$ p) K( w' d5 c( Y4 G* S

8 ~, L. E- S1 Z% N- H6 g8 L1 t; h5 E' D' f
+ _: U9 s# n6 [8 ?) ^, g9 N1 ^
$ systemctl status ceph-mon@gm268-2.service
! _# A$ e9 K$ s7 i& eceph-mon@gm268-2.service - Ceph cluster monitor daemon3 N, Z1 e& W5 }! t. W2 e4 M3 t
   Loaded: loaded (/usr/lib/systemd/system/ceph-mon@.service; enabled; vendor preset: disabled)
  z( ^! L1 s* L: @: p; s   Active: active (running) since Fri 2024-10-18 13:09:42 CST; 51min ago; V' U, N" k2 m* R7 ]. j
Main PID: 157382 (ceph-mon)
7 t+ n5 A+ Q- w5 H3 {7 b3 p- u5 J    Tasks: 270 g5 P- V$ z$ X; w# d
   Memory: 587.1M
9 F( V9 e6 S; _. d   CGroup: /system.slice/system-ceph\x2dmon.slice/ceph-mon@gm268-2.service
/ y4 C/ y1 `* L: T/ K           └─157382 /usr/bin/ceph-mon -f --cluster ceph --id gm268-2 --setuser ceph --setgroup ceph
3 W1 `2 A( ^) ^$ r- r) c3 R9 W2 g% a. B! ^; ^8 B6 W, `" z2 F, P

9 k  w3 @+ }/ Q" f
 楼主| 发表于 2024-10-18 14:00:42 | 显示全部楼层
检查集群状态:
3 p0 L1 D! A0 r4 G; Z8 I7 m, [$ ceph -s1 w$ J# x* i1 A- ]1 ?& |
  cluster:
6 E- R3 _: ]- t7 y6 u& U; t    id:     ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9$ Y9 a) p3 J  p9 x& [* o& r+ p
    health: HEALTH_ERR4 R- _  ~: [$ Q/ `0 @2 L8 X. ]
            3 failed cephadm daemon(s)
# L1 G3 |" {! x. H' ^+ B. b            failed to probe daemons or devices
$ d4 x. ?# x# m5 j8 y            2 mgr modules have failed, X3 h; b1 O" |' D) p6 y  ?
            mon gm268-1 is low on available space
4 n3 L1 g3 O+ d% o  q            22 pgs not deep-scrubbed in time: ]( O4 Q0 e1 s6 p
            1 slow ops, oldest one blocked for 2805 sec, mon.gm268-3 has slow ops
! c5 k  s' a# L7 r& B- ]( k
# h. Q9 f( J/ e! r# }  services:
, A. k4 @! L* q3 ^" w8 N    mon: 3 daemons, quorum gm268-2,gm268-3,gm268-1 (age 39m)7 Y9 {8 {2 }+ V; [% i
    mgr: gm268-2.zttohs(active, since 51m), standbys: gm268-3.sjagqo, gm268-1.jgdvxs1 d& N- C% i7 j% h0 {
    mds: cephfs:1 {0=cephfs.gm268-3.ppyjrl=up:active} 1 up:standby# E" C/ c* F3 l" X
    osd: 41 osds: 41 up (since 46m), 41 in (since 20h); 185 remapped pgs
7 w  e! N3 u0 {3 C7 I# U4 _ & n' [$ o) b- P6 d! ^
  data:
$ l( S0 {. z8 W+ W    pools:   5 pools, 11265 pgs) W$ @, K' R* Q
    objects: 42.48M objects, 115 TiB7 r5 F1 I4 r# \- e+ J0 b$ b, |) y
    usage:   232 TiB used, 365 TiB / 597 TiB avail
" ?# k2 M9 ]; t2 a8 S/ i    pgs:     800589/84967110 objects misplaced (0.942%)
' J0 o# v7 o3 ^) G7 E$ L9 p             11080 active+clean. G3 F- h9 S' q" }2 U' U* Z
             184   active+remapped+backfill_wait
3 j5 W* J0 t3 ?) R             1     active+remapped+backfilling
9 ]2 Z3 l) \: F  l
4 ]2 ~, J  F! U5 R  io:) v8 X3 q( k: I& I" J+ w
    recovery: 22 MiB/s, 6 objects/s' K5 X& A/ O* F+ R# j
 楼主| 发表于 2024-10-18 14:04:28 | 显示全部楼层
以下是其他的地方处理过程:8 {4 G! I" L+ d% O) L6 J
ceph mon节点迁移5 m/ ^8 H$ x2 @8 j5 f6 J! D6 N. B
有时可能需要将ceph存储整机移动到不同的网络、数据中心的不同部分或完全不同的数据中心,甚至于新机房和老机房的网络都不是互通的,那么就需要使用离线迁移了。
& C0 ]) y/ a2 b
; I! |* c& H9 b" ?. X8 R1 h( W% w离线迁移主要涉及到的就是mon节点的改变。
4 w" _9 O) Q2 B; r5 d8 n, m; j  f解决方案是为集群中的所有mon生成具有新IP地址的新 monmap,并将新映射注入每个单独的mon5 ?! W3 O/ }# t  c, ^3 H
2 J* F* w$ m" g7 ]
获取集群当前monmap(搬迁前进行)3 M. J6 f% J, k- T
获取集群monmap这里又分为三种情况:Ceph mon能够形成仲裁;Ceph mon不能形成仲裁待至少有一个存活;所有的Ceph mon都已经损坏了。
1 i0 ~1 x3 m1 t) o! i( f7 p; G' S; Z% Y
如果剩余的 Ceph mon能够形成仲裁(多数存活),请使用 ceph mon getmap 命令获取 Ceph monitor map:6 y- K$ p8 t' d+ L2 W3 g+ S; L4 j

7 v9 i9 {) J+ e+ Mceph mon getmap -o /tmp/monmap
% {0 A9 D& q4 B5 X; N( H" U如果此时ceph的mon已经不能够形成仲裁了(多数mon挂了),那么在健康的正确的mon机器上通过如下步骤获取monmap
( I) ~8 h$ u& O+ y8 k8 W3 ?" A' P% f' c3 P) ]
// 停止您要复制 Ceph monitor map 的 Ceph 监控器
# z( k* G! _, |" }, `  h- B' p[root@mon ~]# systemctl stop ceph-mon@<host-name>% C- ]2 ]4 ?- _& T5 o
// 获得ceph monmap
. {# y; s8 ]# w# J( u" w/ }% `4 T+ W[root@mon ~]# ceph-mon -i ID --extract-monmap /tmp/monmap* o$ S4 E* r' C8 v0 M3 f
如果很不走运,所有的mon都损坏了,那么还有没有什么办法获取到集群的monmap,以至于恢复整个集群呢?
' C& i+ X9 G. J6 ]( u
( ?  y' \: [1 w8 |' p& i* p$ x1 B/ {当然,也是有的,可以借助ceph-monstore-tool和 ceph- objectstore-tool 这两个实用程序,通过 OSD 节点上存储的信息来恢复它,具体详情请参考: 使用 BlueStore 时恢复 Ceph monitor 存储
  [( p& w7 }( \. f4 s$ ~
! l+ R; W5 J5 w: r9 \* Z删除临时monmap中的老的mon1 B0 r5 L7 d$ N  h( @
# monmaptool --rm node1 --rm node2 --rm node3 /tmp/monmap
" x0 f2 z( p  v0 lmonmaptool: monmap file /tmp/monmap' e. f6 ]; \8 h/ c& A' Y
monmaptool: removing node1
, Y+ z, `7 j4 H! wmonmaptool: removing node2; w" j2 @  a. I& M# ~. n
monmaptool: removing node3' L! X9 V9 ~6 q' R9 F0 F! n
monmaptool: writing epoch 1 to  /tmp/monmap (0 monitors)
3 O+ F* O' S( @( X" g& ~$ v  Y; R! t向临时monmap中添加新的mon
5 ~7 d; o! c% Q# H  ?# monmaptool --add node1 192.168.244.44 --add node2 192.168.244.45  --add node3 192.168.244.46 /tmp/monmap: p2 v# s  n; k; ^. o/ D8 T# c- u! D
monmaptool: monmap file  /tmp/monmap
" J- f$ r' _4 t% `  Dmonmaptool: writing epoch 1 to  /tmp/monmap (3 monitors), E! x' ]9 _* x, j3 G  O+ y
停止所有mon服务并注入monmap
. T+ A5 U/ _- ~6 Q2 K. j8 H# t首先要先确保新的mon已经在新的服务器上安装起来了,然后stop掉mon进程,每个mon新节点都要执行
* D' [+ u/ I6 Q6 c+ Y* k5 Q
2 W8 J' D9 x) c& h+ b- kceph-mon -i {mon-id} --inject-monmap /tmp/monmap
( o5 M7 Z; R) K, g5 \, c2 ?5 v更新所有服务(mon,mds,client,mgr,osd等)的ceph.conf
8 D& B+ N/ f) w8 J4 H! a+ y( l这里需要注意的是如果新ip的网段也有变化的话,那么除了要更新ceph.conf文件中mon\_host信息,还要更新public network/cluster network的网段信息3 N4 K: p' B+ @4 f2 [; o/ R- X5 E- n

3 o2 d+ k/ j+ d) K, B+ Q同步的话可以通过ceph-deploy命令
/ p$ I( }: N  }, K1 P1 ]( d/ p* X# u' e/ T5 L4 V4 o/ A' D
ceph-deploy --overwrite-conf config push node{1..3}+ F) V. O2 n, W% \; }# V
关于上层服务$ K: r1 U& M2 n, ~- v) F- p
使用ceph底层存储的服务可能有虚拟机,k8s集群,如果ceph存储搬迁机房了,还需要服务之前的老的客户端,那么他们也需要做相应的变更, x& {! Z5 Z. K3 C4 p/ D

4 {/ d% d4 Z% K# }ceph文件系统直接挂载+rbd挂载
; @& L" i" P5 a5 I直接把新的ceph.conf同步到client节点就可以
 楼主| 发表于 2024-10-18 14:23:53 | 显示全部楼层

: y* w. f! |" t8 q. B: P其他文献解决办法:# l# p8 h0 W2 s
4 j% u6 M6 m; Q" k% g% }9 X
1 问题
0 b# l9 V2 O1 I. A% n8 ~. p& z% R
一般来说,在实际运行中,ceph monitor的个数是2n+1(n>=0)个,在线上至少3个,只要正常的节点数>=n+1,ceph的paxos算法能保证系统的正常运行。所以,对于3个节点,同时只能挂掉一个。一般来说,同时挂掉2个节点的概率比较小,但是万一挂掉2个呢?
! R3 {+ f  _* b2 P7 O! V- A9 L6 I2 u5 y0 e
如果ceph的monitor节点超过半数挂掉,paxos算法就无法正常进行仲裁(quorum),此时,ceph集群会阻塞对集群的操作,直到超过半数的monitor节点恢复。3 W6 E* \* K0 w( a

/ n, v* k% q" b6 sIf there are not enough monitors to form a quorum, the ceph command will block trying to reach the cluster. In this situation, you need to get enough ceph-mon daemons running to form a quorum before doing anything else with the cluster.2 t& l( v7 L2 V7 m" r1 L
4 a# g3 y0 _# w: }  P
; Q* [  }- N2 q+ w* y6 h: R6 O

1 [# e! ^& q7 g* D  {4 w所以,3 z1 S1 I( q& |3 j
8 g5 T; Z% B2 N$ V: f; J
(1)如果挂掉的2个节点至少有一个可以恢复,也就是monitor的元数据还是OK的,那么只需要重启ceph-mon进程即可。所以,对于monitor,最好运行在RAID的机器上。这样,即使机器出现故障,恢复也比较容易。$ @4 ~, {8 q. `- o
2 F5 A; r" b# }3 j1 ?. R
(2)如果挂掉的2个节点的元数据都损坏了呢?出现这种情况,说明人品不行,2台机器的RAID磁盘同时损坏,这得多背?肯定是管理员嫌工资太低,把机器砸了。如何恢复呢?
3 A! J: A1 o* `/ I4 {* c- n: g+ v
/ x1 e; r, U+ [) s# o/ U8 v2 恢复& \8 I  ?# ?: d# ~* f0 K
其实,也没有其它办法,只能想办法将故障的节点恢复,但元数据已经损坏。幸好还有一个元数据正常的节点,通过它可以恢复。
. ^8 a3 c" v- g2 z9 @
  T+ D$ `$ T6 o# k, p7 U* c
; ]6 G1 J+ ?/ B% n6 p# a
6 R$ F. C+ |, L添加monitor的步骤:- a( O. ^7 R4 n4 x
/ _" b% w+ P4 L6 k
$ ceph mon getmap -o /tmp/monmap           # provides fsid and existing monitor addrs  J) i$ w' m/ i
* \7 G0 b7 e. E' M) m# d0 g9 Z
$ ceph auth export mon. -o /tmp/monkey     # mon. auth key
$ F. W; e0 b2 k' [  }! l9 Z# L# T: p* h
$ ceph-mon -i newname --mkfs --monmap /tmp/monmap --keyring /tmp/monkey
6 z. z3 E/ w( t
% b: y9 H2 D& @, R所以,只要得到monmap,就可以恢复monitor了。# ]- w1 T) F& q4 S& a
, |" [" a- D# c! j* K7 t$ G2 n
为了模拟,考虑2个monitor节点,挂掉一个,此时通过网络访问ceph的所有操作都会被阻塞,但monitor的本地socket还是可以通信的。5 ]2 x$ z$ v: P/ |

& _8 y) s( u8 y$ e3 UNewImage9 S, _4 L6 n) {& d$ O: ~+ R

% x. `* L# E" q) ?7 ?. p% N" B: q # b' ^* V- @# H* b, K
* O+ S3 K2 u/ l+ X3 [4 P
但是,让人蛋疼的是通过socket不能进行monmap的导出。不过,幸好有monmaptool工具,通过它,我们可以手动生成(注意fsid):
6 t, V/ {) Y) _6 ?! a9 h: f5 a" e& H% H- s4 p: p+ }
# monmaptool  --create  --add vm2 172.16.213.134:6789 --add vm3 172.16.213.135:6789 --fsid eb295a51-ec22-4971-86ef-58f6d2bea3bf --clobber monmap
) l" E' I2 \. o: _$ W. V: L8 `2 k/ l% d3 j% i
monmaptool: monmap file monmap& N6 G2 y% }7 R" [5 A8 m5 H
# E8 b, K4 c  v; k/ k# M
monmaptool: set fsid to eb295a51-ec22-4971-86ef-58f6d2bea3bf
) P: C" K( O7 F+ C" J# }- ]* ~
monmaptool: writing epoch 0 to monmap (2 monitors)
/ P6 F  J9 b' c# B& |6 V
$ H4 [6 p, G& p8 d  D8 E将正常monitor节点的mon key拷贝过来:( z9 c/ I) {- u5 P* l

3 z, S- R: ^% p2 h3 v3 o  e8 ~/ m# cat /var/lib/ceph/mon/cluster1-vm2/keyring
/ o7 v* g1 Z+ n+ y( w5 ]6 U% j9 m' F& A- ^& }/ D, {5 d5 F
[mon.]
5 J. K. z' n) H, ^( l* t: Q' b+ t' h+ v7 A% }5 q; T! Y: {: C
        key = AQDZQ8VTAAAAABAAX9HqE0NITrUt7j1w0YadvA==
2 u6 r/ Q, h2 |+ \
' Y( O' b: R2 L' {& B        caps mon = "allow *"
1 `1 N: S. h' W' e; s* N, Y/ y. z4 W; l7 M) A

. d$ s4 @$ W! r1 @, m" U7 d9 e$ S
然后初始化:
& X1 I: L1 X6 D7 G7 w
3 `' J/ \! ~% W/ o. z# ceph-mon --cluster cluster1 -i vm3 --mkfs --monmap /root/monmap --keyring /tmp/keyring
& @4 y* G; U& D3 j# ]1 _, X) f# f2 L- _9 O- t! X9 n. t
ceph-mon: set fsid to eb295a51-ec22-4971-86ef-58f6d2bea3bf
+ n; L% s9 Y/ `- B, _# l& J, j2 }, U7 u0 g; P, E+ ]7 M
ceph-mon: created monfs at /var/lib/ceph/mon/cluster1-vm3 for mon.vm3
0 e1 ?/ F0 j3 W1 r5 w
' V/ u0 C' p" k6 w最后,启动故障节点:# b4 L6 V/ M% U' |- C9 Q

2 }0 l. N) T, p) Z! _7 v6 Z# ceph-mon --cluster cluster1 -i vm3 --public-addr 172.16.213.135:6789
! W2 i* }) _1 ]! Y% `  b$ {8 A3 y8 |* W1 j4 P0 v" l
# T5 U5 d7 `; t
9 q# T6 Q$ I- u9 E8 o. B
NewImage
% b% \) q8 l! z2 U& o' c8 U( I: N9 s* r, G
一切OK!
 楼主| 发表于 2024-11-2 15:49:58 | 显示全部楼层
最近还发现一个问题就是一个节点上存在磁盘空间超过80%之后,mon的服务也会停止。这个很隐形的问题。需要注意。
您需要登录后才可以回帖 登录 | 开始注册

本版积分规则

关闭

站长推荐上一条 /4 下一条

北京云银创陇科技有限公司以云计算运维,代码开发

QQ|返回首页|Archiver|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )点击这里给我发消息

GMT+8, 2026-4-9 00:00 , Processed in 0.053964 second(s), 21 queries .

Powered by Discuz! X3.4 Licensed

© 2012-2025 Discuz! Team.

快速回复 返回顶部 返回列表