找回密码
 注册
查看: 176|回复: 4

ceph存储当mon节点全部出现问题的时候或者单独一个节点出现问题时恢复过程

[复制链接]

0

主题

0

回帖

9

积分

管理员

积分
9
QQ
发表于 2024-10-18 08:30:57 | 显示全部楼层 |阅读模式
当mon节点全部出现问题的时候或者单独一个节点出现问题时恢复过程
" N! H) E* r- R  S/ Y% h3 @/ R/ w0 B* p& J. x. i; E+ v" _( `

0 }5 V2 M) O' H. N' D% {0 zceph一直无法正常的执行ceph -s命令;
8 g2 K9 ?' s& x$ r! P; W- A$ ]
0 g* P2 S" h. I8 V, ^: t' K5 L
# z: K; y9 W5 a* w5 S5 ^
) j5 O) d7 K0 r/ I6 iceph分部署存储告警monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2], N& S/ W$ y0 Y; Q. e
" a7 H) X% j6 H8 @3 v
2024-10-17T22:33:47.295+0800 7f20fe7fc700 -1 monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]5 G: F$ A/ K- M, [  K3 d
2024-10-17T22:33:47.297+0800 7f20ff7fe700 -1 monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]1 t$ L+ M5 N3 p0 F! q

2 \1 N% C3 P3 P8 R. J2 g' t. `1 h- O% a4 Y
& f: u' l0 U# e! |9 j
环境中也就只有gm268-3节点因重启失败夯住是好的,gm268-1和gm268-2都已经被损坏。只能想办法从3上入手解决。9 @- ?' P; {- h( ?% g4 b' Q( G- p
, k6 `. b3 z1 j# R
结果过程:
( c. `7 ]0 o; n5 ^( L
4 Y: z9 {- [8 d  Y5 I1、在gm268-3节点上导出monmap文件:
  f  p* q2 f; g+ X  f$ T
) Z) e2 P* r2 f7 S1 j( _% [0 W& h+ K' R6 D
$ monmaptool --create --clobber --fsid ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9 --add gm268-3 10.12.3.2:6789 --add gm268-2 10.12.2.2:6789 --add gm268-1 10.12.1.2:6789 /tmp/monmap$ D! E/ J" e) q& k, B
monmaptool: monmap file /tmp/monmap
* T9 t9 ]7 O) W, d+ K5 z# Emonmaptool: set fsid to ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9
9 J% q; \) v# n2 W. I: J+ I. `monmaptool: writing epoch 0 to /tmp/monmap (3 monitors)
* \8 Q  B; S) \8 L
) C8 ~5 @" U' t7 t  O. A
) j" w. c" R! B2 U' [7 v导出monmap,好的节点写在前面,后面把所有的坏节点加上就可以了。
3 O- u1 V4 _6 {# W( I
5 E1 L9 z/ S" `- D# p/ P查看下导出的文件信息:
% `: I1 f' P: u) y
- A* J: O# t9 j$ e$ P$ monmaptool --print /tmp/monmap
' \2 J5 C% {7 b/ Y) B3 Q; bmonmaptool: monmap file /tmp/monmap; M* n0 k8 S. P5 _( n1 G% p( t
epoch 0
4 u* Z- i" V# V6 Mfsid ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9
2 N% z4 i* t8 C( b/ J$ Q0 x# o9 ?: u- flast_changed 2024-10-18T13:17:03.645872+0800
& k' R9 g& ~7 Q- o, Z) acreated 2024-10-18T13:17:03.645872+08006 I, r* S& h+ `& w5 g
min_mon_release 0 (unknown)* k9 [( E3 j% e& {9 C( @1 v
0: v1:10.12.1.2:6789/0 mon.gm268-1. p$ b$ _2 S' }! Y8 l2 F/ \( E
1: v1:10.12.2.2:6789/0 mon.gm268-2' E1 M" y* r/ B& x4 o
2: v1:10.12.3.2:6789/0 mon.gm268-3( [' E5 Z) u& R! p6 r

4 e9 f/ b. e( ~& G# l8 g- o1 r5 `: e# Q( s) H
9 q" L6 s3 ~0 ~* ~8 m6 f3 o+ v. p
2、去gm268-1和gm268-2的节点上找到/var/lib/ceph/mon 目录,备份下。删除掉。因为文件被修改了,导致文件有异常,没有导致认证出问题。原有的/etc/ceph/目录不能删除。
6 z" f7 [4 x" ]  O5 h1 S8 j# u5 J7 h# L- V

9 D# N, |: i# B$ j7 q9 x3、将正常节点上keyring和导出的monmap文件传送到其他两个节点上:
6 {" Y! T9 p* r5 \1 f2 h& l
% ~8 W6 B, Y) W: V3 m' u1 m scp /var/lib/ceph/mon/ceph-gm268-3/keyring  gm268-2:/tmp/
( v$ u9 p# o' X' {" Mscp /var/lib/ceph/mon/ceph-gm268-3/keyring  gm268-1:/tmp/
+ ~6 K: \+ e0 [3 q/ L6 K; x/ N
& K1 ^* G# Q2 \5 G4 x: J, ?scp /tmp/monmap  gm268-1:/tmp/! l4 W+ p3 K: a. n8 \2 l
scp /tmp/monmap  gm268-1:/tmp/9 K, V3 F5 O! w" Z+ g) o) n
$ y1 v8 P4 U: r- |* ~# A* O
& x( N. R2 @! ]+ }# h% X
4、重做gm268-1和gm268-2 节点mon  6 T% }, R* f4 ?
ceph-mon --cluster ceph -i gm268-1 --mkfs --monmap /tmp/monmap --keyring /tmp/keyring -c /etc/ceph/ceph.conf ' |2 r1 u. X: i: L; ?  ~7 Z
" Z. [5 ^3 b: k9 ]
切换到/var/lib/ceph/mon目录下
* ?/ w; I) }# p& F0 M: [: S执行:
6 _0 |7 U+ {' o7 |chown -R ceph:ceph mon/6 A7 {5 S+ |. o  ^+ t. S1 c7 Y
+ ~* a- p  \9 k7 l4 Q4 F9 }
启动mon服务:
* c7 @# V0 B& O+ ksystemctl start ceph-mon@gm268-1.service8 W! ~) X- \8 l: r: k5 E

/ x! h  R5 ~% e查看服务:
% m1 |- |: P  Z3 ~& @+ x& C9 H3 ~- `* o; \+ T; }( b
$ systemctl status ceph-mon@gm268-1.service ( D$ E' G' }' O  E$ e5 R$ \% K
ceph-mon@gm268-1.service - Ceph cluster monitor daemon4 i9 Y  D+ E% y# E+ o8 O& Y
   Loaded: loaded (/usr/lib/systemd/system/ceph-mon@.service; enabled; vendor preset: disabled)
& E* }' P) X# J% O+ N/ j   Active: active (running) since Fri 2024-10-18 13:21:24 CST; 38min ago
" `6 a6 `( k3 b& Z: I( w4 S Main PID: 664542 (ceph-mon)
) G- h9 f( N6 j6 T- g: d    Tasks: 27
  ~/ P) F6 K$ r. {7 j* t   Memory: 286.0M
5 |8 n  J- c2 c& Y   CGroup: /system.slice/system-ceph\x2dmon.slice/ceph-mon@gm268-1.service
' Z) {1 Y0 U# j9 q( L           └─664542 /usr/bin/ceph-mon -f --cluster ceph --id gm268-1 --setuser ceph --setgroup ceph2 Y5 \# q3 @: W( {$ I
. o; P& D8 a# e1 E" T/ S  Q
Oct 18 13:21:24 gm268-1 systemd[1]: Started Ceph cluster monitor daemon.: f. O. b9 X0 w. A8 @9 s% U' X! C7 v
Oct 18 13:21:24 gm268-1 ceph-mon[664542]: 2024-10-18T13:21:24.793+0800 7fcc5f804700 -1 mon.gm268-1@0(probing) e11  stashing newest monmap 11 for next startup
# z  P3 Z, \6 g; J1 Z. gOct 18 13:21:24 gm268-1 ceph-mon[664542]: ignoring --setuser ceph since I am not root( r9 _$ H* }+ P! L! U% U+ g
Oct 18 13:21:24 gm268-1 ceph-mon[664542]: ignoring --setgroup ceph since I am not root& ^  f$ }3 a; k2 U/ i5 u: A5 b
2 A7 ^' G- u7 ^* }; U0 m, N

6 O/ b0 r5 Y5 b1 L节点修复完成。, U$ ]: c, i, ?; B3 K: f: I2 E
节点二上3 t/ s- }1 q8 |0 ^
; F. A: K  F6 _$ H' v, q( |( L
ceph-mon --cluster ceph -i gm268-2 --mkfs --monmap /tmp/monmap --keyring /tmp/keyring -c /etc/ceph/ceph.conf
7 e1 s4 w) _$ ]3 ~8 C& U- V1 Z' M. [! }4 H* o
切换到/var/lib/ceph/mon目录下3 }" O; E; F0 C5 Q8 {! _: C
执行:3 _& U4 c, f1 h/ c% Z0 K
chown -R ceph:ceph mon/+ V! z3 Y. l7 d3 ~5 P8 p2 }
3 {. L( i' C( |) P0 Q5 `  \
启动mon服务:
' k! R6 N% D" p& ~% E$ x3 [systemctl start ceph-mon@gm268-2.service) M3 _4 q( t* U  Y; H8 d

' W. {8 o- Q$ B. k# _9 Q5 N3 a5 V" a) O& ?( _

5 U; N# p" x* T1 k/ @4 B; y$ systemctl status ceph-mon@gm268-2.service # \" a( V; _* e3 A
ceph-mon@gm268-2.service - Ceph cluster monitor daemon
, Y5 t# S4 y( ]. _9 J   Loaded: loaded (/usr/lib/systemd/system/ceph-mon@.service; enabled; vendor preset: disabled)0 c& x9 I/ J* x' l6 O
   Active: active (running) since Fri 2024-10-18 13:09:42 CST; 51min ago) t0 P. ]' e6 [7 R- B4 i+ O7 [6 I+ ~- `
Main PID: 157382 (ceph-mon)
' }! Q- x$ |' G8 R- i) I    Tasks: 27$ Y! ]; Z4 k  [# i' S- y3 |
   Memory: 587.1M
" E) E2 k$ r3 t   CGroup: /system.slice/system-ceph\x2dmon.slice/ceph-mon@gm268-2.service
2 ~8 ~2 w1 |( _; a. c           └─157382 /usr/bin/ceph-mon -f --cluster ceph --id gm268-2 --setuser ceph --setgroup ceph
- S: }) R/ \2 g, s! A8 \8 U' u$ Y- i: ^7 B( S

) q+ A& k& S5 S* R9 I5 X" l: e

0

主题

0

回帖

9

积分

管理员

积分
9
QQ
 楼主| 发表于 2024-10-18 14:00:42 | 显示全部楼层
检查集群状态:% Q, f7 ~% d4 A/ S
$ ceph -s* B+ K8 G* N1 L: z; J* w* ~
  cluster:
4 x' |9 C+ i4 o0 x# @9 F    id:     ce68aab8-8f46-11ed-88c0-ac1f6b3a30b92 Y) I0 l6 l& A/ i' ^% O
    health: HEALTH_ERR1 W, T7 r! S; z' j
            3 failed cephadm daemon(s)
. M" V2 N2 x5 {& R' Z0 N2 K            failed to probe daemons or devices
& u; [" K; l2 P6 o            2 mgr modules have failed
, r7 M8 e( n9 i            mon gm268-1 is low on available space1 A# ^( ]1 a+ d  q7 f
            22 pgs not deep-scrubbed in time" t8 R0 a. X; m- L1 k) Y$ W
            1 slow ops, oldest one blocked for 2805 sec, mon.gm268-3 has slow ops
* D9 U+ ~; J5 i, p' b
- [  u- \& t6 n; h  services:
7 e% t6 [0 v0 b4 x- g: a4 H' H    mon: 3 daemons, quorum gm268-2,gm268-3,gm268-1 (age 39m)
9 T; k+ ~# D8 O% {- ^, e" s    mgr: gm268-2.zttohs(active, since 51m), standbys: gm268-3.sjagqo, gm268-1.jgdvxs
9 K7 S3 ^; s6 ^& C' q    mds: cephfs:1 {0=cephfs.gm268-3.ppyjrl=up:active} 1 up:standby% N  v8 g: B% _+ S% m
    osd: 41 osds: 41 up (since 46m), 41 in (since 20h); 185 remapped pgs
4 D* {# @2 y; ]5 N9 O, X; G ! K: }$ y0 Q6 m
  data:
) x% U3 L, d1 u( P4 [    pools:   5 pools, 11265 pgs8 V/ p# X4 s" b% |
    objects: 42.48M objects, 115 TiB4 r0 }# U0 w2 h
    usage:   232 TiB used, 365 TiB / 597 TiB avail* q3 C. s. j& H9 Y* h  j
    pgs:     800589/84967110 objects misplaced (0.942%)
) R0 F- g5 ?3 q: E! ~, S             11080 active+clean
" V9 z' W: t: A. w7 G             184   active+remapped+backfill_wait8 {4 y& n; S7 G9 C$ S" ~
             1     active+remapped+backfilling$ I- I% ]! R( n0 q4 j
! W: E" c$ _) e' [0 k' T" n
  io:
0 t1 H+ {5 L! q5 G. \2 l0 `    recovery: 22 MiB/s, 6 objects/s
6 d6 @2 q7 |3 @- M: ^

0

主题

0

回帖

9

积分

管理员

积分
9
QQ
 楼主| 发表于 2024-10-18 14:04:28 | 显示全部楼层
以下是其他的地方处理过程:+ l) O1 H/ E1 @! v1 g2 ^
ceph mon节点迁移6 n! t6 w6 T! y( s
有时可能需要将ceph存储整机移动到不同的网络、数据中心的不同部分或完全不同的数据中心,甚至于新机房和老机房的网络都不是互通的,那么就需要使用离线迁移了。+ X& X4 ?" a* v' j% ~% I9 E; {
) ^0 V& @0 u, K/ `2 ^$ V
离线迁移主要涉及到的就是mon节点的改变。3 u" a/ s$ G( o: J
解决方案是为集群中的所有mon生成具有新IP地址的新 monmap,并将新映射注入每个单独的mon
* n# C9 ]/ P; S# z- c8 i) Z2 p. w) b$ q
获取集群当前monmap(搬迁前进行)5 z5 Q2 ]) F2 f! E  y; u) ~
获取集群monmap这里又分为三种情况:Ceph mon能够形成仲裁;Ceph mon不能形成仲裁待至少有一个存活;所有的Ceph mon都已经损坏了。
' U- N5 C4 G& j: z
0 I( h; A* U  a; J4 r7 u2 t. v如果剩余的 Ceph mon能够形成仲裁(多数存活),请使用 ceph mon getmap 命令获取 Ceph monitor map:$ c6 Y9 x% k4 o) B: Q4 G7 l. Y4 [5 l

' j4 J! X( I  qceph mon getmap -o /tmp/monmap
5 [  y( V" y2 }) `如果此时ceph的mon已经不能够形成仲裁了(多数mon挂了),那么在健康的正确的mon机器上通过如下步骤获取monmap
3 u- U8 q: q% u8 o" [6 ]% ^1 o. h& c# N) n8 X9 L" B
// 停止您要复制 Ceph monitor map 的 Ceph 监控器. z( W8 b" d. y
[root@mon ~]# systemctl stop ceph-mon@<host-name>7 o- D: Z2 P1 o! Q: S
// 获得ceph monmap* [: t" ], t& N8 z+ g9 K) d
[root@mon ~]# ceph-mon -i ID --extract-monmap /tmp/monmap% E/ {$ ~8 B3 Q% B( f
如果很不走运,所有的mon都损坏了,那么还有没有什么办法获取到集群的monmap,以至于恢复整个集群呢?' U" u' N0 D; ]4 v) H. Z
& C1 h2 k5 k( l  j& D" r
当然,也是有的,可以借助ceph-monstore-tool和 ceph- objectstore-tool 这两个实用程序,通过 OSD 节点上存储的信息来恢复它,具体详情请参考: 使用 BlueStore 时恢复 Ceph monitor 存储
$ ?: T# }" a0 ?' f) ?5 O) A
2 G1 t0 Z- o; o4 a删除临时monmap中的老的mon" D  m0 J* [" ?, V8 _
# monmaptool --rm node1 --rm node2 --rm node3 /tmp/monmap
' D9 E! C4 I7 G6 i1 R3 rmonmaptool: monmap file /tmp/monmap
6 L* _" N3 L$ e; X$ o  Fmonmaptool: removing node1
, p  O8 }6 b) m8 u0 u. Emonmaptool: removing node2
0 y5 R$ N! ]3 p3 l$ omonmaptool: removing node31 {" b+ y, o- @* P) b
monmaptool: writing epoch 1 to  /tmp/monmap (0 monitors)3 L5 ?0 ]. u: Y/ B2 r& G9 V
向临时monmap中添加新的mon
, f7 |4 \/ o: u$ ^2 i, U# monmaptool --add node1 192.168.244.44 --add node2 192.168.244.45  --add node3 192.168.244.46 /tmp/monmap2 i1 Z6 Y% U7 B% H2 L' n
monmaptool: monmap file  /tmp/monmap$ {; r. J5 A1 v2 ]; N- p$ {4 b5 z- a
monmaptool: writing epoch 1 to  /tmp/monmap (3 monitors)
; }6 O" B) r" X4 A6 r停止所有mon服务并注入monmap
0 n8 G/ q# A9 p! S# p& u( E首先要先确保新的mon已经在新的服务器上安装起来了,然后stop掉mon进程,每个mon新节点都要执行
  R$ [: K7 e$ \( g* ?+ h4 S+ D; e* i! E5 K
ceph-mon -i {mon-id} --inject-monmap /tmp/monmap
  y7 H$ ]# @( Q0 \更新所有服务(mon,mds,client,mgr,osd等)的ceph.conf
8 y/ S$ A) p4 [$ B6 t这里需要注意的是如果新ip的网段也有变化的话,那么除了要更新ceph.conf文件中mon\_host信息,还要更新public network/cluster network的网段信息' N# T( @$ a% ^5 e$ F
- O3 b6 P  Z* j, b
同步的话可以通过ceph-deploy命令" D) L" U7 ~, N) k

2 ^- }  x* b) Y8 B+ rceph-deploy --overwrite-conf config push node{1..3}  C. C8 w" R  N6 M' T0 o: ~
关于上层服务& t4 h0 i1 k4 ]1 F% W( Y) L7 x
使用ceph底层存储的服务可能有虚拟机,k8s集群,如果ceph存储搬迁机房了,还需要服务之前的老的客户端,那么他们也需要做相应的变更, A8 o+ z! b- _; i

, o3 \# m0 o4 ^% A6 V* u. Qceph文件系统直接挂载+rbd挂载. W( O3 @7 l1 g9 ]8 ~$ B6 J- s( h6 \
直接把新的ceph.conf同步到client节点就可以

0

主题

0

回帖

9

积分

管理员

积分
9
QQ
 楼主| 发表于 2024-10-18 14:23:53 | 显示全部楼层

- Z( R: D9 h- b6 a其他文献解决办法:
4 \* J% [) t0 a, k$ }% A
5 \5 H# a$ D' M7 V1 D& `, g1 问题
0 @% G( b" i+ L. d% {* L3 l( @3 W2 o1 Y5 e4 V& J( z% F
一般来说,在实际运行中,ceph monitor的个数是2n+1(n>=0)个,在线上至少3个,只要正常的节点数>=n+1,ceph的paxos算法能保证系统的正常运行。所以,对于3个节点,同时只能挂掉一个。一般来说,同时挂掉2个节点的概率比较小,但是万一挂掉2个呢?
: V+ L4 \/ I& r1 N1 g- e  E9 ~5 q, B: ^& c, w( A2 |
如果ceph的monitor节点超过半数挂掉,paxos算法就无法正常进行仲裁(quorum),此时,ceph集群会阻塞对集群的操作,直到超过半数的monitor节点恢复。  z. Y) k' o9 i( a0 |/ N1 [9 o
- _7 M9 Y% j4 N- W( |
If there are not enough monitors to form a quorum, the ceph command will block trying to reach the cluster. In this situation, you need to get enough ceph-mon daemons running to form a quorum before doing anything else with the cluster.# z9 {$ L* n7 S' u0 g: B; w; O( m
: Z2 r, T" S% F2 y6 C

7 e" p% Y. e3 u8 S6 e% i; r. k5 s, z! F4 t/ Z. S
所以,- @- T8 }4 j5 K' m5 u* D

+ D- B6 Q; z" O. v(1)如果挂掉的2个节点至少有一个可以恢复,也就是monitor的元数据还是OK的,那么只需要重启ceph-mon进程即可。所以,对于monitor,最好运行在RAID的机器上。这样,即使机器出现故障,恢复也比较容易。
2 b3 A( m! ~2 C+ T" n: K) F- |
& B# T# F3 \/ ~: t& L* Y: {(2)如果挂掉的2个节点的元数据都损坏了呢?出现这种情况,说明人品不行,2台机器的RAID磁盘同时损坏,这得多背?肯定是管理员嫌工资太低,把机器砸了。如何恢复呢?
7 N( @  Z* g9 T1 F" L% ^% s* f  |6 f/ I: j: \" \5 O2 f% V3 Q4 M
2 恢复
# F3 X7 ?& q, K8 M7 @  Q" {其实,也没有其它办法,只能想办法将故障的节点恢复,但元数据已经损坏。幸好还有一个元数据正常的节点,通过它可以恢复。: }, k' v# \. T% y, F
  R6 F" b0 E) }5 m

, k, }# t, m0 `. T2 R3 _2 x  X- n# t6 P
添加monitor的步骤:
) h( @  b$ k% `1 g" x. ?6 ?+ V0 u6 I" c; g5 m7 ^6 M
$ ceph mon getmap -o /tmp/monmap           # provides fsid and existing monitor addrs
! r8 b8 x( S& A  F
+ w5 B& w4 U* i- x$ ceph auth export mon. -o /tmp/monkey     # mon. auth key2 u9 I- `$ ~# `# `# K3 d7 u

/ D6 h: s- M+ v) L, P0 _' ]/ a$ ceph-mon -i newname --mkfs --monmap /tmp/monmap --keyring /tmp/monkey, L0 D9 \+ q5 |% Z, U% `# S1 a
0 C- z) \: P1 ]# Z+ H! K5 H
所以,只要得到monmap,就可以恢复monitor了。3 ]; C2 a. b* `* P

( b- F$ C4 \' z! A* ^& T为了模拟,考虑2个monitor节点,挂掉一个,此时通过网络访问ceph的所有操作都会被阻塞,但monitor的本地socket还是可以通信的。( S: `0 I- e) k! N0 ]8 a& _  I: Z9 R

; H8 {  x7 l* f& tNewImage
  b( K7 S* T  e% q9 z3 u/ X2 z. T" j  f0 w) I

7 g1 [( {/ ^# F8 n' A8 Q% A# r- W. r
/ G' h' F3 E3 K" U但是,让人蛋疼的是通过socket不能进行monmap的导出。不过,幸好有monmaptool工具,通过它,我们可以手动生成(注意fsid):
; L+ k' f$ Z& r2 \. I# m! k* a+ ~& P4 G' ?5 c8 o6 p
# monmaptool  --create  --add vm2 172.16.213.134:6789 --add vm3 172.16.213.135:6789 --fsid eb295a51-ec22-4971-86ef-58f6d2bea3bf --clobber monmap
+ _- K/ k2 p; s/ o8 u; O, h: z! ?* ?. q9 N
monmaptool: monmap file monmap! v0 @3 |6 @& W" K

1 v% o% |4 v8 Z, ymonmaptool: set fsid to eb295a51-ec22-4971-86ef-58f6d2bea3bf
7 G% z  t) J) D0 x, r9 Z0 Y. W( `
& j- k* i+ q& {4 W/ T" omonmaptool: writing epoch 0 to monmap (2 monitors)) y5 `- r1 {1 b0 I0 Z
) |+ F0 R4 c1 c
将正常monitor节点的mon key拷贝过来:
' e- c) b3 Z# m, `' K  P  V! l3 G4 d7 \6 W5 S* `
# cat /var/lib/ceph/mon/cluster1-vm2/keyring
( M: W- }( K- u7 ?& o, p" R/ ?8 r" j. y' x8 z
[mon.]
2 B2 @8 _6 L. I0 K# |! P; o4 Q6 u* V+ q8 d% r* g
        key = AQDZQ8VTAAAAABAAX9HqE0NITrUt7j1w0YadvA==
! D) `% ]3 I# T
/ H/ b% k+ j/ j% e5 p! c        caps mon = "allow *"
% A4 ^0 l: ]: {
/ H  f6 T) F' o: S* M
/ B4 W: {0 P, p" [+ e0 m5 s4 L  k
9 B; ^' h* r. A0 A然后初始化:: v  O" p; o3 Q5 ?0 Y
+ u1 c# h4 b. d! ^* M
# ceph-mon --cluster cluster1 -i vm3 --mkfs --monmap /root/monmap --keyring /tmp/keyring4 ~8 \& k- _* T  l* L

% p+ W/ i0 b# ]+ h* n% Hceph-mon: set fsid to eb295a51-ec22-4971-86ef-58f6d2bea3bf& h% q- m" z; c- d! j

9 w) W: l9 h" j' c7 mceph-mon: created monfs at /var/lib/ceph/mon/cluster1-vm3 for mon.vm3, D' P% M* |$ f# U( q! Z/ H% G& ]

7 |/ @& F) d( n, y, K最后,启动故障节点:/ ~. y9 L1 _% o) w* Z) ^

2 K/ B4 b4 ^% n" e, @# ceph-mon --cluster cluster1 -i vm3 --public-addr 172.16.213.135:6789
" Y4 b3 l0 g* s! p/ c2 g* g0 U* l5 A0 v: H; t- _% G

6 u9 @0 r& I! w2 A) w3 N/ s  a/ |- `# f" ~* W
NewImage
% W: o4 u5 b; w
: x) g: d4 e2 D- M一切OK!

0

主题

0

回帖

9

积分

管理员

积分
9
QQ
 楼主| 发表于 2024-11-2 15:49:58 | 显示全部楼层
最近还发现一个问题就是一个节点上存在磁盘空间超过80%之后,mon的服务也会停止。这个很隐形的问题。需要注意。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

返回首页|Archiver|手机版|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )

GMT+8, 2026-6-11 22:58 , Processed in 0.025357 second(s), 22 queries .

Powered by Discuz! X5.0

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表