易陆发现互联网技术论坛

 找回密码
 开始注册
查看: 167|回复: 4
收起左侧

ceph存储当mon节点全部出现问题的时候或者单独一个节点出现问题时恢复过程

[复制链接]
发表于 2024-10-18 08:30:57 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?开始注册

x
当mon节点全部出现问题的时候或者单独一个节点出现问题时恢复过程. V, s; ?* `' W, G4 j

7 ~$ S! N5 v" ?
$ L6 g: K) ]1 P+ O7 fceph一直无法正常的执行ceph -s命令;# M! ^3 g5 T; S* U# M! K1 ~
: l4 u5 b( N; u/ x; L
! B' F- V6 ^8 ~9 l0 H

5 K5 h' a2 D+ |4 j: Q$ q: o. bceph分部署存储告警monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]
7 d% E% p% f, j5 U5 p0 |& r: `0 {7 X8 N
2024-10-17T22:33:47.295+0800 7f20fe7fc700 -1 monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]
+ N2 l  ?& T4 ]3 ?2024-10-17T22:33:47.297+0800 7f20ff7fe700 -1 monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]& a2 T+ C' F6 H3 A+ g

% @: f1 W9 o+ h0 O% I6 f4 y; l/ c' N8 X5 X, _
5 O) v$ V9 g; k, Y
环境中也就只有gm268-3节点因重启失败夯住是好的,gm268-1和gm268-2都已经被损坏。只能想办法从3上入手解决。5 F" l1 c& Y: Z1 |
- I, P+ d" e: @) E( _
结果过程:( T  ]' i& E. n" Y; A4 F1 [

* K1 P) h3 E3 }8 l1、在gm268-3节点上导出monmap文件:0 S' t* \& z0 L1 ^

: X! @; `' p8 S. x
( L+ O' G* h9 P4 A; m* M$ monmaptool --create --clobber --fsid ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9 --add gm268-3 10.12.3.2:6789 --add gm268-2 10.12.2.2:6789 --add gm268-1 10.12.1.2:6789 /tmp/monmap
- t' {- G1 v3 i9 i1 amonmaptool: monmap file /tmp/monmap! z3 q, v. Z9 |' E% T
monmaptool: set fsid to ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9
( n2 F2 \) ~) Y5 u( ]' d  I3 smonmaptool: writing epoch 0 to /tmp/monmap (3 monitors)
% n. y5 z' U. n: R( z) \
% U2 _4 |; i, B. m( q! w! c  r* A% `+ j- l& X0 w. h) F$ @
导出monmap,好的节点写在前面,后面把所有的坏节点加上就可以了。
$ u1 d+ R- h& I' I
1 F' H& n3 t/ f) u/ @查看下导出的文件信息:) Q! R" Q; K1 [( R
2 Z) n8 J; v+ E8 R
$ monmaptool --print /tmp/monmap
: \$ v9 z  Y6 r0 `/ H  [monmaptool: monmap file /tmp/monmap
" E4 k# |) X. ]$ c% t" I/ Pepoch 0+ R8 e) o# t/ v: k5 i
fsid ce68aab8-8f46-11ed-88c0-ac1f6b3a30b90 k* j; X/ z$ J0 O7 p* W
last_changed 2024-10-18T13:17:03.645872+0800, t( F: ~: Q2 G& e  t" q
created 2024-10-18T13:17:03.645872+08004 ~' f1 `5 s3 {2 t& o
min_mon_release 0 (unknown)/ r5 C- m  t0 z" D; j
0: v1:10.12.1.2:6789/0 mon.gm268-1
, u; H! N  Z6 p# [5 y% L1: v1:10.12.2.2:6789/0 mon.gm268-2
" E. u: Y0 m9 [  ?/ }2 a2: v1:10.12.3.2:6789/0 mon.gm268-30 s6 W+ B$ A* y  M/ c5 J+ W7 U

4 [6 M' d4 g' o9 l5 x0 a0 Z, o# X3 e1 I! L; I/ }$ A" k

6 S# e) J  _  |% w; I7 a) O6 ?& N2、去gm268-1和gm268-2的节点上找到/var/lib/ceph/mon 目录,备份下。删除掉。因为文件被修改了,导致文件有异常,没有导致认证出问题。原有的/etc/ceph/目录不能删除。
& ~* d8 H9 I) o+ V9 p2 \! m
; Z9 \* z. ^1 O: t$ `* l9 M
* h% C5 P0 Z6 D9 X' d& a3、将正常节点上keyring和导出的monmap文件传送到其他两个节点上:! ]& Z0 ?- w( q( P1 @, R* m
* U! F! B0 C9 S+ s0 @* ]
scp /var/lib/ceph/mon/ceph-gm268-3/keyring  gm268-2:/tmp/
: o. {3 P6 {9 g: g1 Jscp /var/lib/ceph/mon/ceph-gm268-3/keyring  gm268-1:/tmp/2 u# ]2 a2 @2 K4 ^
' H) t: f8 `1 h0 h0 i+ j( h
scp /tmp/monmap  gm268-1:/tmp/, i+ q) R0 ]& u& A$ ~" M
scp /tmp/monmap  gm268-1:/tmp/1 W9 R4 k3 w9 I) V
4 m# R- l% `' g4 a& W$ N9 K

+ v1 H9 {  f- r# _( f, W) |! @4、重做gm268-1和gm268-2 节点mon  
' y4 e9 f4 e. w' q' a% m7 ~ceph-mon --cluster ceph -i gm268-1 --mkfs --monmap /tmp/monmap --keyring /tmp/keyring -c /etc/ceph/ceph.conf 7 Q) q+ g8 H. o$ R: r1 h+ h

" [8 K9 r( P0 C/ P# Q1 H9 i/ x切换到/var/lib/ceph/mon目录下
, y6 l. D* U; h执行:1 I9 t' J$ }( t" z6 g
chown -R ceph:ceph mon/# q. V) V8 R% l. E% p  `

5 Y8 C: l2 V4 }8 ?; \启动mon服务:
: C# z- O# x# j& n. E- Tsystemctl start ceph-mon@gm268-1.service
$ N8 f$ k. _, l* {* w3 F- d5 ~
: H' T4 P; j! ?0 J查看服务:  z. F6 K( Q/ C" v4 U" i7 ~& P
, a% `0 V4 m" F. p1 D, r' ~
$ systemctl status ceph-mon@gm268-1.service * x' m4 B% f4 X# l: P5 D- Q' Q& h% J
ceph-mon@gm268-1.service - Ceph cluster monitor daemon5 |7 g, A2 g' n- z
   Loaded: loaded (/usr/lib/systemd/system/ceph-mon@.service; enabled; vendor preset: disabled)
3 X# Y% N# F8 Y& a6 i   Active: active (running) since Fri 2024-10-18 13:21:24 CST; 38min ago
) T. F, I/ }$ ~3 c" I7 @ Main PID: 664542 (ceph-mon)9 b0 ^. \8 V. Y1 F  @
    Tasks: 27
! M7 z5 D; Q3 ^8 t2 _. a. L8 h   Memory: 286.0M
' F( N. t8 }+ B: B& S, G   CGroup: /system.slice/system-ceph\x2dmon.slice/ceph-mon@gm268-1.service
% t, a3 Z7 H$ _2 m( o           └─664542 /usr/bin/ceph-mon -f --cluster ceph --id gm268-1 --setuser ceph --setgroup ceph
. n" C- O3 n% R- ~" @9 C+ i0 |2 r/ B
Oct 18 13:21:24 gm268-1 systemd[1]: Started Ceph cluster monitor daemon.
9 i# a9 e3 p5 hOct 18 13:21:24 gm268-1 ceph-mon[664542]: 2024-10-18T13:21:24.793+0800 7fcc5f804700 -1 mon.gm268-1@0(probing) e11  stashing newest monmap 11 for next startup
. f1 [  t  ]- h* ^1 V8 J- I8 UOct 18 13:21:24 gm268-1 ceph-mon[664542]: ignoring --setuser ceph since I am not root7 E! e7 X( L' P& O, O2 Z) S
Oct 18 13:21:24 gm268-1 ceph-mon[664542]: ignoring --setgroup ceph since I am not root9 W+ R3 g# T: O. N! F
- {0 t- d" U+ T; K+ m$ U9 {

' z$ h9 ^% \- o. L) ?$ D. |1 r# S节点修复完成。
8 x8 Y) `* Z! t  u6 w节点二上
" O7 t3 k3 G5 v, f
5 R& \) O, C1 H: P1 U2 Bceph-mon --cluster ceph -i gm268-2 --mkfs --monmap /tmp/monmap --keyring /tmp/keyring -c /etc/ceph/ceph.conf
# e# |' y7 S1 L: f1 K
% Q) r( v. T9 R: V切换到/var/lib/ceph/mon目录下
9 G; l' |0 g" t' h执行:
, I% j9 n2 V0 echown -R ceph:ceph mon/
8 I" j" B( A! W1 M+ ]) Q
' ?% X$ L8 |+ g  L2 _- g启动mon服务:% r& d! h9 o6 |  Y- e% @
systemctl start ceph-mon@gm268-2.service; ?* s/ W9 A. T1 S& S$ P: b

# q& D4 M0 V' O7 j" S. P
/ K+ l; `8 i  h& R, F. ?: @& }  ]+ u# }
$ systemctl status ceph-mon@gm268-2.service ) F* X$ q: V3 E% t
ceph-mon@gm268-2.service - Ceph cluster monitor daemon
; B& b* |; G4 o   Loaded: loaded (/usr/lib/systemd/system/ceph-mon@.service; enabled; vendor preset: disabled)' ^( X4 k' Q% O
   Active: active (running) since Fri 2024-10-18 13:09:42 CST; 51min ago
5 B3 l1 A) m/ X$ p Main PID: 157382 (ceph-mon)# D/ V& t. a  E* p7 F
    Tasks: 27  Z/ P; o4 C. s: |" _* x$ G+ `$ B
   Memory: 587.1M
- F0 u4 I7 k/ S   CGroup: /system.slice/system-ceph\x2dmon.slice/ceph-mon@gm268-2.service% U8 }" w  M6 A2 b; D' S) ~
           └─157382 /usr/bin/ceph-mon -f --cluster ceph --id gm268-2 --setuser ceph --setgroup ceph( X+ K- ]1 ~9 P" Y
- \& W- z/ f1 J) T9 T
" r% b3 L2 z2 B$ g+ ~
 楼主| 发表于 2024-10-18 14:00:42 | 显示全部楼层
检查集群状态:
  f! V# ]8 H" o; W9 K$ ceph -s4 l( C) X+ h3 r4 n. M7 E; V* s' j* t
  cluster:* o2 s# `* p, V9 g
    id:     ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9
# |& r: ^7 i+ t- V+ S( V9 A    health: HEALTH_ERR9 b3 m2 T& c: }
            3 failed cephadm daemon(s)
/ d: b# D( G/ @+ j            failed to probe daemons or devices
. Z9 i9 i. J( F& D, e6 c            2 mgr modules have failed* x7 q  M% J4 [. T1 P/ K
            mon gm268-1 is low on available space
+ i4 [. t- _3 f            22 pgs not deep-scrubbed in time
- a! c2 m; R: C            1 slow ops, oldest one blocked for 2805 sec, mon.gm268-3 has slow ops
4 P; e+ T+ Y* N3 _  l1 i' E* N
" N* U1 }9 S: _# m  services:: K- K) c. n  ^! I( s' z) a& c. M
    mon: 3 daemons, quorum gm268-2,gm268-3,gm268-1 (age 39m)
  M" g* l2 i# s    mgr: gm268-2.zttohs(active, since 51m), standbys: gm268-3.sjagqo, gm268-1.jgdvxs
* c% c2 T7 h- l4 W5 f    mds: cephfs:1 {0=cephfs.gm268-3.ppyjrl=up:active} 1 up:standby
& O$ H! }! U+ D0 G- p  U. F: u    osd: 41 osds: 41 up (since 46m), 41 in (since 20h); 185 remapped pgs
/ y6 A; v! S- w4 Y! J/ p6 Z6 u( [* z! Z
9 k* I* T9 L  K/ d  ~  data:6 N/ E  g& }, D+ [7 k' q
    pools:   5 pools, 11265 pgs: C. ]( x8 z* A: {1 j" y
    objects: 42.48M objects, 115 TiB
# Z$ I. U' J- E. |, J2 f    usage:   232 TiB used, 365 TiB / 597 TiB avail
5 ]0 Y% k( h$ k+ U8 W, H4 Q, J    pgs:     800589/84967110 objects misplaced (0.942%)
( y- a3 H% s# \6 w* O+ R( T             11080 active+clean, s6 K* @# \1 s8 g9 P
             184   active+remapped+backfill_wait" p; y" c) P* a. P
             1     active+remapped+backfilling
- q# s7 l+ y, m * [) Q5 y0 m) `8 f( R
  io:8 h& ]1 A& \" j. r
    recovery: 22 MiB/s, 6 objects/s
" o0 x& [) I% l, n- y; v
 楼主| 发表于 2024-10-18 14:04:28 | 显示全部楼层
以下是其他的地方处理过程:
  K! i2 J# \- E- {0 c" J- X: gceph mon节点迁移
3 s* e! Y5 W' K+ c1 ?+ c& u. a有时可能需要将ceph存储整机移动到不同的网络、数据中心的不同部分或完全不同的数据中心,甚至于新机房和老机房的网络都不是互通的,那么就需要使用离线迁移了。
8 c8 e# e0 |4 G; X
6 G. k" k, n; [$ @* k离线迁移主要涉及到的就是mon节点的改变。
; D! f3 T# G0 r2 O3 Y$ j: \7 D* _* K解决方案是为集群中的所有mon生成具有新IP地址的新 monmap,并将新映射注入每个单独的mon
9 ^1 y; M. N: Q; z7 Y* {" u2 [1 ?
5 j: K* i. z; m# ~获取集群当前monmap(搬迁前进行)  \/ x) m' q3 a" q' |
获取集群monmap这里又分为三种情况:Ceph mon能够形成仲裁;Ceph mon不能形成仲裁待至少有一个存活;所有的Ceph mon都已经损坏了。3 H6 C- e" t, _# S  C- R1 I
$ H7 H' o4 W+ R* G7 x6 ^, ~
如果剩余的 Ceph mon能够形成仲裁(多数存活),请使用 ceph mon getmap 命令获取 Ceph monitor map:
0 q- t* O8 r( L) ]  t8 _9 V: r2 C) d/ X8 |8 d6 L7 B4 M& o
ceph mon getmap -o /tmp/monmap
/ K( [) `) u" Q/ b" D2 |; M) P3 a如果此时ceph的mon已经不能够形成仲裁了(多数mon挂了),那么在健康的正确的mon机器上通过如下步骤获取monmap% A1 _+ Q; i0 Y: a! i

, G/ H" y7 u; W* s4 A( V( J; l3 E// 停止您要复制 Ceph monitor map 的 Ceph 监控器7 {$ G. ^- P7 q; N1 E+ {% o
[root@mon ~]# systemctl stop ceph-mon@<host-name>1 _7 x6 j) b- x% P; y# A3 S
// 获得ceph monmap# @6 }) d2 N& w4 B
[root@mon ~]# ceph-mon -i ID --extract-monmap /tmp/monmap
7 A# u& W6 T0 |. j7 g, B3 \$ p5 b如果很不走运,所有的mon都损坏了,那么还有没有什么办法获取到集群的monmap,以至于恢复整个集群呢?, l. o- S' X! d8 m- H

9 V) A" j7 I* b. x2 V. O当然,也是有的,可以借助ceph-monstore-tool和 ceph- objectstore-tool 这两个实用程序,通过 OSD 节点上存储的信息来恢复它,具体详情请参考: 使用 BlueStore 时恢复 Ceph monitor 存储5 l* u! D* h! c1 _9 ^
# o1 A: o' K2 k5 l* Q6 ^! l
删除临时monmap中的老的mon& N3 b5 @5 Y) ]: H, E
# monmaptool --rm node1 --rm node2 --rm node3 /tmp/monmap
) w0 i8 H* F4 Dmonmaptool: monmap file /tmp/monmap
' s! @. N4 ^, V5 L! C' Q6 _monmaptool: removing node1
0 d1 r5 A/ G$ Amonmaptool: removing node2) a# }, X) l) R, F& z  T
monmaptool: removing node34 d4 H, l- Z" N/ @3 n5 g
monmaptool: writing epoch 1 to  /tmp/monmap (0 monitors)6 L& G& B/ z$ G! i% L
向临时monmap中添加新的mon0 M' J6 |' ?% E3 H/ r
# monmaptool --add node1 192.168.244.44 --add node2 192.168.244.45  --add node3 192.168.244.46 /tmp/monmap
1 P2 @- n3 x9 Q- L9 U& B2 vmonmaptool: monmap file  /tmp/monmap
3 ~, @0 N' C- F. R9 Mmonmaptool: writing epoch 1 to  /tmp/monmap (3 monitors)
. x- D9 A8 k% ]9 q! N8 X" O停止所有mon服务并注入monmap
- j. P' Y9 p+ N& \3 d* W* ?0 F4 Z$ K首先要先确保新的mon已经在新的服务器上安装起来了,然后stop掉mon进程,每个mon新节点都要执行
" p: w3 O7 \  U5 E1 _
/ @, G7 C1 b0 t- T3 ]% aceph-mon -i {mon-id} --inject-monmap /tmp/monmap
6 e, r" H" K4 U) z更新所有服务(mon,mds,client,mgr,osd等)的ceph.conf. S* x5 ?- G9 V- m5 L0 [  i
这里需要注意的是如果新ip的网段也有变化的话,那么除了要更新ceph.conf文件中mon\_host信息,还要更新public network/cluster network的网段信息6 @' B* u7 e' ]% K, C$ k

" w7 C6 ]" ]- g同步的话可以通过ceph-deploy命令7 X0 s9 `9 ]4 S4 p2 e: r
8 I6 q, F  c1 R, _. ~" k
ceph-deploy --overwrite-conf config push node{1..3}- I, X# ]+ t/ x8 g. H- v/ y
关于上层服务# H; ^' _& n" h
使用ceph底层存储的服务可能有虚拟机,k8s集群,如果ceph存储搬迁机房了,还需要服务之前的老的客户端,那么他们也需要做相应的变更
* T/ F* e! Z: C) j/ J- ]9 z" c  r) e( q0 P6 f8 f6 D6 e( p
ceph文件系统直接挂载+rbd挂载3 _; I/ e8 ?% K
直接把新的ceph.conf同步到client节点就可以
 楼主| 发表于 2024-10-18 14:23:53 | 显示全部楼层

2 G9 B. C% n; R$ c5 |$ L; f其他文献解决办法:
+ z: d# A% P2 {$ w; k
: c, ]) ~4 S0 R& k5 A1 问题# Y" U( B& \5 e- M; X
+ ~5 o# _, L) C! M2 Z5 ?
一般来说,在实际运行中,ceph monitor的个数是2n+1(n>=0)个,在线上至少3个,只要正常的节点数>=n+1,ceph的paxos算法能保证系统的正常运行。所以,对于3个节点,同时只能挂掉一个。一般来说,同时挂掉2个节点的概率比较小,但是万一挂掉2个呢?- J' j% G. S6 x8 N+ e$ Z7 z+ s# d

9 x- q% x5 Q9 p2 L% i( z" G如果ceph的monitor节点超过半数挂掉,paxos算法就无法正常进行仲裁(quorum),此时,ceph集群会阻塞对集群的操作,直到超过半数的monitor节点恢复。. K( u4 g$ z- v# n
' M: B' j* ]# H! C5 a
If there are not enough monitors to form a quorum, the ceph command will block trying to reach the cluster. In this situation, you need to get enough ceph-mon daemons running to form a quorum before doing anything else with the cluster.1 j2 J7 u: Z6 c2 S! s. s6 J
* |) z5 e+ W2 R& b
5 X% a" f8 W9 t6 {2 V( @
! R  O+ `- \% k1 U
所以,
1 C) `  ^1 B4 _) U6 }
$ x. i5 B" [! b  p8 F2 i& n(1)如果挂掉的2个节点至少有一个可以恢复,也就是monitor的元数据还是OK的,那么只需要重启ceph-mon进程即可。所以,对于monitor,最好运行在RAID的机器上。这样,即使机器出现故障,恢复也比较容易。
& j% Z! w" |- d7 R+ K2 b: Q' P! q: h7 H( w! x$ j$ [( C* h6 u
(2)如果挂掉的2个节点的元数据都损坏了呢?出现这种情况,说明人品不行,2台机器的RAID磁盘同时损坏,这得多背?肯定是管理员嫌工资太低,把机器砸了。如何恢复呢?
# B) ~: L4 ^9 o* m
. x3 Q0 a  D+ {$ ~2 恢复
6 D; M, A, K( W4 t" v5 l其实,也没有其它办法,只能想办法将故障的节点恢复,但元数据已经损坏。幸好还有一个元数据正常的节点,通过它可以恢复。
5 u3 J$ @7 `% p! J: B" @: Z2 S) l& s  q" z+ k; i

' e. r* ~, a  R
) k, H) U. @* `8 K添加monitor的步骤:
6 n% t9 b) ~# y9 c- R
. ~) u/ g- U2 ?$ ~7 Q$ L8 [$ ceph mon getmap -o /tmp/monmap           # provides fsid and existing monitor addrs
5 l% n: m! O. V/ W! [4 x8 a) b. N3 l4 |5 A' K
$ ceph auth export mon. -o /tmp/monkey     # mon. auth key8 _4 D/ {5 g( N, w* q0 S
  o- d. Y& b: H# m
$ ceph-mon -i newname --mkfs --monmap /tmp/monmap --keyring /tmp/monkey
6 c& K5 e9 w2 O
, H; c, F. ?) D; x% {所以,只要得到monmap,就可以恢复monitor了。
/ \$ s8 c1 ~* L5 l7 Z" z4 ]
/ I" I# |; J1 O" T  q/ Q3 O为了模拟,考虑2个monitor节点,挂掉一个,此时通过网络访问ceph的所有操作都会被阻塞,但monitor的本地socket还是可以通信的。
  ]! b# X; v9 M. G6 H4 I' I+ m8 K7 ~8 Q) c) Z# K5 }7 e: ~/ Y7 Z
NewImage$ @1 [' y& C! s; |3 l7 H

# d1 Z7 }+ _2 ~2 C1 ?2 } # `3 o$ Q0 v5 i

$ x+ O# O0 g3 m- M' B6 @2 ~但是,让人蛋疼的是通过socket不能进行monmap的导出。不过,幸好有monmaptool工具,通过它,我们可以手动生成(注意fsid):" z4 @5 \# r2 M3 N
# ?/ b& i4 x% _; {- @
# monmaptool  --create  --add vm2 172.16.213.134:6789 --add vm3 172.16.213.135:6789 --fsid eb295a51-ec22-4971-86ef-58f6d2bea3bf --clobber monmap! |( o6 t& e2 M

, S, u; d, k- ^# Kmonmaptool: monmap file monmap* }$ I: n, k% H7 _
; G3 B* v& B4 R9 P( h( \8 e
monmaptool: set fsid to eb295a51-ec22-4971-86ef-58f6d2bea3bf. i! a* i4 q9 C$ V. u
+ ^8 D8 a  I* U8 l$ |( Z- \1 q
monmaptool: writing epoch 0 to monmap (2 monitors)
7 l7 t) c/ b$ {( s  f, j; p* W3 k8 N: |7 o7 A! Q  D) ~% ~
将正常monitor节点的mon key拷贝过来:$ g, Z/ B2 m8 j- X- N, O% i5 o
) ~. Q3 k! v( ?& t0 m
# cat /var/lib/ceph/mon/cluster1-vm2/keyring! G3 o; F* {4 R9 ~$ h0 g# |; d
4 i/ M2 a. J. j1 M7 @- g: W% s
[mon.]* K. b% k5 T) X
0 v3 x$ _4 D" S8 Q+ L: p$ n
        key = AQDZQ8VTAAAAABAAX9HqE0NITrUt7j1w0YadvA==
6 R6 f$ \' H$ Z" j2 A' S, k  z8 L- I% ^: E- Y
        caps mon = "allow *"
& K5 k5 \, ^9 {1 ]6 v+ ^+ J
; ?: I" Y# s3 \( `7 L3 b
4 W$ `" a( t7 x' E  p0 n3 H1 u& `* j; K. B
然后初始化:% J4 X* M  m9 h3 `! R) m+ o
% f1 e. n3 m( B8 a: \
# ceph-mon --cluster cluster1 -i vm3 --mkfs --monmap /root/monmap --keyring /tmp/keyring
- l  y0 g' z) G3 F( L; ?' N+ [) e0 [
+ K! K3 R$ E' v7 R: A! ]ceph-mon: set fsid to eb295a51-ec22-4971-86ef-58f6d2bea3bf- O# m; p4 q# F7 k
& U, p: u9 g' Q4 W7 p: n1 l
ceph-mon: created monfs at /var/lib/ceph/mon/cluster1-vm3 for mon.vm3! K; u+ A7 i8 g* y

9 `: _( w& S- y  @最后,启动故障节点:
( j8 p0 L7 W! E7 l$ k- q0 Q$ g/ ?4 s' d( l! X9 S" D1 k& k
# ceph-mon --cluster cluster1 -i vm3 --public-addr 172.16.213.135:6789
: M/ A1 N+ r: |' Z, c+ r+ I" ]7 M, }. r% {4 `: ^0 c! m* y) [
$ A$ w% U3 q/ k: ]2 p3 \

: C# H8 X0 {# X; K8 G NewImage
$ A  r! Z4 L1 v# K3 d
$ I: _$ `% K8 J7 @一切OK!
 楼主| 发表于 2024-11-2 15:49:58 | 显示全部楼层
最近还发现一个问题就是一个节点上存在磁盘空间超过80%之后,mon的服务也会停止。这个很隐形的问题。需要注意。
您需要登录后才可以回帖 登录 | 开始注册

本版积分规则

关闭

站长推荐上一条 /4 下一条

北京云银创陇科技有限公司以云计算运维,代码开发

QQ|返回首页|Archiver|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )点击这里给我发消息

GMT+8, 2026-4-8 21:26 , Processed in 0.051346 second(s), 24 queries .

Powered by Discuz! X3.4 Licensed

© 2012-2025 Discuz! Team.

快速回复 返回顶部 返回列表