找回密码
 注册
查看: 177|回复: 4

ceph存储当mon节点全部出现问题的时候或者单独一个节点出现问题时恢复过程

[复制链接]

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
发表于 2024-10-18 08:30:57 | 显示全部楼层 |阅读模式
当mon节点全部出现问题的时候或者单独一个节点出现问题时恢复过程- P" w6 c1 F; b& z
/ A  j1 J, L! m- c  D

, a9 |: S8 ?( r! Zceph一直无法正常的执行ceph -s命令;& D; _" W9 }# x8 M

4 N6 }7 F5 f4 {. z+ T1 B2 a
1 J$ @5 w+ T9 T( t# ?6 E. x/ S; _  N/ t) [5 x
ceph分部署存储告警monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]$ k8 g+ P; o/ t2 w- J: H* n

1 k) s- n7 \& |, Y0 \% ~2 {& m2024-10-17T22:33:47.295+0800 7f20fe7fc700 -1 monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]! z  w1 O, O  [# S2 W! Q6 {" W
2024-10-17T22:33:47.297+0800 7f20ff7fe700 -1 monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]
! D. B" O4 h% |& w
' y6 E' [0 g. G- _8 v+ ]& ^! p
% ]& g% F) @# {% L/ U" j5 Q
( x4 N; A# e6 F  [; e- {- Y* r; i  W环境中也就只有gm268-3节点因重启失败夯住是好的,gm268-1和gm268-2都已经被损坏。只能想办法从3上入手解决。
# ^& N9 ~5 V& b7 j
# P+ u( ]( ^" v' D结果过程:
  |& h. m: o9 q6 W. s  w
& i2 J9 F% ]( X1、在gm268-3节点上导出monmap文件:' d/ z6 a6 ?: p% ^
1 |$ l' l$ j# U
+ _1 C8 R$ Q+ N. C
$ monmaptool --create --clobber --fsid ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9 --add gm268-3 10.12.3.2:6789 --add gm268-2 10.12.2.2:6789 --add gm268-1 10.12.1.2:6789 /tmp/monmap5 s8 }1 ?. i& K& c
monmaptool: monmap file /tmp/monmap
6 f) s2 K2 r% @; c- [9 o1 y7 b0 w" fmonmaptool: set fsid to ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9
/ c3 E: {% H  w4 Q- d8 hmonmaptool: writing epoch 0 to /tmp/monmap (3 monitors)
- u7 s' N, B( Y/ [; G6 d
# x! M; P( @8 V$ o- j. N, \- Q& J6 a$ B; N: t1 Y, }6 e; h  v
导出monmap,好的节点写在前面,后面把所有的坏节点加上就可以了。
  @# Y  H) ^! A$ }5 U) l3 G9 b2 w, |5 x9 u2 B  s2 C; |+ }' a
查看下导出的文件信息:; R" h! }, i7 c( h0 @! p
: t7 g# I* J" Y5 l" M! n5 {1 \
$ monmaptool --print /tmp/monmap
6 f$ i' H8 L6 ~/ Ymonmaptool: monmap file /tmp/monmap: w5 T3 X' e. W8 b- H! }+ [- m
epoch 0
2 h5 U( o! x$ r" vfsid ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9: F* _: ?* @7 x) l+ t/ g
last_changed 2024-10-18T13:17:03.645872+0800' e: x8 {! I" u! D5 J) ]. W
created 2024-10-18T13:17:03.645872+08001 t9 {8 a% E6 P  Y9 G8 D- Y
min_mon_release 0 (unknown)- j1 Z" d# ~: O7 s6 _, D# ]# }
0: v1:10.12.1.2:6789/0 mon.gm268-1- X+ j' Z- a- l% s4 Q
1: v1:10.12.2.2:6789/0 mon.gm268-2
1 s* b9 Y9 T4 r6 u6 r  g' Y2: v1:10.12.3.2:6789/0 mon.gm268-3
9 y3 d( F( t+ J) D" R  D
2 l0 q$ M% t& w7 r% h  Q% n8 W# x( v
; `$ q3 l/ t! u$ d/ o6 G% p1 H3 s6 R4 h0 h
2、去gm268-1和gm268-2的节点上找到/var/lib/ceph/mon 目录,备份下。删除掉。因为文件被修改了,导致文件有异常,没有导致认证出问题。原有的/etc/ceph/目录不能删除。
6 m, p' V' G: P8 M7 r' g  \
( h" @, L! K' x+ t. F* |, |
: x8 R; s) \- z, i( ]0 U, Q6 v3、将正常节点上keyring和导出的monmap文件传送到其他两个节点上:3 C  V  q( h" D: Q
$ K9 p; ^8 s* v
scp /var/lib/ceph/mon/ceph-gm268-3/keyring  gm268-2:/tmp/
" g9 J/ O$ B$ e, {) x4 G- @scp /var/lib/ceph/mon/ceph-gm268-3/keyring  gm268-1:/tmp/
: Q; b) T, e: ]" B. D0 f8 @' X4 v0 e4 ~* h& X7 P9 b, h" F
scp /tmp/monmap  gm268-1:/tmp/2 B- {# d# v* R/ g9 [% |: f/ ~
scp /tmp/monmap  gm268-1:/tmp/% z5 y: ]- \1 Y- G3 e( k, p" v

/ {( K9 G( g6 L% x# `' Y
5 ^2 `! l4 U7 @9 v9 B# g4、重做gm268-1和gm268-2 节点mon  4 Z% _! Q/ H: k) V* S7 c
ceph-mon --cluster ceph -i gm268-1 --mkfs --monmap /tmp/monmap --keyring /tmp/keyring -c /etc/ceph/ceph.conf
, y; q, O2 S+ i+ d
7 V( S" n+ P+ g0 n, z切换到/var/lib/ceph/mon目录下
1 E; k7 D8 r/ k4 M执行:9 K9 B. Z8 B4 N- b) W
chown -R ceph:ceph mon/. q$ d4 t* y; l; U/ Z& z2 k/ ~

9 V% y# u  W8 G8 l9 `7 d% P, C启动mon服务:
) l7 @+ _$ R" `# \systemctl start ceph-mon@gm268-1.service
4 H* T  T1 E, @( u' h6 W3 B. F# c8 ?, x' Y& x
查看服务:
$ M9 j0 h# ~- J2 K& p$ ^/ U0 D( H, y
$ B5 ^2 C. F; o* e# a$ systemctl status ceph-mon@gm268-1.service
) l. e- B  w' P: p* V0 T$ ]ceph-mon@gm268-1.service - Ceph cluster monitor daemon
; m5 u, W# Q2 e) K  Q! w" [   Loaded: loaded (/usr/lib/systemd/system/ceph-mon@.service; enabled; vendor preset: disabled)
7 Q$ r6 z3 T/ O3 `0 Q* C4 R$ o   Active: active (running) since Fri 2024-10-18 13:21:24 CST; 38min ago  f$ {$ s: g* r% K# n0 S0 \: }& {
Main PID: 664542 (ceph-mon)9 D- N: ^1 g% c( P+ Y0 E
    Tasks: 27' v: S3 V) M% J, V7 V. ]# W  m
   Memory: 286.0M9 s. j. b  [0 f0 Y8 i; ?
   CGroup: /system.slice/system-ceph\x2dmon.slice/ceph-mon@gm268-1.service# S& W% Q+ X3 y& t1 S& j! A
           └─664542 /usr/bin/ceph-mon -f --cluster ceph --id gm268-1 --setuser ceph --setgroup ceph+ z" T! i9 O8 T! \( s+ j+ \% o. c' L7 P
; u0 p, o  u" R* b" [9 \
Oct 18 13:21:24 gm268-1 systemd[1]: Started Ceph cluster monitor daemon.: @! g8 P) V" v6 M" i
Oct 18 13:21:24 gm268-1 ceph-mon[664542]: 2024-10-18T13:21:24.793+0800 7fcc5f804700 -1 mon.gm268-1@0(probing) e11  stashing newest monmap 11 for next startup
: c% `) w' j& r0 u, {9 wOct 18 13:21:24 gm268-1 ceph-mon[664542]: ignoring --setuser ceph since I am not root
! C1 X" }4 q4 F9 b% m; x! t# tOct 18 13:21:24 gm268-1 ceph-mon[664542]: ignoring --setgroup ceph since I am not root' P; i8 N7 u- w5 B3 ~

0 j  p0 P  H0 `4 E, H0 x+ W- e
8 \- I! Q* m# c+ W节点修复完成。$ ^. e2 ]$ ^" O" b. o/ z
节点二上
. x5 i. B* ~7 m9 w9 i# u/ ^: ]% i
ceph-mon --cluster ceph -i gm268-2 --mkfs --monmap /tmp/monmap --keyring /tmp/keyring -c /etc/ceph/ceph.conf ; m% c# h, G8 o- v& X: n
) d- s8 g( e. e
切换到/var/lib/ceph/mon目录下6 T1 e* G5 q2 `* b) \
执行:- G. g/ q( S6 J! r! j3 `
chown -R ceph:ceph mon/
, U" K7 V# x8 `# f! z
- O' P! W; L) n  z0 k) Q9 a/ a5 V9 J2 [启动mon服务:0 u8 R. a6 Q% E$ I; |! |
systemctl start ceph-mon@gm268-2.service. c+ ]( m; @; e+ G3 o
. B' c" g; f1 y$ D7 W0 \

  @6 o/ o- @: ^3 e& l4 x9 S4 N8 G# V/ S) ?! S. y. i7 z
$ systemctl status ceph-mon@gm268-2.service 9 n1 e8 T& L: d& d' ^( p( ?
ceph-mon@gm268-2.service - Ceph cluster monitor daemon
5 ^( y/ b( r9 L. H   Loaded: loaded (/usr/lib/systemd/system/ceph-mon@.service; enabled; vendor preset: disabled)% x/ W8 G" v# Q) r3 A7 i; i' R5 Z- M
   Active: active (running) since Fri 2024-10-18 13:09:42 CST; 51min ago
6 }: k! c! c6 X$ }! q) Z2 _' B Main PID: 157382 (ceph-mon)! s! ~: {/ P, g/ L" r
    Tasks: 27
# N6 g& h' `( u2 I+ m4 g   Memory: 587.1M2 e( G  o: n/ I! }7 i
   CGroup: /system.slice/system-ceph\x2dmon.slice/ceph-mon@gm268-2.service
( l% t- X* v! {3 y4 h' |           └─157382 /usr/bin/ceph-mon -f --cluster ceph --id gm268-2 --setuser ceph --setgroup ceph2 b6 J. k. S; E& j, S6 q6 D
) L7 Y+ f) R* o; d8 q' S
. r, u6 w0 b/ }0 ^/ Q$ n$ j

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2024-10-18 14:00:42 | 显示全部楼层
检查集群状态:8 M4 y; ?) v' P9 a9 ~" V( A; `
$ ceph -s
1 V9 r$ B# I% {; ?' X  cluster:
( v4 N2 |# r1 q$ `% M    id:     ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9
5 Z8 ?. o- `, T    health: HEALTH_ERR
0 ]& H, c. C, P6 S9 w) \7 X5 C            3 failed cephadm daemon(s)
; U# }- T; W' F7 t- N0 x            failed to probe daemons or devices% i9 u) h6 h- g
            2 mgr modules have failed) m& `' B  Y* Q! U
            mon gm268-1 is low on available space* X, G: Q7 ?1 I6 g  A& ^
            22 pgs not deep-scrubbed in time
& n) V4 f6 X6 ~+ F            1 slow ops, oldest one blocked for 2805 sec, mon.gm268-3 has slow ops
+ h& G  b: ?0 f( G5 M3 o
  r, V- y8 y) L6 k0 r0 I  services:
; I7 D) `  @  _+ p' y    mon: 3 daemons, quorum gm268-2,gm268-3,gm268-1 (age 39m), r$ K6 t$ A2 e2 n4 l
    mgr: gm268-2.zttohs(active, since 51m), standbys: gm268-3.sjagqo, gm268-1.jgdvxs+ [; G% m5 c" A3 b- T
    mds: cephfs:1 {0=cephfs.gm268-3.ppyjrl=up:active} 1 up:standby
8 ^2 D* j+ H( [6 n+ B% O    osd: 41 osds: 41 up (since 46m), 41 in (since 20h); 185 remapped pgs, m$ [* ^& @+ F
$ @. p6 _( G" i$ M- m5 g) Z
  data:
0 h& U$ y" h  W8 n6 }3 k    pools:   5 pools, 11265 pgs
9 Q. |2 H9 d% O% O    objects: 42.48M objects, 115 TiB
. m6 \: R9 {2 x% l4 R    usage:   232 TiB used, 365 TiB / 597 TiB avail% G0 ~) T( F" u( @& K  ^
    pgs:     800589/84967110 objects misplaced (0.942%)$ a" h  j5 B! d. p5 l2 {* D3 N2 U" F1 d
             11080 active+clean& X# l7 ?2 W- ?$ m- q
             184   active+remapped+backfill_wait' A7 a! J4 t8 m; l8 ]" ]0 X' x* T( e
             1     active+remapped+backfilling
' D; W6 Z" P4 M1 f% D9 ?
9 X! ?1 A" R! H2 B  io:2 w: t0 f/ Q" ~. W1 ]; K1 M$ M
    recovery: 22 MiB/s, 6 objects/s
( K; h% i; t  ^; O9 S

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2024-10-18 14:04:28 | 显示全部楼层
以下是其他的地方处理过程:
$ U" c/ ^( L) ?3 e( V9 `" `ceph mon节点迁移
& y5 H5 I, D- n: O3 [有时可能需要将ceph存储整机移动到不同的网络、数据中心的不同部分或完全不同的数据中心,甚至于新机房和老机房的网络都不是互通的,那么就需要使用离线迁移了。( U! a( D* l& X  b. Z

8 r2 Y" I& M: G- [1 B8 I" Y离线迁移主要涉及到的就是mon节点的改变。. }% k' d3 c2 t  F/ R6 G" c9 I
解决方案是为集群中的所有mon生成具有新IP地址的新 monmap,并将新映射注入每个单独的mon
% Q' I: u9 r% \; Z8 \; ^: k# Z& k, L. S# \" U9 @$ r! X! L
获取集群当前monmap(搬迁前进行)
* x' l& t5 d4 ]8 b2 H0 h* k获取集群monmap这里又分为三种情况:Ceph mon能够形成仲裁;Ceph mon不能形成仲裁待至少有一个存活;所有的Ceph mon都已经损坏了。
' k7 V/ T. R: {7 ^1 p0 c+ ?: q# ~
$ h" n# z9 Z( w9 O$ s1 B3 W7 L如果剩余的 Ceph mon能够形成仲裁(多数存活),请使用 ceph mon getmap 命令获取 Ceph monitor map:
: J$ Y# `* ~8 u% n" b" e" I# q( c
/ N2 f; a2 m' i- o7 c7 A( M7 P: U1 Cceph mon getmap -o /tmp/monmap# Z( _6 J) H1 a5 r5 @
如果此时ceph的mon已经不能够形成仲裁了(多数mon挂了),那么在健康的正确的mon机器上通过如下步骤获取monmap
% u4 [! H, x# [  C9 e# Q
3 L5 j" n8 M, O, @+ Z7 T% ]// 停止您要复制 Ceph monitor map 的 Ceph 监控器# A& G( d7 F3 @9 x  U: P* I( e
[root@mon ~]# systemctl stop ceph-mon@<host-name>& i9 `- J2 a* k- e& }) ^0 ]  x$ d
// 获得ceph monmap0 Y- r$ i) N$ L
[root@mon ~]# ceph-mon -i ID --extract-monmap /tmp/monmap* N5 Z+ q6 M1 D: c# o! r0 d$ W( z
如果很不走运,所有的mon都损坏了,那么还有没有什么办法获取到集群的monmap,以至于恢复整个集群呢?7 r, G  ^! T: y9 [

# Q* N, w! M+ A/ K当然,也是有的,可以借助ceph-monstore-tool和 ceph- objectstore-tool 这两个实用程序,通过 OSD 节点上存储的信息来恢复它,具体详情请参考: 使用 BlueStore 时恢复 Ceph monitor 存储
7 v1 B3 l* {, j2 n( |
* F+ C# {4 c$ h" F8 u删除临时monmap中的老的mon
6 }# I3 b" M# t! g& {# monmaptool --rm node1 --rm node2 --rm node3 /tmp/monmap ; F4 l) B- G& ]5 W: n% @( z% x8 _
monmaptool: monmap file /tmp/monmap" O5 ]/ ~+ {) ?' ]1 M
monmaptool: removing node1
' e1 i) v2 P! L0 z' Xmonmaptool: removing node2
( O( a/ @. D  k  \monmaptool: removing node3
: K1 I' F4 T' K3 _0 nmonmaptool: writing epoch 1 to  /tmp/monmap (0 monitors)
" g5 U1 n) o: T! `0 F向临时monmap中添加新的mon% A0 K+ {) R2 }5 P) Z/ x4 C
# monmaptool --add node1 192.168.244.44 --add node2 192.168.244.45  --add node3 192.168.244.46 /tmp/monmap; _7 c2 o2 X" t* y0 H
monmaptool: monmap file  /tmp/monmap
  d$ j+ ^# }# f; {  l: i2 Qmonmaptool: writing epoch 1 to  /tmp/monmap (3 monitors)
4 f8 v( y) L* `2 W停止所有mon服务并注入monmap
9 L2 j' X$ H2 I, ?  m首先要先确保新的mon已经在新的服务器上安装起来了,然后stop掉mon进程,每个mon新节点都要执行
) Z& }( ~6 F3 R: I9 o  W8 }/ v6 z/ E: [! N8 X" v
ceph-mon -i {mon-id} --inject-monmap /tmp/monmap0 T9 N9 `4 s( ^7 I! k( U9 a, l: h
更新所有服务(mon,mds,client,mgr,osd等)的ceph.conf; G) N4 D9 L8 J
这里需要注意的是如果新ip的网段也有变化的话,那么除了要更新ceph.conf文件中mon\_host信息,还要更新public network/cluster network的网段信息
# q% ~0 V4 {$ f% l9 e- C
( n$ |" r; x7 l8 }- T' A# c( r同步的话可以通过ceph-deploy命令
, P7 P  X5 @- t( d4 Q1 K3 A' m5 P. ?+ Z' e5 A) Y
ceph-deploy --overwrite-conf config push node{1..3}
+ y" t  U, B# n& R& \关于上层服务
$ h5 p, Y" z0 q使用ceph底层存储的服务可能有虚拟机,k8s集群,如果ceph存储搬迁机房了,还需要服务之前的老的客户端,那么他们也需要做相应的变更
5 j# l9 c4 B: H
) K2 c6 q$ U# s+ c% pceph文件系统直接挂载+rbd挂载8 [7 l8 K0 `$ C; |3 E, W
直接把新的ceph.conf同步到client节点就可以

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2024-10-18 14:23:53 | 显示全部楼层

# t9 f; M+ z" T+ B! l7 J" `) p其他文献解决办法:
! v7 j7 I& ~0 k1 T
$ }3 f4 S& H4 P2 I- O1 问题0 o/ M' E) u! L$ Y9 F+ z7 V# v

3 d1 e7 O0 g$ Z, q+ C一般来说,在实际运行中,ceph monitor的个数是2n+1(n>=0)个,在线上至少3个,只要正常的节点数>=n+1,ceph的paxos算法能保证系统的正常运行。所以,对于3个节点,同时只能挂掉一个。一般来说,同时挂掉2个节点的概率比较小,但是万一挂掉2个呢?  F8 Y& u/ C+ P3 Z5 m2 V0 P" @8 |
" r. R! D! D& B: `! O" p: g
如果ceph的monitor节点超过半数挂掉,paxos算法就无法正常进行仲裁(quorum),此时,ceph集群会阻塞对集群的操作,直到超过半数的monitor节点恢复。; j, l$ q0 R+ g, U

# D6 F* z, e6 Z" X3 B. [; F1 E" sIf there are not enough monitors to form a quorum, the ceph command will block trying to reach the cluster. In this situation, you need to get enough ceph-mon daemons running to form a quorum before doing anything else with the cluster.5 f' N# m4 b. T, z3 @( @: w

  {5 U0 L* F: \  ]: A  r" h2 L1 f  v
2 H" b! u/ x; L/ U5 M* s: h8 x
) i7 A0 o, S3 d2 D$ _所以,7 I9 L& ^/ x  D0 e+ Z6 A6 i
& V' `% x* A- L+ e
(1)如果挂掉的2个节点至少有一个可以恢复,也就是monitor的元数据还是OK的,那么只需要重启ceph-mon进程即可。所以,对于monitor,最好运行在RAID的机器上。这样,即使机器出现故障,恢复也比较容易。( t& s& q* b. G# L8 N. I
; c1 T" p2 b  D
(2)如果挂掉的2个节点的元数据都损坏了呢?出现这种情况,说明人品不行,2台机器的RAID磁盘同时损坏,这得多背?肯定是管理员嫌工资太低,把机器砸了。如何恢复呢?
2 t, W3 k) }/ H6 i6 p3 V7 x$ h2 }! O
2 恢复$ \; r0 y% P3 z/ `4 [
其实,也没有其它办法,只能想办法将故障的节点恢复,但元数据已经损坏。幸好还有一个元数据正常的节点,通过它可以恢复。$ t- n) W: W9 ]+ O1 e) W
0 C1 b* D( P4 r5 C0 z8 b0 N# w

; E5 c" |: F# ~8 f3 D4 o0 s- N# m/ K# M! r0 n, t
添加monitor的步骤:
' H/ K6 v2 Z, F- W6 }
9 ]1 n" M/ z7 i& d: q$ ceph mon getmap -o /tmp/monmap           # provides fsid and existing monitor addrs
: B( G- L: e2 @- P) q2 A& S" x! v7 A( M; ~) X
$ ceph auth export mon. -o /tmp/monkey     # mon. auth key5 Y8 n$ J& j* X% I0 C
8 S* B5 j, I2 P  J( M
$ ceph-mon -i newname --mkfs --monmap /tmp/monmap --keyring /tmp/monkey- f/ \& a7 O3 }# I
# T- [  K; R  j
所以,只要得到monmap,就可以恢复monitor了。
( h& ?+ K# z0 Y, m. C4 h' g/ z2 E! B4 t
为了模拟,考虑2个monitor节点,挂掉一个,此时通过网络访问ceph的所有操作都会被阻塞,但monitor的本地socket还是可以通信的。
& w. e* E/ k" i3 o8 R/ C6 U5 I6 S( `( K# q% f& C. J
NewImage' H' \" T; ~% D* j

3 v9 G9 W* M4 J/ Q7 A   W  \1 |8 p8 L- q6 m
. e' y8 H" I; M3 C' f
但是,让人蛋疼的是通过socket不能进行monmap的导出。不过,幸好有monmaptool工具,通过它,我们可以手动生成(注意fsid):. Q. G  b* J' s

6 b; r2 \$ P: w* k3 Z2 N( n7 @6 t' t; z# monmaptool  --create  --add vm2 172.16.213.134:6789 --add vm3 172.16.213.135:6789 --fsid eb295a51-ec22-4971-86ef-58f6d2bea3bf --clobber monmap
+ Y. ?  R. Z2 s& i
# x; Z' F+ b* dmonmaptool: monmap file monmap0 |* r1 j. a* n; _7 g2 J: e

5 T4 X. }3 d" S3 M1 M. {monmaptool: set fsid to eb295a51-ec22-4971-86ef-58f6d2bea3bf
& \0 E4 D/ `" i& N; W4 ^- y) j% N; P9 n
monmaptool: writing epoch 0 to monmap (2 monitors)0 X  ~. I( Z+ b& A! L

% a. ?2 A1 }3 N- G* ?: R将正常monitor节点的mon key拷贝过来:
! X  N" w2 b' P4 _  I$ _
% |. k1 Q# i( _9 p# cat /var/lib/ceph/mon/cluster1-vm2/keyring$ k% c0 N& s, m+ r9 e: _4 Z( `

8 A3 L) ?; y: R7 s[mon.]
, g: b- Q; r6 d4 a1 T4 M9 n; R* _
+ {" h, W8 @* c7 [        key = AQDZQ8VTAAAAABAAX9HqE0NITrUt7j1w0YadvA==3 |# v  F+ M4 N7 }( I' w
- H2 L. z! N. |1 K( v* P4 L* M
        caps mon = "allow *"" f& h4 L6 k/ d: s; @7 j5 @* G
, s" d7 `& g3 }& i
$ K6 `6 E6 X# p5 \, C" a

0 @1 o. X/ }7 ^( Z  y4 X3 h然后初始化:2 P6 }+ v1 [" V1 [# a
3 H& @5 ^4 v, X2 C5 X, q- }4 W
# ceph-mon --cluster cluster1 -i vm3 --mkfs --monmap /root/monmap --keyring /tmp/keyring& G8 c0 C4 V; U8 C8 s# H

% s/ S5 C( Y2 |" E! dceph-mon: set fsid to eb295a51-ec22-4971-86ef-58f6d2bea3bf, _5 @( l+ N9 w" X; g- `7 T& Q

) `' k$ }# w" g4 Mceph-mon: created monfs at /var/lib/ceph/mon/cluster1-vm3 for mon.vm3! u1 s+ i' h+ @6 A+ |

7 X3 M$ g/ z  ]: h8 u  q% b! X( X最后,启动故障节点:
5 x: h/ h3 n  |( i5 s  v3 |+ g! f4 B( X% x7 U5 a
# ceph-mon --cluster cluster1 -i vm3 --public-addr 172.16.213.135:6789
2 {( B3 l. F. d% s/ w. y6 H* }+ ]: c# ?1 t; d0 h$ M5 I
4 B3 V7 f7 E. Q

6 N" N- I8 O0 G2 l NewImage; @3 }4 h- K+ T6 b6 s
- w% L) J9 G: r( V) k% r
一切OK!

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2024-11-2 15:49:58 | 显示全部楼层
最近还发现一个问题就是一个节点上存在磁盘空间超过80%之后,mon的服务也会停止。这个很隐形的问题。需要注意。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

返回首页|Archiver|手机版|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )

GMT+8, 2026-6-11 23:04 , Processed in 0.023933 second(s), 22 queries .

Powered by Discuz! X5.0

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表