找回密码
 注册
查看: 178|回复: 4

ceph存储当mon节点全部出现问题的时候或者单独一个节点出现问题时恢复过程

[复制链接]

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
发表于 2024-10-18 08:30:57 | 显示全部楼层 |阅读模式
当mon节点全部出现问题的时候或者单独一个节点出现问题时恢复过程- X! f6 s  {2 R- {

- A. g8 H; [) U" o, ?; m' D( |  m( U, Q9 q' _
ceph一直无法正常的执行ceph -s命令;- C" N& G9 V8 u0 ?+ {. C8 M4 N

9 Z3 w2 X$ |7 L0 _' y6 z
8 I0 U, W+ z3 @3 V' O- v3 a8 k: H
ceph分部署存储告警monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]
8 a* B# z3 e* R
* l" v% y# F) G- w3 q  V/ |7 ^2024-10-17T22:33:47.295+0800 7f20fe7fc700 -1 monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]
+ b0 y) a8 \/ A4 H0 x2024-10-17T22:33:47.297+0800 7f20ff7fe700 -1 monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]
) B+ A" z3 V* B& Y2 l1 \, d
) W7 h9 v+ I8 e" \6 l
; M5 d, E9 i* Y6 E9 p0 A
) f3 p, x4 M5 V环境中也就只有gm268-3节点因重启失败夯住是好的,gm268-1和gm268-2都已经被损坏。只能想办法从3上入手解决。
* v" h" H# ?: I& P3 x1 y+ u0 f  |, I  i7 L2 x6 ]8 [
结果过程:9 R6 X. s/ G+ C& [, p* R1 m+ U, F
' f2 t+ ]8 E; X! f( M, w$ r
1、在gm268-3节点上导出monmap文件:
9 S0 L5 _: J+ q8 ?9 Z7 B$ l
$ ~+ _. s7 \8 G3 E/ ]( E) e, [7 _4 `6 A3 l+ F- [% q; T4 i
$ monmaptool --create --clobber --fsid ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9 --add gm268-3 10.12.3.2:6789 --add gm268-2 10.12.2.2:6789 --add gm268-1 10.12.1.2:6789 /tmp/monmap; P' l  g, n+ i8 X
monmaptool: monmap file /tmp/monmap
& N6 Z0 t( S0 V  b" \5 fmonmaptool: set fsid to ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9
& ~* Z) {+ V' N1 x5 Lmonmaptool: writing epoch 0 to /tmp/monmap (3 monitors)( W$ j0 J3 g4 J3 X8 q

' c1 Y" J* l& K" K
+ N) i' A& A% {3 Q. F( N导出monmap,好的节点写在前面,后面把所有的坏节点加上就可以了。' M2 N6 B& y' D+ E$ I# `2 T7 q8 ~
8 R; q) J! O+ u: [5 |
查看下导出的文件信息:. y% O0 `9 p# e

3 d; s% e5 ?; L/ m$ T/ x, u0 a" M6 V$ monmaptool --print /tmp/monmap ; _  L6 G/ u* H7 |( B& E: {1 ]
monmaptool: monmap file /tmp/monmap
4 _& @. \! s; S* Lepoch 0; c% T# \7 U: \, ?* L8 M- B3 n
fsid ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9
* Z2 d8 W6 `# F# C$ B& i9 Y5 Xlast_changed 2024-10-18T13:17:03.645872+08007 a* q6 Q9 h" S8 r5 `4 w4 w. j
created 2024-10-18T13:17:03.645872+0800
) U- x7 M! j# m- K# mmin_mon_release 0 (unknown)0 `& J! t( _9 j4 ]" [! Y1 c
0: v1:10.12.1.2:6789/0 mon.gm268-1  G; z9 B2 s1 N& o  N0 W
1: v1:10.12.2.2:6789/0 mon.gm268-2& v/ B/ k" E' S, b3 {
2: v1:10.12.3.2:6789/0 mon.gm268-3! F) T) h( g* N$ z3 H  |! R1 `
- `2 r' s  W( p" d2 @
& z# [! T- d/ s4 H

4 Z, e3 v# b' b: @+ R2、去gm268-1和gm268-2的节点上找到/var/lib/ceph/mon 目录,备份下。删除掉。因为文件被修改了,导致文件有异常,没有导致认证出问题。原有的/etc/ceph/目录不能删除。
) Q6 Y3 g/ h# |% q! l" z
' n; K. m* K6 s+ ?& `
4 ]7 }# [! s/ H3、将正常节点上keyring和导出的monmap文件传送到其他两个节点上:
  B1 x1 B+ d6 w  ~/ o5 `8 u! z! f8 f: Z. l8 X2 D
scp /var/lib/ceph/mon/ceph-gm268-3/keyring  gm268-2:/tmp/
' ]6 v' U' M6 {! ~scp /var/lib/ceph/mon/ceph-gm268-3/keyring  gm268-1:/tmp/% c' J3 k& W8 K$ g9 _. o& h, X8 H7 E

) T* @5 \6 ?* s  q" fscp /tmp/monmap  gm268-1:/tmp/% q8 n4 I& O( t6 n2 Y! \
scp /tmp/monmap  gm268-1:/tmp/" N5 W# w* L# w* X* d0 M' M6 I. o
! Z7 K# o  s3 \9 |/ D) n
, u9 Z/ u4 Y' a( u& G3 b
4、重做gm268-1和gm268-2 节点mon  
* V( @9 G0 W7 k$ P) ]; c9 i" [" zceph-mon --cluster ceph -i gm268-1 --mkfs --monmap /tmp/monmap --keyring /tmp/keyring -c /etc/ceph/ceph.conf
7 l  A, ~. o/ T+ G/ \* A6 D: b/ L4 f- e8 v" m6 v
切换到/var/lib/ceph/mon目录下
1 \* U0 |" N" k: ~执行:5 B$ ?0 l6 g5 ^* v) T) _; X
chown -R ceph:ceph mon/
" K1 B* }1 f9 [# k! c5 t
' G% Q, p. u% x% ?启动mon服务:* ?- P0 R( S' h1 j3 k
systemctl start ceph-mon@gm268-1.service
( k1 o$ A+ L  I6 l' G
6 I/ C& z+ l( S6 T; r% X" T3 }查看服务:
% D% A# r/ y9 U* d7 n( D$ j
2 q, H, G2 f( j* X% `6 y$ systemctl status ceph-mon@gm268-1.service
$ }" @4 H  V5 r6 y3 x4 P' e0 Qceph-mon@gm268-1.service - Ceph cluster monitor daemon. j1 b% l* ^+ E
   Loaded: loaded (/usr/lib/systemd/system/ceph-mon@.service; enabled; vendor preset: disabled)
) d! H  @% {5 L   Active: active (running) since Fri 2024-10-18 13:21:24 CST; 38min ago" C' L% X; {1 b* M3 j$ F
Main PID: 664542 (ceph-mon)
0 [  J$ \& F6 w8 i    Tasks: 27
1 p- s& v7 F" c, {   Memory: 286.0M9 n: L& k1 b; [- x" G+ h0 m/ q
   CGroup: /system.slice/system-ceph\x2dmon.slice/ceph-mon@gm268-1.service
4 W  D; }) c" g  N5 R. q; g+ O, @           └─664542 /usr/bin/ceph-mon -f --cluster ceph --id gm268-1 --setuser ceph --setgroup ceph
# i' h2 Q$ {4 \# o: I& r/ w3 T7 X& S& v: h4 e
Oct 18 13:21:24 gm268-1 systemd[1]: Started Ceph cluster monitor daemon.1 Q$ S2 n8 U" _9 B2 i
Oct 18 13:21:24 gm268-1 ceph-mon[664542]: 2024-10-18T13:21:24.793+0800 7fcc5f804700 -1 mon.gm268-1@0(probing) e11  stashing newest monmap 11 for next startup8 o+ A6 o! B) R0 ?5 P+ n% B
Oct 18 13:21:24 gm268-1 ceph-mon[664542]: ignoring --setuser ceph since I am not root2 h8 S+ N8 H$ y2 \
Oct 18 13:21:24 gm268-1 ceph-mon[664542]: ignoring --setgroup ceph since I am not root! h9 B" m3 t  i  p7 G6 _

7 s* p! Q9 w- {; g" n& x0 D. A# M3 i4 s/ Z, {" E. D' y
节点修复完成。; F$ m$ p+ s2 W' F1 J) H
节点二上
7 |* {9 L' o% F0 h" l! g/ o0 c4 m  W5 V" K
ceph-mon --cluster ceph -i gm268-2 --mkfs --monmap /tmp/monmap --keyring /tmp/keyring -c /etc/ceph/ceph.conf & l- e. q, V% M# {* [/ c( `
. K, N; Q" x5 ?8 {
切换到/var/lib/ceph/mon目录下( b; ?. T6 y8 O2 u8 ~
执行:$ k$ l. y! s) V" ?2 [
chown -R ceph:ceph mon/2 A  d: R0 s' z% f
9 w% @! z4 c: W  t6 A  @
启动mon服务:
+ Y4 l1 ]7 r+ u, Esystemctl start ceph-mon@gm268-2.service
' y/ \8 k7 t/ ?. L
) q  t! ^3 s' _% `% ?) S  O2 C3 b+ h7 {
! t, g$ |( ?, A; p8 L5 M6 t1 X  K: v
$ systemctl status ceph-mon@gm268-2.service 8 B* M6 u3 }. U6 A
ceph-mon@gm268-2.service - Ceph cluster monitor daemon
, k: |/ y% H* f& J& l# t  ^& d; Q   Loaded: loaded (/usr/lib/systemd/system/ceph-mon@.service; enabled; vendor preset: disabled)% O1 T( j* Y' j9 a, q: s7 x: Y
   Active: active (running) since Fri 2024-10-18 13:09:42 CST; 51min ago$ v: R+ C8 k4 i: u$ l3 F. U! A5 P0 h
Main PID: 157382 (ceph-mon)
, n* H) }+ ~5 K    Tasks: 27( a  D' ^. B  H- J& Y. O  u( ^
   Memory: 587.1M
5 d0 _: I  O. P( v* y- X. x0 F   CGroup: /system.slice/system-ceph\x2dmon.slice/ceph-mon@gm268-2.service
: T8 R# j0 L4 v           └─157382 /usr/bin/ceph-mon -f --cluster ceph --id gm268-2 --setuser ceph --setgroup ceph
$ \1 ^- x2 b: e* M* s6 `! q' d# V; I5 Z$ {0 U

, c# k' c& r. m+ |0 h4 U3 N2 v( T4 G

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2024-10-18 14:00:42 | 显示全部楼层
检查集群状态:0 v5 r) B4 g: ^- D' }# H8 n5 c
$ ceph -s
) e- d$ j/ J% S! u- P! U& f0 X  cluster:
2 y1 P9 }) [; [    id:     ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9
3 ]5 |0 _. k6 u/ J3 L' m9 t' K    health: HEALTH_ERR
: _0 W) {# N- ~7 X. O            3 failed cephadm daemon(s)
$ i  ^6 X) }+ |4 X6 E9 C4 p! D            failed to probe daemons or devices
" _* U3 C  k( i' s3 o5 q            2 mgr modules have failed& p9 e, p1 v  _
            mon gm268-1 is low on available space0 [' j% j% V- a: |9 {; r' |4 `" @
            22 pgs not deep-scrubbed in time* }( o+ T. _0 P, _
            1 slow ops, oldest one blocked for 2805 sec, mon.gm268-3 has slow ops
/ x7 a. I% y& r0 H# o  M/ T ! X; R  r2 j$ F, V  e4 [
  services:
' y: a" @/ ~$ n# O5 J    mon: 3 daemons, quorum gm268-2,gm268-3,gm268-1 (age 39m), ~) C$ F# T, h( ]
    mgr: gm268-2.zttohs(active, since 51m), standbys: gm268-3.sjagqo, gm268-1.jgdvxs
0 A+ p) P* K/ U1 K% i/ m& N    mds: cephfs:1 {0=cephfs.gm268-3.ppyjrl=up:active} 1 up:standby; _$ H- W# B" ~, {5 I. ]- U
    osd: 41 osds: 41 up (since 46m), 41 in (since 20h); 185 remapped pgs- i/ _) \$ o; {' R0 N
5 b& l$ u# P  v) S. I
  data:
' }& P2 N8 b; G+ y  x    pools:   5 pools, 11265 pgs
; {* G- {+ U+ b9 s! }6 {( {* ^    objects: 42.48M objects, 115 TiB
+ g4 w. M, g: W& X( M5 \8 Q    usage:   232 TiB used, 365 TiB / 597 TiB avail
) Z: o: q. x$ p$ s) w- W% P    pgs:     800589/84967110 objects misplaced (0.942%)
, W7 L: ^5 Y9 g3 J+ B& Z             11080 active+clean* P) A6 Q" G1 `' R1 f0 r; {' M( U2 ^
             184   active+remapped+backfill_wait) T( p- F) B/ T% Y
             1     active+remapped+backfilling. j- Z+ l: N9 t! S3 a; v& z
# Y8 ]( V3 J. v4 Q
  io:4 {# B* V" ^! w+ F; |
    recovery: 22 MiB/s, 6 objects/s
. y$ n- h, O2 {* ^

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2024-10-18 14:04:28 | 显示全部楼层
以下是其他的地方处理过程:
) V. J7 n6 _2 u! G0 c0 }ceph mon节点迁移
2 L$ ?( A2 p0 O$ _& W/ j& E: s8 s1 a7 [有时可能需要将ceph存储整机移动到不同的网络、数据中心的不同部分或完全不同的数据中心,甚至于新机房和老机房的网络都不是互通的,那么就需要使用离线迁移了。' |/ V0 c+ C) ~$ P
) z) E! A% `0 x) O1 N
离线迁移主要涉及到的就是mon节点的改变。: W- N/ b+ B" G) D8 V
解决方案是为集群中的所有mon生成具有新IP地址的新 monmap,并将新映射注入每个单独的mon
( Y7 d! }8 \4 x, B. v) C+ N! b7 A" e6 d) a
获取集群当前monmap(搬迁前进行)3 X( s# A; c- U' i: w. G
获取集群monmap这里又分为三种情况:Ceph mon能够形成仲裁;Ceph mon不能形成仲裁待至少有一个存活;所有的Ceph mon都已经损坏了。
* {% ^/ n6 L% r; S- U# J( f! l
: O8 m$ k' g5 C1 M  `2 @如果剩余的 Ceph mon能够形成仲裁(多数存活),请使用 ceph mon getmap 命令获取 Ceph monitor map:
  h( z! l. J8 K: J7 T* V! {" K0 o4 E2 d7 w7 s) B. F6 X% P) c
ceph mon getmap -o /tmp/monmap
" L1 h7 l: t  p8 s/ R如果此时ceph的mon已经不能够形成仲裁了(多数mon挂了),那么在健康的正确的mon机器上通过如下步骤获取monmap
5 O+ R+ k& ]# a" r6 k" U( n4 r  R8 {) Z
// 停止您要复制 Ceph monitor map 的 Ceph 监控器
# z) `7 j( D. ^7 n0 T1 }  d[root@mon ~]# systemctl stop ceph-mon@<host-name>
# |' t: l' x$ _* ]/ N, p0 S/ u// 获得ceph monmap
) }" N& u" L3 S. _8 Z5 p[root@mon ~]# ceph-mon -i ID --extract-monmap /tmp/monmap" b" C' ~9 L6 P
如果很不走运,所有的mon都损坏了,那么还有没有什么办法获取到集群的monmap,以至于恢复整个集群呢?
( J  X' f- H# o; G+ @$ V
  k: |& g5 W- [5 N7 ]当然,也是有的,可以借助ceph-monstore-tool和 ceph- objectstore-tool 这两个实用程序,通过 OSD 节点上存储的信息来恢复它,具体详情请参考: 使用 BlueStore 时恢复 Ceph monitor 存储
8 y% n  p9 J) r1 e- ]
) R) x4 D  F0 J. ^/ F0 N0 H' ]删除临时monmap中的老的mon
1 @- `' Z5 R  B# |; t" I# monmaptool --rm node1 --rm node2 --rm node3 /tmp/monmap
% C# d& k& w* }! @0 k4 T% y* ]monmaptool: monmap file /tmp/monmap9 }: c; q; }1 j" B
monmaptool: removing node1
. ?$ @- x+ O5 [3 V6 ]  X& vmonmaptool: removing node23 d: J8 r0 _, g% H- c
monmaptool: removing node3
% A3 I# R8 m7 X! `0 n3 M0 k$ O3 Imonmaptool: writing epoch 1 to  /tmp/monmap (0 monitors)- D: V" q, E' v4 a/ m$ z8 D
向临时monmap中添加新的mon
" d7 f. m1 r4 ~* a- O# monmaptool --add node1 192.168.244.44 --add node2 192.168.244.45  --add node3 192.168.244.46 /tmp/monmap5 j8 l# h7 `, n5 R, d) _! h' N
monmaptool: monmap file  /tmp/monmap
/ I; g7 g& k- Nmonmaptool: writing epoch 1 to  /tmp/monmap (3 monitors)
1 E$ G2 `& Z/ F3 E- V& @' X停止所有mon服务并注入monmap
7 k3 v: @/ w2 N8 m首先要先确保新的mon已经在新的服务器上安装起来了,然后stop掉mon进程,每个mon新节点都要执行
8 y7 q( A; I  B1 x5 f2 U, T5 [7 [% h3 j* a) j7 a$ l( Y
ceph-mon -i {mon-id} --inject-monmap /tmp/monmap
% n  l+ w: v. [8 c更新所有服务(mon,mds,client,mgr,osd等)的ceph.conf8 x" f& G" T" @6 ^  u
这里需要注意的是如果新ip的网段也有变化的话,那么除了要更新ceph.conf文件中mon\_host信息,还要更新public network/cluster network的网段信息
* ^4 y" ^) Z3 z4 o9 ^- Y% d7 t: h" @2 `3 T( M. {' x. g
同步的话可以通过ceph-deploy命令$ W5 J! L$ {+ [8 E: U2 |% v

* b1 |# D9 J" b) ^% R" S" Rceph-deploy --overwrite-conf config push node{1..3}# a# ?' C& q0 i. X9 x1 c: v
关于上层服务
$ ]3 @: Y; h$ ]0 o, I: B使用ceph底层存储的服务可能有虚拟机,k8s集群,如果ceph存储搬迁机房了,还需要服务之前的老的客户端,那么他们也需要做相应的变更
* N* E+ j- j5 i1 a: w+ T& z/ g
2 H$ M$ F# g) J2 e: Z/ iceph文件系统直接挂载+rbd挂载/ V* V+ A% S6 v! x$ Y
直接把新的ceph.conf同步到client节点就可以

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2024-10-18 14:23:53 | 显示全部楼层
; ]; R9 [' n, P6 O
其他文献解决办法:5 D- ]9 o9 D* m" I5 E
' H$ U" z; ~& `5 p+ q
1 问题
% k' ~: w- Q" k; W+ ~( t
2 ]7 P* Y( K+ h3 }4 P) X: f7 s一般来说,在实际运行中,ceph monitor的个数是2n+1(n>=0)个,在线上至少3个,只要正常的节点数>=n+1,ceph的paxos算法能保证系统的正常运行。所以,对于3个节点,同时只能挂掉一个。一般来说,同时挂掉2个节点的概率比较小,但是万一挂掉2个呢?
! o" w6 ], @$ ?& g
3 {2 E+ K) ^$ F' p如果ceph的monitor节点超过半数挂掉,paxos算法就无法正常进行仲裁(quorum),此时,ceph集群会阻塞对集群的操作,直到超过半数的monitor节点恢复。: _) P! N- x; o

2 d4 \/ |% v) L1 f+ pIf there are not enough monitors to form a quorum, the ceph command will block trying to reach the cluster. In this situation, you need to get enough ceph-mon daemons running to form a quorum before doing anything else with the cluster.+ X) _9 n$ ^% C

% x8 v4 W: J6 d0 ?2 R" o0 Z
2 l! c7 m( E1 B% T! W5 h6 S' Y( {" P# R3 X# A/ P# u! Y( K* p
所以,
$ \$ \/ b* _+ h* m3 z& `1 O1 E8 \9 H3 r/ m
(1)如果挂掉的2个节点至少有一个可以恢复,也就是monitor的元数据还是OK的,那么只需要重启ceph-mon进程即可。所以,对于monitor,最好运行在RAID的机器上。这样,即使机器出现故障,恢复也比较容易。4 B5 s# I& [6 l. \0 U4 J
/ `$ Y! m) k. U* D7 W, d4 v0 z
(2)如果挂掉的2个节点的元数据都损坏了呢?出现这种情况,说明人品不行,2台机器的RAID磁盘同时损坏,这得多背?肯定是管理员嫌工资太低,把机器砸了。如何恢复呢?
8 z8 W! d8 O* [
8 h  N- R6 e8 e8 {5 G% C: d2 恢复
9 L! q( _" U, U. T7 l# ?$ C其实,也没有其它办法,只能想办法将故障的节点恢复,但元数据已经损坏。幸好还有一个元数据正常的节点,通过它可以恢复。# |4 j. B8 e4 z1 l1 I8 ?
  k, e* g. a+ t% H

, ^1 v, }* G' T9 S" l* D9 L4 ]5 B6 W# i5 u% X
添加monitor的步骤:
7 X3 L5 {& f, e  }# |" p
, C/ w0 j# S( y1 A1 p$ ceph mon getmap -o /tmp/monmap           # provides fsid and existing monitor addrs5 _, M! t9 Y3 t+ X
4 R! O/ |0 P1 G- w. A* n4 B) u- m
$ ceph auth export mon. -o /tmp/monkey     # mon. auth key
0 H" b. H3 i0 F6 ]8 s* A" T: s% y
6 F) d. b* T7 M! Q0 E& o3 o$ ceph-mon -i newname --mkfs --monmap /tmp/monmap --keyring /tmp/monkey
! @; E& l4 D+ \# u
9 r) v2 i, _1 o7 T& F所以,只要得到monmap,就可以恢复monitor了。. M' G9 M7 G5 S5 @! Z0 N
' T2 a: E' m! Z& N5 u0 H" d
为了模拟,考虑2个monitor节点,挂掉一个,此时通过网络访问ceph的所有操作都会被阻塞,但monitor的本地socket还是可以通信的。
' L; O! X8 `: c6 z2 z$ \8 u' U: E
NewImage! n+ Y/ Z) i9 @2 f6 o( c3 E
( o" C) n* o' F+ o

! ^8 V  ]  }6 F' u9 U
* V$ t5 ^4 u2 G* k( z# i. C5 b但是,让人蛋疼的是通过socket不能进行monmap的导出。不过,幸好有monmaptool工具,通过它,我们可以手动生成(注意fsid):1 w, l4 q; m- H7 ^8 ~/ x6 z( R

5 |* ]" a- W4 F% y/ s$ L1 Q# monmaptool  --create  --add vm2 172.16.213.134:6789 --add vm3 172.16.213.135:6789 --fsid eb295a51-ec22-4971-86ef-58f6d2bea3bf --clobber monmap
( m. X" V: ~. J' S4 T3 x6 ?$ }
8 ?, J3 @: X4 A0 z3 C3 Smonmaptool: monmap file monmap
1 i( ]5 M; b% o4 ?$ Q$ {, _5 L8 V3 X
monmaptool: set fsid to eb295a51-ec22-4971-86ef-58f6d2bea3bf
% `( P( [: ?* l2 d5 m) r7 L" p! c4 w* n( d
monmaptool: writing epoch 0 to monmap (2 monitors)
3 {, M) \; `9 w& X. H7 e) a! t- u; n
将正常monitor节点的mon key拷贝过来:  p  u9 Y* E( A3 o9 G
* L- h) x% e- v3 p
# cat /var/lib/ceph/mon/cluster1-vm2/keyring
' ~" c! i. X( e/ v- p: ~1 h; T$ ^! X2 y& `
[mon.]+ A- o! I( R/ e" q
! F7 ?- J) L- v! J6 _6 P$ ~
        key = AQDZQ8VTAAAAABAAX9HqE0NITrUt7j1w0YadvA==: z, K/ W# d0 l  f2 x& f2 [
" ^/ K  ^1 W5 F) {# M! j" f8 [! [# [. q
        caps mon = "allow *"& h% e; C) c4 x# g$ {0 b
* G3 L# t. q# p: D
' \0 q. d% h& P5 b1 \: l2 x* V

8 I. v( Y+ E8 B% n; E2 Y然后初始化:
5 Z$ Q7 i" H4 Z9 D( F0 j
/ x6 u& K. j! G- }# ceph-mon --cluster cluster1 -i vm3 --mkfs --monmap /root/monmap --keyring /tmp/keyring
# e5 u$ }, ^. V2 V) @& }
% N7 M6 V) u$ ~8 `5 Y$ vceph-mon: set fsid to eb295a51-ec22-4971-86ef-58f6d2bea3bf7 s; T- h/ I' ^* ], z8 U

  P3 E2 r1 y) wceph-mon: created monfs at /var/lib/ceph/mon/cluster1-vm3 for mon.vm3
& v9 Q4 l& L, g9 P+ _: c6 ^; J/ P" ]' c* X9 Y1 U+ B- h
最后,启动故障节点:
: }; x, y+ p% z4 I9 F* b: I/ h9 w' g, J  F: ~
# ceph-mon --cluster cluster1 -i vm3 --public-addr 172.16.213.135:6789" d# k& T+ ^$ {5 y6 i: p# q& y3 ]
" {% J' L% l: p" w0 g' ?7 M# _
+ {5 q" Y$ H4 j0 z7 d: _5 x5 O6 y

9 p& W2 I3 S" u5 h* h! y NewImage
8 }+ m+ K0 }# t: b" a3 J7 D% z! v- K3 {* f
一切OK!

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2024-11-2 15:49:58 | 显示全部楼层
最近还发现一个问题就是一个节点上存在磁盘空间超过80%之后,mon的服务也会停止。这个很隐形的问题。需要注意。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

返回首页|Archiver|手机版|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )

GMT+8, 2026-6-12 01:05 , Processed in 0.020105 second(s), 22 queries .

Powered by Discuz! X5.0

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表