找回密码
 注册
查看: 183|回复: 4

ceph存储当mon节点全部出现问题的时候或者单独一个节点出现问题时恢复过程

[复制链接]

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
发表于 2024-10-18 08:30:57 | 显示全部楼层 |阅读模式
当mon节点全部出现问题的时候或者单独一个节点出现问题时恢复过程7 \* G  N& ~* f' X) d7 c
* T/ e: k8 b4 x
0 q2 A0 j6 ]+ `# {! t: w
ceph一直无法正常的执行ceph -s命令;$ h3 \3 Y& G8 A) v& F2 E
, T- B/ i/ A! H/ ^& q6 o& a
% u! O. K, ]+ x: P
8 `" L2 v( Y& w  _4 `, {* b0 m$ e
ceph分部署存储告警monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]
' N+ H( @* v' [3 n1 l9 y7 o8 @' J8 l5 d9 q7 j) W  ]" H
2024-10-17T22:33:47.295+0800 7f20fe7fc700 -1 monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]
! }$ U3 v1 o3 B# J4 t2024-10-17T22:33:47.297+0800 7f20ff7fe700 -1 monclient(hunting): handle_auth_bad_method server allowed_methods [2] but i only support [2]
# h9 [. \9 z/ w8 {9 v" k- n. q5 j8 r. h/ N( {$ [1 r# e7 C

4 h; I; L- D! a
+ y) s$ _. @. c# i0 G环境中也就只有gm268-3节点因重启失败夯住是好的,gm268-1和gm268-2都已经被损坏。只能想办法从3上入手解决。$ c. R2 e: ~/ u# E
0 R7 @( x& N- I( w4 W5 W
结果过程:
" K, v" }/ J: a! M+ {9 e6 f8 m$ f- S2 X- q) L. }+ v# A" Q
1、在gm268-3节点上导出monmap文件:
* l" \; T  B6 W; ?3 Q" n) i$ u  S2 J7 Y& B0 b& @

% B+ b  Z* E; p6 b( B0 [7 u$ monmaptool --create --clobber --fsid ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9 --add gm268-3 10.12.3.2:6789 --add gm268-2 10.12.2.2:6789 --add gm268-1 10.12.1.2:6789 /tmp/monmap
5 m+ B3 p6 x' f5 ?9 p5 @) Y# Imonmaptool: monmap file /tmp/monmap
* \3 [) \1 H* l% i: m# Qmonmaptool: set fsid to ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9: I9 L  ]) `' ]" Z* \4 h+ A
monmaptool: writing epoch 0 to /tmp/monmap (3 monitors)
" T3 p  R5 t8 W2 j; I: [0 x+ a
- G3 Q; j! u5 ^; K! c3 G  P7 x
导出monmap,好的节点写在前面,后面把所有的坏节点加上就可以了。
- ^0 ~- T, u# B0 K! {" h& W1 ]2 o( r" T+ X0 E' A
查看下导出的文件信息:& D1 C9 v9 y7 s1 [
# ^( M2 C& ?; M/ Z& y
$ monmaptool --print /tmp/monmap
) @' g3 C, t6 ?& W1 a1 P% p  s$ Vmonmaptool: monmap file /tmp/monmap+ `' G: ]; g# \/ H4 t
epoch 0
, |4 a3 ]( l/ }; n+ f' m6 afsid ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9
1 }& r( s& [9 B; Olast_changed 2024-10-18T13:17:03.645872+08003 Q9 j+ y) i! t0 j1 R2 Z; Z
created 2024-10-18T13:17:03.645872+0800
! j- M$ g# |! y9 r8 T1 S/ q  _min_mon_release 0 (unknown)
6 H# h8 Z! S$ Z$ Y0: v1:10.12.1.2:6789/0 mon.gm268-1
. ^( i: G) u9 ~# `: X( I1: v1:10.12.2.2:6789/0 mon.gm268-2: [( U! n( `' e" c$ K* h3 v# M
2: v1:10.12.3.2:6789/0 mon.gm268-3+ R- k# h# U; U$ N. F7 n2 `4 o
* I! N) j# Z7 R

' t, v6 ^$ D, g" x2 M/ A
6 Z' b% s& j$ u8 W2、去gm268-1和gm268-2的节点上找到/var/lib/ceph/mon 目录,备份下。删除掉。因为文件被修改了,导致文件有异常,没有导致认证出问题。原有的/etc/ceph/目录不能删除。
  Z1 }* N* x9 f' o* X8 G, w% T; H9 U2 q% X9 r0 c6 r" |& U4 _1 v7 {

5 C6 [; X% g7 p4 u3、将正常节点上keyring和导出的monmap文件传送到其他两个节点上:2 c: r0 _, N+ a( ?
9 i( B" e7 H/ r( F
scp /var/lib/ceph/mon/ceph-gm268-3/keyring  gm268-2:/tmp/
( b& D8 Z4 X; k! I1 g; }) V( {; Oscp /var/lib/ceph/mon/ceph-gm268-3/keyring  gm268-1:/tmp/
3 R0 u# w+ S5 a
& o, l; W: h2 I4 H7 @scp /tmp/monmap  gm268-1:/tmp/0 L1 \* C, U: g3 R9 }. F/ p& n
scp /tmp/monmap  gm268-1:/tmp/
- g5 }, R* H  i3 `5 a" a, M4 c% F* u' x0 n, x6 n  @. F; o

( [0 t  V* c' k$ r* O# M4、重做gm268-1和gm268-2 节点mon    p# B9 o! ^3 e6 o1 O- c; J  g+ O
ceph-mon --cluster ceph -i gm268-1 --mkfs --monmap /tmp/monmap --keyring /tmp/keyring -c /etc/ceph/ceph.conf ( X0 C) `% D) F3 I, x% }5 _2 K

( ]4 c- I6 d! r切换到/var/lib/ceph/mon目录下3 m! \6 U* K4 ^& P3 F4 H2 \* q8 n
执行:
8 V9 `3 G* @$ F4 m  p4 S$ I2 s6 wchown -R ceph:ceph mon// @/ Q4 `; o& B  _
1 ~, O7 R) c& k4 i
启动mon服务:) _3 M0 x/ F! Q2 _3 M  a' A
systemctl start ceph-mon@gm268-1.service
+ l1 y% w( K& W7 R4 L% l5 i9 I: R; p# Y# U, m
查看服务:
( F+ i! Z- S7 v9 p3 g. s
% \# b8 W4 q' S5 h( B$ systemctl status ceph-mon@gm268-1.service $ x* }" u! }4 f! l! u3 `. m
ceph-mon@gm268-1.service - Ceph cluster monitor daemon
( d4 l7 V7 ?9 K7 B7 x1 [   Loaded: loaded (/usr/lib/systemd/system/ceph-mon@.service; enabled; vendor preset: disabled), L4 {2 c7 A! S6 |( l
   Active: active (running) since Fri 2024-10-18 13:21:24 CST; 38min ago7 b! F3 W4 S7 `! y
Main PID: 664542 (ceph-mon)& w: N" y5 r  B
    Tasks: 274 k2 _- W0 X* T. Y/ a2 y- G) a; a
   Memory: 286.0M" x, b) Y0 s0 u2 `, O' Y
   CGroup: /system.slice/system-ceph\x2dmon.slice/ceph-mon@gm268-1.service8 @' J+ b+ }. S; B& P5 u# g/ @
           └─664542 /usr/bin/ceph-mon -f --cluster ceph --id gm268-1 --setuser ceph --setgroup ceph5 h  T: l$ Y' }: S1 ]

; O# u) H* }8 E1 sOct 18 13:21:24 gm268-1 systemd[1]: Started Ceph cluster monitor daemon.$ r+ |' C3 c: a/ D
Oct 18 13:21:24 gm268-1 ceph-mon[664542]: 2024-10-18T13:21:24.793+0800 7fcc5f804700 -1 mon.gm268-1@0(probing) e11  stashing newest monmap 11 for next startup
& k$ D6 T/ q, GOct 18 13:21:24 gm268-1 ceph-mon[664542]: ignoring --setuser ceph since I am not root
# {0 N5 a' S) o6 O; ^9 B. p" QOct 18 13:21:24 gm268-1 ceph-mon[664542]: ignoring --setgroup ceph since I am not root
3 T& p0 d8 f3 Y. r7 L8 ?$ U0 T; v
$ @$ x, K/ w; f% U+ `+ `7 u6 J4 e" g' T( b% N
节点修复完成。
, N4 j7 `( W- v" q/ q. d4 |节点二上
- D3 }* P+ g/ f8 ?( x! f# W) S1 a  ?7 Z4 V; ~
ceph-mon --cluster ceph -i gm268-2 --mkfs --monmap /tmp/monmap --keyring /tmp/keyring -c /etc/ceph/ceph.conf
+ T- V: h/ c/ |' m3 }5 Y* }0 |
; u$ ?0 ^6 j+ R  u( z切换到/var/lib/ceph/mon目录下; s( W3 ^+ }: ~8 v/ ?; j
执行:
( Q/ g, Z6 C/ x7 K& N! Cchown -R ceph:ceph mon/
5 `2 F) |9 y  P3 N" i( Y, p" x1 _9 o: y/ e1 f4 c
启动mon服务:& b( F4 m6 a/ q2 X1 r2 w
systemctl start ceph-mon@gm268-2.service
4 G8 [% ?, h5 a2 l7 O; W, Y; r. k; o4 g- P! j0 i1 d$ F6 E
1 u; q! L- `/ o0 u# b) y, k
# n( A: u8 S  ^! z
$ systemctl status ceph-mon@gm268-2.service 0 L2 a) f% j0 Q/ b! C& Q, y
ceph-mon@gm268-2.service - Ceph cluster monitor daemon4 n  C3 u+ _: F! {& V+ P, V* B
   Loaded: loaded (/usr/lib/systemd/system/ceph-mon@.service; enabled; vendor preset: disabled), O$ I+ r+ }  t/ d
   Active: active (running) since Fri 2024-10-18 13:09:42 CST; 51min ago
1 r4 m, u  Z8 { Main PID: 157382 (ceph-mon)6 g/ K! j* m& d6 _
    Tasks: 272 m, ]' U# p+ \7 n
   Memory: 587.1M0 @! Q2 _8 O/ E( c1 R( \+ @8 n& d
   CGroup: /system.slice/system-ceph\x2dmon.slice/ceph-mon@gm268-2.service" ~  {, V. \' ?: n- v
           └─157382 /usr/bin/ceph-mon -f --cluster ceph --id gm268-2 --setuser ceph --setgroup ceph& b( F7 ^( A8 J: G0 K- L) R# b
. b0 t. I8 X8 R; V! E

$ {1 [: r& e+ h9 y$ }

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2024-10-18 14:00:42 | 显示全部楼层
检查集群状态:
$ T# R! J+ a: M2 J+ M) z0 n8 h; u$ ceph -s
& t0 h+ [% X+ }* Z. Q  cluster:
  T% v& I9 F" y+ [$ V, Y' r# F8 S    id:     ce68aab8-8f46-11ed-88c0-ac1f6b3a30b9' G+ y0 Q  d" ?$ g; H2 u4 o8 y
    health: HEALTH_ERR
7 [2 ~+ A- K) {/ E% Y+ {+ j            3 failed cephadm daemon(s)
! Y6 o0 F) Y9 X2 N            failed to probe daemons or devices- v9 y3 j1 G% c7 b2 Z6 z4 ~' q
            2 mgr modules have failed
) z0 h! P5 [  K, a$ [& H            mon gm268-1 is low on available space+ B' o$ F2 I9 U$ w& B
            22 pgs not deep-scrubbed in time
! o! B6 T9 C9 K5 r; P7 q' M            1 slow ops, oldest one blocked for 2805 sec, mon.gm268-3 has slow ops# }  d: t  B2 W* q
. ?( Y6 B8 N! C# r
  services:" O6 m9 `- m' \9 G0 `9 U
    mon: 3 daemons, quorum gm268-2,gm268-3,gm268-1 (age 39m)
. p; F( u8 |! `    mgr: gm268-2.zttohs(active, since 51m), standbys: gm268-3.sjagqo, gm268-1.jgdvxs
. h- O9 Q) O; X  U+ q. u    mds: cephfs:1 {0=cephfs.gm268-3.ppyjrl=up:active} 1 up:standby
6 b: s# y8 i  F' B    osd: 41 osds: 41 up (since 46m), 41 in (since 20h); 185 remapped pgs
3 x' l( q9 [& t# M+ X- i2 k- m + K. ^6 M2 C$ t- F0 Q# H
  data:5 U% u8 M. f& N  C/ D
    pools:   5 pools, 11265 pgs
6 X5 _/ N( Z* S. b5 [* \" ?* U9 K. W    objects: 42.48M objects, 115 TiB) |5 h. i7 r' a( f
    usage:   232 TiB used, 365 TiB / 597 TiB avail) _0 x9 s1 C( a) M$ F
    pgs:     800589/84967110 objects misplaced (0.942%)! D- h3 {1 o& s+ S) `0 Y
             11080 active+clean8 o: H; ^, m; k8 [
             184   active+remapped+backfill_wait
: w5 X+ r! D  r" P0 P, d0 J% R- o             1     active+remapped+backfilling: `0 r" n/ ~8 d+ h% b, v
# i7 \" P2 X: j& p
  io:. P% g5 k5 q+ D$ k+ L0 ^
    recovery: 22 MiB/s, 6 objects/s. u9 v9 h1 @& @( k6 G2 }  |: y' ^' O

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2024-10-18 14:04:28 | 显示全部楼层
以下是其他的地方处理过程:$ a/ b' U  k; P5 p' Q
ceph mon节点迁移
& d5 d1 P6 g* B4 ~3 b/ ?! G2 n有时可能需要将ceph存储整机移动到不同的网络、数据中心的不同部分或完全不同的数据中心,甚至于新机房和老机房的网络都不是互通的,那么就需要使用离线迁移了。/ K4 \4 H/ @& v" M

' I3 @# j. f2 O1 W" V& c- L3 \离线迁移主要涉及到的就是mon节点的改变。
8 @0 x+ I1 @; `4 ~  y, _) K解决方案是为集群中的所有mon生成具有新IP地址的新 monmap,并将新映射注入每个单独的mon/ Z3 z7 n+ r' w( B+ g; U

. ~' n: `' c2 e' s! k$ K# M+ v1 I获取集群当前monmap(搬迁前进行)
+ w  w8 l, u" _' f4 F获取集群monmap这里又分为三种情况:Ceph mon能够形成仲裁;Ceph mon不能形成仲裁待至少有一个存活;所有的Ceph mon都已经损坏了。% D1 U) ?* @; t, ~: ^+ r
# h' H6 p% T1 ?* c& ]: ~2 v9 J$ ?
如果剩余的 Ceph mon能够形成仲裁(多数存活),请使用 ceph mon getmap 命令获取 Ceph monitor map:- X# r9 t$ D* _! _4 j! E: i
5 Y: m  N# B! \: L
ceph mon getmap -o /tmp/monmap
" Q5 n  B' H4 k1 N, b& b  n2 ~$ V; f如果此时ceph的mon已经不能够形成仲裁了(多数mon挂了),那么在健康的正确的mon机器上通过如下步骤获取monmap
( C7 ], U% H7 z" ^2 d! G% n" C8 e4 X- V
// 停止您要复制 Ceph monitor map 的 Ceph 监控器
/ S* {* f% t  ~  P% K& j[root@mon ~]# systemctl stop ceph-mon@<host-name>7 l: f( ^& ~! V9 ?$ ~. T5 T
// 获得ceph monmap
* x7 _* V3 l7 `9 ?( ~2 ^[root@mon ~]# ceph-mon -i ID --extract-monmap /tmp/monmap; B! l, u6 Y! U8 ]9 Z
如果很不走运,所有的mon都损坏了,那么还有没有什么办法获取到集群的monmap,以至于恢复整个集群呢?& {: s5 c! p* ~8 w

5 A: o- Q1 h; ]" W当然,也是有的,可以借助ceph-monstore-tool和 ceph- objectstore-tool 这两个实用程序,通过 OSD 节点上存储的信息来恢复它,具体详情请参考: 使用 BlueStore 时恢复 Ceph monitor 存储
. j( M+ c, M$ m/ D$ M' u3 E1 B- v' x3 k
删除临时monmap中的老的mon
" P" W/ f# o. k8 P5 ]: n: i+ q# monmaptool --rm node1 --rm node2 --rm node3 /tmp/monmap
) h* ^: O4 p3 ?9 Nmonmaptool: monmap file /tmp/monmap) a7 a: s6 y# n  s9 H/ L
monmaptool: removing node1. ~: {: D) m# ]6 y+ A8 ]
monmaptool: removing node2
, _* Q: x2 S# Q9 C0 x2 Hmonmaptool: removing node3
* r/ A8 y7 [3 {monmaptool: writing epoch 1 to  /tmp/monmap (0 monitors)! C7 _' I% ]/ |. m
向临时monmap中添加新的mon+ l; }# ~7 Q) d
# monmaptool --add node1 192.168.244.44 --add node2 192.168.244.45  --add node3 192.168.244.46 /tmp/monmap
, x3 X, @+ L" u+ }' lmonmaptool: monmap file  /tmp/monmap. U. D3 L* p& B. Z$ r
monmaptool: writing epoch 1 to  /tmp/monmap (3 monitors)
9 Y3 k# N8 a9 e( ?6 J停止所有mon服务并注入monmap* p# _3 P# V1 A5 _5 [9 i
首先要先确保新的mon已经在新的服务器上安装起来了,然后stop掉mon进程,每个mon新节点都要执行
' I! p  u8 k3 o3 s* ]' |
% x' n% i8 K  i* ?ceph-mon -i {mon-id} --inject-monmap /tmp/monmap
5 D& q4 l, z; {8 f更新所有服务(mon,mds,client,mgr,osd等)的ceph.conf
! K, ?% D2 a' O9 C7 v这里需要注意的是如果新ip的网段也有变化的话,那么除了要更新ceph.conf文件中mon\_host信息,还要更新public network/cluster network的网段信息
, [( v& A  ^" N1 }
4 s/ ~: \6 h+ ^7 h! v" H5 O" t同步的话可以通过ceph-deploy命令
# i3 R& J4 U: J4 ^  \3 F
6 I8 E3 b' L4 D  k: ?9 Hceph-deploy --overwrite-conf config push node{1..3}* K9 \) ?# d- O) ~& V, Q
关于上层服务8 ]9 ~- o/ ?/ w6 W# c
使用ceph底层存储的服务可能有虚拟机,k8s集群,如果ceph存储搬迁机房了,还需要服务之前的老的客户端,那么他们也需要做相应的变更
- Z$ A# D4 s- `) w3 t8 w( V- }" ^( G. m% b5 M) G4 b
ceph文件系统直接挂载+rbd挂载+ x: ]$ j' y" t& y7 R
直接把新的ceph.conf同步到client节点就可以

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2024-10-18 14:23:53 | 显示全部楼层
1 q  b' s, V( I' J( M
其他文献解决办法:
: L& p1 l  n! B& Z# l1 o% }! \
( q" L$ Y0 f9 y- P# c1 问题
5 r7 J6 A3 A  a- ?5 W9 @; O( v9 B, `: D1 Z! s. R
一般来说,在实际运行中,ceph monitor的个数是2n+1(n>=0)个,在线上至少3个,只要正常的节点数>=n+1,ceph的paxos算法能保证系统的正常运行。所以,对于3个节点,同时只能挂掉一个。一般来说,同时挂掉2个节点的概率比较小,但是万一挂掉2个呢?
) B6 m1 c. b6 ]6 k- L9 _8 W5 G5 ?
4 c* V' X7 W8 R. J- ^5 ^如果ceph的monitor节点超过半数挂掉,paxos算法就无法正常进行仲裁(quorum),此时,ceph集群会阻塞对集群的操作,直到超过半数的monitor节点恢复。) j( ~/ n" l, g3 f1 Z

  ~6 H3 u! U( Z  n( f9 m& rIf there are not enough monitors to form a quorum, the ceph command will block trying to reach the cluster. In this situation, you need to get enough ceph-mon daemons running to form a quorum before doing anything else with the cluster.
6 |* |% ]% H# ?$ u
2 T+ y: N, Q8 X; M5 D
  w- \# y1 E3 A+ @1 k7 C0 p  l2 ^; `4 D$ S" N( Q
所以,& v5 W; m/ y2 T, F8 A4 P

2 z1 v$ ?  d) ^7 R- v(1)如果挂掉的2个节点至少有一个可以恢复,也就是monitor的元数据还是OK的,那么只需要重启ceph-mon进程即可。所以,对于monitor,最好运行在RAID的机器上。这样,即使机器出现故障,恢复也比较容易。
  d' \* L! P0 P+ q9 Y! V: y8 T" w$ |+ P( \% d/ V
(2)如果挂掉的2个节点的元数据都损坏了呢?出现这种情况,说明人品不行,2台机器的RAID磁盘同时损坏,这得多背?肯定是管理员嫌工资太低,把机器砸了。如何恢复呢?- \" o# Y: [0 Z, v0 M, M
" E; T2 l- h9 }4 p4 s' ?0 {
2 恢复+ w1 s% J" }: Y6 O+ A
其实,也没有其它办法,只能想办法将故障的节点恢复,但元数据已经损坏。幸好还有一个元数据正常的节点,通过它可以恢复。
8 r6 y5 k' Y8 J7 l7 k7 [4 {6 c2 `; C* \* _1 @$ e8 B3 Q) u

8 i$ o% u$ W3 Q: @% W
$ T- f# A& [) l. K0 t+ p添加monitor的步骤:
8 v- M: s2 [  q5 ^5 }' U' m
( I) }; S5 O# O- a$ ceph mon getmap -o /tmp/monmap           # provides fsid and existing monitor addrs
6 Q! ~/ n/ d' l, A# b3 I/ Z2 t5 C% q
3 E# N$ M" s4 L; R: X8 @+ U$ ceph auth export mon. -o /tmp/monkey     # mon. auth key
, W6 \  h( Z/ \, L9 u. D) U8 z) e* t
$ ceph-mon -i newname --mkfs --monmap /tmp/monmap --keyring /tmp/monkey
% M1 U! H4 u/ X, B% L- v& s8 b( O  H# L/ F0 f1 M
所以,只要得到monmap,就可以恢复monitor了。
6 o3 E$ a, k" @; z8 p! E( H3 ^) P8 n2 J; J, d6 w# ^
为了模拟,考虑2个monitor节点,挂掉一个,此时通过网络访问ceph的所有操作都会被阻塞,但monitor的本地socket还是可以通信的。
5 \! G# T1 ]6 h3 j% G0 C- z; Y! k. p3 T; P0 U' \
NewImage+ n/ a6 S& P; n' R- f. `! T! N
# C5 F4 M" a) R: W. u: H3 D
$ Z9 z! P0 u! p# [, l' F4 g7 ^& E0 Q
1 ]6 B6 K5 Z& }1 x! q
但是,让人蛋疼的是通过socket不能进行monmap的导出。不过,幸好有monmaptool工具,通过它,我们可以手动生成(注意fsid):- V- Y+ k, ^4 Y+ F; ^6 `1 {

* b2 x0 n7 B% j, {: T# monmaptool  --create  --add vm2 172.16.213.134:6789 --add vm3 172.16.213.135:6789 --fsid eb295a51-ec22-4971-86ef-58f6d2bea3bf --clobber monmap  m) H* _/ e' e% A; C$ d" G; O
' F: `; j- s* c+ f
monmaptool: monmap file monmap
* \1 o7 \( c+ N8 F9 n! Y' ]7 j
1 F$ C- S% W% Z( L: ?1 L# kmonmaptool: set fsid to eb295a51-ec22-4971-86ef-58f6d2bea3bf9 a" \1 R6 g7 e* e( S5 ]

% U# Y: o5 f; ]8 P+ n" Pmonmaptool: writing epoch 0 to monmap (2 monitors)0 q$ x8 v/ _$ ]. K- f6 a
. @/ W1 ]. G2 S, s
将正常monitor节点的mon key拷贝过来:
; e0 R; x  A$ f. c+ p7 F
8 `; z) W( ?4 C# U% d1 n# cat /var/lib/ceph/mon/cluster1-vm2/keyring1 R# X+ r& {9 J
$ w, Z( I; z! K0 a6 n
[mon.]1 w! ^. H7 P( }7 f% U: d
5 d0 G+ g& \/ }- H3 H+ K
        key = AQDZQ8VTAAAAABAAX9HqE0NITrUt7j1w0YadvA==7 w% ?8 K, o+ ^* {
1 [5 x6 L/ T& ~
        caps mon = "allow *"7 m7 Y: m4 n0 @1 s" l" q
; d/ Q+ I( W' E2 [: B' s
: j" N) d* F; Z. ?3 ]9 g6 x8 G" A
  P# O0 N" H# \; Z# j) Y* U' |9 T
然后初始化:# {$ h" F, {( m( ^1 B( P
- K0 \8 S5 l) t6 I& ^8 I: n/ ]
# ceph-mon --cluster cluster1 -i vm3 --mkfs --monmap /root/monmap --keyring /tmp/keyring
) r% g' r/ U; J- j; c3 j8 C9 A- m4 R' j0 z, n
ceph-mon: set fsid to eb295a51-ec22-4971-86ef-58f6d2bea3bf
* ^6 N# x! A% J. y( R" m+ {8 ]
& ^) h2 Q4 `; N' ^5 ]ceph-mon: created monfs at /var/lib/ceph/mon/cluster1-vm3 for mon.vm3
% c" W5 [3 o: y3 h, J$ i% t* O8 e: B3 x$ d$ c
最后,启动故障节点:
6 X; M: X  d$ ]) z$ U5 R
1 v( `, {- {/ d# f( i# ceph-mon --cluster cluster1 -i vm3 --public-addr 172.16.213.135:6789
; L8 D( B9 Y. W& E7 X! q& I: e8 b4 A  h3 g

) }% c2 _# X3 Q# q+ Z+ N
- }2 [, \5 x# M" P+ h NewImage
/ i4 N- B7 f7 N! v+ @% x
$ j# l1 R- O0 e7 d  }" T+ j. R3 j& }一切OK!

1

主题

0

回帖

12

积分

管理员

积分
12
QQ
 楼主| 发表于 2024-11-2 15:49:58 | 显示全部楼层
最近还发现一个问题就是一个节点上存在磁盘空间超过80%之后,mon的服务也会停止。这个很隐形的问题。需要注意。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

返回首页|Archiver|手机版|小黑屋|易陆发现技术论坛 ( 蜀ICP备2026014127号-1 )

GMT+8, 2026-6-12 02:09 , Processed in 0.019143 second(s), 22 queries .

Powered by Discuz! X5.0

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表