ceph修复osd为down的情况

admin · 发表于 2018-10-6 15:47:19

尝试二、修复down掉的osd

该方法主要应用于某个osd物理损坏，导致激活不了

1、查看osd树

复制代码
root@ceph01:~# ceph osd tree
ID WEIGHT  TYPE NAME    UP/DOWN REWEIGHT PRIMARY-AFFINITY
-1 0.29279 root default
-2 0.14639    host ceph01
0 0.14639       osd.0       up  1.00000       1.00000
-3 0.14639    host ceph02
1 0.14639       osd.1    down       0       1.00000
复制代码
发现osd.1是down掉的。

2、将osd.1的状态设置为out

root@ceph02:~# ceph osd out osd.1
osd.1 is already out.
3、从集群中删除

root@ceph02:~# ceph osd rm osd.1
removed osd.1
4、从CRUSH中删除

root@ceph02:~# ceph osd crush rm osd.1
removed item id 1 name 'osd.1' from crush map
5、删除osd.1的认证信息

root@ceph02:~# ceph auth del osd.1
updated
6、umount

umount /dev/sdb1

7、再次查看osd的集群状态

复制代码
root@ceph02:~# ceph osd tree
ID WEIGHT  TYPE NAME    UP/DOWN REWEIGHT PRIMARY-AFFINITY
-1 0.14639 root default
-2 0.14639    host ceph01
0 0.14639       osd.0       up  1.00000       1.00000
-3    0    host ceph02
复制代码
8、登录ceph-deploy节点

root@ceph01:~# cd /root/my-cluster/
root@ceph01:~/my-cluster#
9、初始化磁盘

ceph-deploy --overwrite-conf osd  prepare ceph02:/dev/sdb1

在后面的版本中需要重新执行添加osdceph-deploy osd create node1 --data /dev/sdb

10、再次激活所有的osd(记住是所有的，不只是down掉这一个)

ceph-deploy osd activate  ceph01:/dev/sdb1 ceph02:/dev/sdb1
11、查看osd树和健康状态

复制代码
root@ceph01:~/my-cluster# ceph osd tree
ID WEIGHT  TYPE NAME    UP/DOWN REWEIGHT PRIMARY-AFFINITY
-1 0.29279 root default
-2 0.14639    host ceph01
0 0.14639       osd.0       up  1.00000       1.00000
-3 0.14639    host ceph02
1 0.14639       osd.1       up  1.00000       1.00000
root@ceph01:~/my-cluster#
复制代码
复制代码
root@ceph01:~/my-cluster# ceph -s
cluster ecacda71-af9f-46f9-a2a3-a35c9e51db9e
   health HEALTH_OK
   monmap e1: 1 mons at {ceph01=10.111.131.125:6789/0}
         election epoch 14, quorum 0 ceph01
   osdmap e150: 2 osds: 2 up, 2 in
         flags sortbitwise,require_jewel_osds
   pgmap v9284: 64 pgs, 1 pools, 17 bytes data, 3 objects
         10310 MB used, 289 GB / 299 GB avail
               64 active+clean
复制代码
只有为 HEALTH_OK 才算是正常的。

admin · 发表于 2018-10-11 02:00:33

如此简单，通过ceph命令强行标记为down，之后删除即可。下面先标记为down：

[root@node1 ceph]# ceph osd down osd.0
marked down osd.0.
此时查看集群布局：

[root@node1 ceph]# ceph osd tree
ID CLASS WEIGHT TYPE NAME    STATUS REWEIGHT PRI-AFF
-1          0 root default
-3          0    host node1
-5          0    host node2
-7          0    host node3
0          0 osd.0          down       0 1.00000
最后删除该osd.0:

[root@node1 ceph]# ceph osd rm 0
removed osd.0
确认是否删除:

[root@node1 ceph]# ceph osd tree
ID CLASS WEIGHT TYPE NAME    STATUS REWEIGHT PRI-AFF
-1          0 root default
-3          0    host node1
-5          0    host node2
-7          0    host node3

		自动登录	找回密码
密码			注册

ceph修复osd为down的情况

浏览过的版块