ceph 集群处理stale的pg

admin · 发表于 2022-8-10 10:39:18

ceph 集群处理stale的pg
处理过程

首先用ceph pg dump|grep stale 找出所有的stale的pg
然后用 ceph force_create_pg pg_id% g7 A6 d- p) K7 p' U

如果做到这里，可以看到之前的stale的状态的PG，现在已经是creating状态的了，这个时候一个关键的步骤需要做下：

重启整个集群的OSD
/ y: F8 \1 M1 J3 i' P( y A

在重启完成了以后，集群的状态就会恢复正常了，也能够正常的写入新的数据了

[root@mon1 ~]# ceph pg dump |grep stale

dumped all7.385 19460 0 0 0 0 4363375984 1547 1547

stale+peering 2022-08-07 18:30:16.932885 9719'4511237 110154:5399674 [14] 14 [14] 14 9719'4511237 2022-08-06 07:29:51.095989 9719'4511237 2022-08-02 00:57:43.318114 0 7.2a6 19409 0 0 0 0 4324918151 1542 1542

stale+peering 2022-08-07 16:09:26.464409 5938'4407602 99931:5800676 [15] 15 [15] 15 5938'4407602 2022-08-06 07:36:00.102984 5938'4407602 2022-08-01 23:45:58.573722 0 8.39 280 0 0 0 0 0 1597 1597 stale+peering 2022-08-07 16:09:26.461915 5938'2119986 99931:2386270 [15] 15 [15] 15 5938'2119986 2022-08-05 21:32:12.656384 5938'2119986 2022-08-01 22:58:58.614188 0 7.34 19337 0 0 0 0 4278284806 1580 1580

stale+peering 2022-08-07 16:09:26.461100 9719'4369235 99931:5261881 [15] 15 [15] 15 9719'4369235 2022-08-06 08:22:37.168815 9719'4369235 2022-08-04 21:34:38.449584 0 7.1d8 19383 0 0 0 0 4332924749 1593 1593

stale+peering 2022-08-07 18:30:16.914876 9719'4456286 110154:5409919 [14] 14 [14] 14 9719'4456286 2022-08-06 09:09:03.624425 9719'4456286 2022-08-02 01:25:18.343799 0 7.1e6 19375 0 0 0 0 4342149879 1564 1564

stale+peering 2022-08-07 18:30:16.930931 10754'4463130 110154:5047778 [14] 14 [14] 14 10754'4463130 2022-08-06 01:41:35.137028 10754'4463130 2022-08-04 21:39:21.624235

[root@mon1 ~]# ceph pg 7.385 query

Error ENOENT: i don't have pgid 7.385

[root@mon1 ~]# ceph pg 7.385 query

Error ENOENT: i don't have pgid 7.385

[root@mon1 ~]# ceph pg 7.2a6 query

Error ENOENT: i don't have pgid 7.2a6

[root@mon1 ~]# [root@mon1 ~]# [root@mon1 ~]#

[root@mon1 ~]# cd /backup/

[root@mon1 backup]# ls

osd14pgs osd15pgs pgback-osd14 pgback-osd15 pgexport.sh

[root@mon1 backup]# cd pgback-osd14/

[root@mon1 pgback-osd14]# ls |grep 7.385osd14pg-7.385.file

一定要有这样的提示，才能回滚：

Error ENOENT: i don't have pgid 7.385

先停止osd服务：

[root@mon1 pgback-osd14]# systemctl stop ceph-osd@14.service

导出ceph-remove

[root@mon1 pgback-osd14]# ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-14/ --id=14 --op export-remove --pgid 7.385 --file /tmp/osd14-7.385pg

导入pg

[root@mon1 pgback-osd14]# sudo -u ceph ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-14/ --id=14 --op import --pgid 7.385 --file osd14pg-7.385.file

启动osd：

[root@mon1 pgback-osd14]# systemctl start ceph-osd@14.service

没有的需要重建：

处理方法：

第一步，找到stale状态pg

ceph pg dump |grep stale

第二步：重新创建pg

ceph force_create_pg $pg_id

		自动登录	找回密码
密码			注册

ceph 集群处理stale的pg

浏览过的版块