Degraded data redundancy: 1 pg undersized ceph status状态异常

admin · 发表于 2021-6-9 15:00:16

[root@controller ~]# ceph -s
  cluster:
id:    a4bb5236-c8ca-11eb-a67b-000c29ad02de
health: HEALTH_WARN
         Degraded data redundancy: 1 pg undersized

  services:
mon: 1 daemons, quorum controller (age 87m)
mgr: controller.horbtx(active, since 87m)
osd: 6 osds: 6 up (since 6m), 6 in (since 6m); 1 remapped pgs

  data:
pools: 1 pools, 1 pgs
objects: 0 objects, 0 B
usage: 6.0 GiB used, 114 GiB / 120 GiB avail
pgs:    1 active+undersized+remapped

解决过程：

[root@controller ~]# vim /etc/ceph/ceph.conf

  osd_class_update_on_start = false

[root@controller ~]# ceph health detail
HEALTH_WARN Degraded data redundancy: 1 pg undersized
[WRN] PG_DEGRADED: Degraded data redundancy: 1 pg undersized
pg 1.0 is stuck undersized for 86m, current state active+undersized+remapped, last acting [1,0]

修改配置后，需要重启osd服务:

ceph-a4bb5236-c8ca-11eb-a67b-000c29ad02de@osd.0.service  ceph-a4bb5236-c8ca-11eb-a67b-000c29ad02de@osd.3.service
ceph-a4bb5236-c8ca-11eb-a67b-000c29ad02de@osd.1.service  ceph-a4bb5236-c8ca-11eb-a67b-000c29ad02de@osd.4.service
ceph-a4bb5236-c8ca-11eb-a67b-000c29ad02de@osd.2.service  ceph-a4bb5236-c8ca-11eb-a67b-000c29ad02de@osd.5.service
[root@controller ~]# systemctl restart ceph-a4bb5236-c8ca-11eb-a67b-000c29ad02de@osd.
ceph-a4bb5236-c8ca-11eb-a67b-000c29ad02de@osd.0.service  ceph-a4bb5236-c8ca-11eb-a67b-000c29ad02de@osd.3.service
ceph-a4bb5236-c8ca-11eb-a67b-000c29ad02de@osd.1.service  ceph-a4bb5236-c8ca-11eb-a67b-000c29ad02de@osd.4.service
ceph-a4bb5236-c8ca-11eb-a67b-000c29ad02de@osd.2.service  ceph-a4bb5236-c8ca-11eb-a67b-000c29ad02de@osd.5.service
[root@controller ~]# systemctl restart ceph-a4bb5236-c8ca-11eb-a67b-000c29ad02de@osd.*
[root@controller ~]# ceph -s
  cluster:
id:    a4bb5236-c8ca-11eb-a67b-000c29ad02de
health: HEALTH_WARN
         4 osds down
         Degraded data redundancy: 1 pg undersized

  services:
mon: 1 daemons, quorum controller (age 89m)
mgr: controller.horbtx(active, since 88m)
osd: 6 osds: 2 up (since 0.641904s), 6 in (since 8m)

  data:
pools: 1 pools, 1 pgs
objects: 0 objects, 0 B
usage: 6.0 GiB used, 114 GiB / 120 GiB avail
pgs:    1 stale+active+undersized+remapped

[root@controller ~]# ceph -s
  cluster:
id:    a4bb5236-c8ca-11eb-a67b-000c29ad02de
health: HEALTH_OK

  services:
mon: 1 daemons, quorum controller (age 89m)
mgr: controller.horbtx(active, since 89m)
osd: 6 osds: 6 up (since 6s), 6 in (since 8m); 1 remapped pgs

  data:
pools: 1 pools, 1 pgs
objects: 0 objects, 0 B
usage: 6.0 GiB used, 114 GiB / 120 GiB avail
pgs:    1 active+undersized+remapped

[root@controller ~]# ceph -s
  cluster:
id:    a4bb5236-c8ca-11eb-a67b-000c29ad02de
health: HEALTH_OK

  services:
mon: 1 daemons, quorum controller (age 89m)
mgr: controller.horbtx(active, since 89m)
osd: 6 osds: 6 up (since 8s), 6 in (since 9m); 1 remapped pgs

  data:
pools: 1 pools, 1 pgs
objects: 0 objects, 0 B
usage: 6.0 GiB used, 114 GiB / 120 GiB avail
pgs:    1 active+undersized+remapped

[root@controller ~]# ceph -s
  cluster:
id:    a4bb5236-c8ca-11eb-a67b-000c29ad02de
health: HEALTH_OK

  services:
mon: 1 daemons, quorum controller (age 89m)
mgr: controller.horbtx(active, since 89m)
osd: 6 osds: 6 up (since 9s), 6 in (since 9m); 1 remapped pgs

  data:
pools: 1 pools, 1 pgs
objects: 0 objects, 0 B
usage: 6.0 GiB used, 114 GiB / 120 GiB avail
pgs:    1 active+undersized+remapped

[root@controller ~]# ceph -s
  cluster:
id:    a4bb5236-c8ca-11eb-a67b-000c29ad02de
health: HEALTH_OK

  services:
mon: 1 daemons, quorum controller (age 89m)
mgr: controller.horbtx(active, since 89m)
osd: 6 osds: 6 up (since 10s), 6 in (since 9m); 1 remapped pgs

  data:
pools: 1 pools, 1 pgs
objects: 0 objects, 0 B
usage: 6.0 GiB used, 114 GiB / 120 GiB avail
pgs:    1 active+undersized+remapped

[root@controller ~]# ceph health detail
HEALTH_OK
[root@controller ~]# ceph health detail
HEALTH_OK
[root@controller ~]#

admin · 发表于 2021-6-9 15:00:17

3.1.1 说明
降级：由上文可以得知，每个PG有三个副本，分别保存在不同的OSD中，在非故障情况下，这个PG是active+clean 状态，那么，如果PG 的副本osd.4 挂掉了，这个 PG 是降级状态。
3.1.2 故障模拟
a. 停止osd.1
$ systemctl stop ceph-osd@1
b. 查看PG状态
$ bin/ceph pg stat 20 pgs: 20 active+undersized+degraded; 14512 kB data, 302 GB used, 6388 GB / 6691 GB avail; 12/36 objects degraded (33.333%)
c. 查看集群监控状态
$ bin/ceph health detail
HEALTH_WARN 1 osds down; Degraded data redundancy: 12/36 objects degraded (33.333%), 20 pgs unclean, 20 pgs degraded; application not enabled on 1 pool(s)
OSD_DOWN 1 osds down
osd.1 (root=default,host=ceph-xx-cc00) is down
PG_DEGRADED Degraded data redundancy: 12/36 objects degraded (33.333%), 20 pgs unclean, 20 pgs degraded
pg 1.0 is active+undersized+degraded, acting [0,2]
pg 1.1 is active+undersized+degraded, acting [2,0]
d. 客户端IO操作
#写入对象
$ bin/rados -p test_pool put myobject ceph.conf

#读取对象到文件
$ bin/rados -p test_pool get myobject.old

#查看文件
$ ll ceph.conf*
-rw-r--r-- 1 root root 6211 Jun 25 14:01 ceph.conf
-rw-r--r-- 1 root root 6211 Jul 3 19:57 ceph.conf.old
故障总结：
为了模拟故障，(size = 3, min_size = 2) 我们手动停止了 osd.1，然后查看PG状态，可见，它此刻的状态是active+undersized+degraded,当一个 PG 所在的 OSD 挂掉之后，这个 PG 就会进入undersized+degraded 状态，而后面的[0,2]的意义就是还有两个副本存活在 osd.0 和 osd.2 上, 并且这个时候客户端可以正常读写IO。
3.1.3 总结
降级就是在发生了一些故障比如OSD挂掉之后，Ceph 将这个 OSD 上的所有 PG 标记为 Degraded。
降级的集群可以正常读写数据，降级的 PG 只是相当于小毛病而已，并不是严重的问题。
Undersized的意思就是当前存活的PG 副本数为 2，小于副本数3，将其做此标记，表明存货副本数不足，也不是严重的问题。
3.2 Peered
3.2.1 说明
Peering已经完成，但是PG当前Acting Set规模小于存储池规定的最小副本数(min_size)。
3.2.2 故障模拟
a. 停掉两个副本osd.1,osd.0
$ systemctl stop ceph-osd@1
$ systemctl stop ceph-osd@0

3.2.1 说明
Peering已经完成，但是PG当前Acting Set规模小于存储池规定的最小副本数(min_size)。
3.2.2 故障模拟

a. 停掉两个副本osd.1,osd.0

$ systemctl stop ceph-osd@1
$ systemctl stop ceph-osd@0

b. 查看集群健康状态

$ bin/ceph health detail
HEALTH_WARN 1 osds down; Reduced data availability: 4 pgs inactive; Degraded data redundancy: 26/39 objects degraded (66.667%), 20 pgs unclean, 20 pgs degraded; application not enabled on 1 pool(s)
OSD_DOWN 1 osds down
osd.0 (root=default,host=ceph-xx-cc00) is down
PG_AVAILABILITY Reduced data availability: 4 pgs inactive
pg 1.6 is stuck inactive for 516.741081, current state undersized+degraded+peered, last acting [2]
pg 1.10 is stuck inactive for 516.737888, current state undersized+degraded+peered, last acting [2]
pg 1.11 is stuck inactive for 516.737408, current state undersized+degraded+peered, last acting [2]
pg 1.12 is stuck inactive for 516.736955, current state undersized+degraded+peered, last acting [2]
PG_DEGRADED Degraded data redundancy: 26/39 objects degraded (66.667%), 20 pgs unclean, 20 pgs degraded
pg 1.0 is undersized+degraded+peered, acting [2]
pg 1.1 is undersized+degraded+peered, acting [2]
c. 客户端IO操作(夯住)

#读取对象到文件，夯住IO
$ bin/rados -p test_pool get myobject  ceph.conf.bak
故障总结：

现在pg 只剩下osd.2上存活，并且 pg 还多了一个状态：peered，英文的意思是仔细看，这里我们可以理解成协商、搜索。
这时候读取文件，会发现指令会卡在那个地方一直不动，为什么就不能读取内容了，因为我们设置的 min_size=2 ，如果存活数少于2，比如这里的 1 ，那么就不会响应外部的IO请求。
d. 调整min_size=1可以解决IO夯住问题

#设置min_size = 1
$ bin/ceph osd pool set test_pool min_size 1
set pool 1 min_size to 1
e. 查看集群监控状态

$ bin/ceph health detail
HEALTH_WARN 1 osds down; Degraded data redundancy: 26/39 objects degraded (66.667%), 20 pgs unclean, 20 pgs degraded, 20 pgs undersized; application not enabled on 1 pool(s)
OSD_DOWN 1 osds down
osd.0 (root=default,host=ceph-xx-cc00) is down。
PG_DEGRADED Degraded data redundancy: 26/39 objects degraded (66.667%), 20 pgs unclean, 20 pgs degraded, 20 pgs undersized
pg 1.0 is stuck undersized for 65.958983, current state active+undersized+degraded, last acting [2]
pg 1.1 is stuck undersized for 65.960092, current state active+undersized+degraded, last acting [2]
pg 1.2 is stuck undersized for 65.960974, current state active+undersized+degraded, last acting [2]
f. 客户端IO操作

#读取对象到文件中
$ ll -lh ceph.conf*
-rw-r--r-- 1 root root 6.1K Jun 25 14:01 ceph.conf
-rw-r--r-- 1 root root 6.1K Jul 3 20:11 ceph.conf.bak
-rw-r--r-- 1 root root 6.1K Jul 3 20:11 ceph.conf.bak.1
故障总结：

可以看到，PG状态Peered没有了，并且客户端文件IO可以正常读写了。
当min_size=1时，只要集群里面有一份副本活着，那就可以响应外部的IO请求。

		自动登录	找回密码
密码			注册

Degraded data redundancy: 1 pg undersized ceph status状态异常

浏览过的版块