pgs not deep-scrubbed in time异常处理

admin · 发表于 2022-12-20 17:00:15

发现出现异常warn信息，虽然不影响整个集群正常使用，但强迫症患者还是忍不了，下面是过程。查看具体报错信息
HEALTH_WARN 2 pgs not deep-scrubbed in time
PG_NOT_DEEP_SCRUBBED 2 pgs not deep-scrubbed in time
pg 18.41 not deep-scrubbed since 2022-12-07 20:15:50.550606
pg 5.16d not deep-scrubbed since 2022-12-07 22:21:58.141071

[root@controller1 ~]# ceph pg deep-scrub 18.41
instructing pg 18.41 on osd.6 to deep-scrub
[root@controller1 ~]# ceph pg deep-scrub 5.16
instructing pg 5.16 on osd.13 to deep-scrub

[root@controller1 ~]# ceph daemon osd.6 config show |grep osd_deep_scrub_interval
"osd_deep_scrub_interval": "604800.000000",
[root@controller1 ~]# ceph config set global osd_deep_scrub_interval 3628800
[root@controller1 ~]# ceph daemon osd.6 config show |grep osd_deep_scrub_interval
"osd_deep_scrub_interval": "3628800.000000",
[root@controller1 ~]# ceph config set global osd_deep_scrub_interval 3628800
恢复正常后，再改回来：
[root@controller1 ~]# ceph daemon osd.6 config show |grep osd_deep_scrub_interval
"osd_deep_scrub_interval": "604800.000000",
[root@controller1 ~]# ceph config set global osd_deep_scrub_interval 3628800
[root@controller1 ~]# ceph daemon osd.6 config show |grep osd_deep_scrub_interval
"osd_deep_scrub_interval": "3628800.000000",
[root@controller1 ~]# ceph config set global osd_deep_scrub_interval 3628800^C

[root@controller1 ~]#
[root@controller1 ~]# ceph -s
  cluster:
id:    9d22e36a-2bdd-4d2d-8394-48af75ead777
health: HEALTH_OK

  services:
mon: 3 daemons, quorum ceph1,ceph2,ceph3 (age 5M)
mgr: ceph1(active, since 19M), standbys: ceph2,ceph3
osd: 40 osds: 40 up (since 3w), 40 in (since 12M)
rgw: 3 daemons active (host09, host10, host11)

  task status:

  data:
pools: 16 pools, 3072 pgs
objects: 4.20M objects, 16 TiB
usage: 40 TiB used, 107 TiB / 148 TiB avail
pgs:    3067 active+clean
         5 active+clean+scrubbing+deep

  io:
client: 403 KiB/s rd, 9.5 MiB/s wr, 514 op/s rd, 466 op/s wr

[root@ ~]# ceph config set global osd_deep_scrub_interval 604800
[root@ ~]#

systemctl restart ceph-osd@6.service

admin · 发表于 2022-12-20 17:00:16

根源
RHCS 4 has introduced 2 new parameters on scrubbing interval warning, and default values are
Raw
"mon_warn_pg_not_deep_scrubbed_ratio": "0.750000",
"mon_warn_pg_not_scrubbed_ratio": "0.500000",
These ratios are based on the following parameters, and default values are
Raw
"osd_scrub_max_interval": "604800.000000",
"osd_deep_scrub_interval": "604800.000000"
When pgs are not scrubbed / deep scrubbed for the configured ratio of the interval, warnings of "pgs not scrubbed / deep-scrubbed in time" will show in Ceph status.

When setting "mon_warn_pg_not_deep_scrubbed_ratio" or "mon_warn_pg_not_scrubbed_ratio" values to 0, warnings will be disabled. Please evaluate the cluster's past usage carefully before setting.

Sometimes, we might get a false warning even though the osd_deep_scrub_interval has been increased. This happens when the scrubbing parameters are not applied globally because these settings are used by both OSDs and MONs.
The OSDs use them to determine when to run scrub, and the MONs/MGRs use them to check if they need to show the warning.
You can set it globally as:

Raw
# ceph config set global osd_deep_scrub_interval 3628800
诊断步骤
Checking scrubbing related configurations by admin socket
Raw
ceph --admin-daemon /var/run/ceph/<admin_socket_name>.asok config show | grep scrub

admin · 发表于 2022-12-20 17:00:17

You can set the deep scrub period to 2 week, to stretch the deep scrub window. Insted of

osd_deep_scrub_interval = 604800
use:

osd_deep_scrub_interval = 1209600

		自动登录	找回密码
密码			注册