ceph分布式存储 recovering速度控制

admin · 发表于 2022-8-11 09:01:04

集群中剔除了一个osd,没有新加入，进行了一次pg的均衡，做完均衡后集群出现· Degraded data redundancy: 256 pgs undersized
,为了保证集群的pg副本数为3，需要新添加一个osd来做pg的均衡

ceph集群中osd的recovery的相关参数
[root@ceph-1 ~]#  ceph daemon osd.0 config show  |grep recovery|grep osd
"osd_allow_recovery_below_min_size": "true",
"osd_async_recovery_min_cost": "100",
"osd_debug_pretend_recovery_active": "false",
"osd_debug_skip_full_check_in_recovery": "false",
"osd_force_recovery_pg_log_entries_factor": "1.300000",
"osd_min_recovery_priority": "0",
"osd_recovery_cost": "20971520",
"osd_recovery_delay_start": "0.000000",
"osd_recovery_max_active": "3",
"osd_recovery_max_chunk": "8388608",
"osd_recovery_max_omap_entries_per_chunk": "8096",
"osd_recovery_max_single_start": "1",
"osd_recovery_op_priority": "3",
"osd_recovery_op_warn_multiple": "16",
"osd_recovery_priority": "5",
"osd_recovery_retry_interval": "30.000000",
"osd_recovery_sleep": "0.000000",
"osd_recovery_sleep_hdd": "0.100000",
"osd_recovery_sleep_hybrid": "0.025000",
"osd_recovery_sleep_ssd": "0.000000",
"osd_repair_during_recovery": "false",
"osd_scrub_during_recovery": "false",

[root@ceph-1 ~]#  ceph daemon osd.0 config show  |grep recovery|grep osd
"osd_allow_recovery_below_min_size": "true",
"osd_debug_skip_full_check_in_recovery": "false",
"osd_force_recovery_pg_log_entries_factor": "1.300000",
"osd_min_recovery_priority": "0",
"osd_recovery_cost": "20971520",
"osd_recovery_delay_start": "0.000000",
"osd_recovery_forget_lost_objects": "false",
"osd_recovery_max_active": "15",
"osd_recovery_max_chunk": "8388608",
"osd_recovery_max_omap_entries_per_chunk": "8096",
"osd_recovery_max_single_start": "1",
"osd_recovery_op_priority": "3",
"osd_recovery_op_warn_multiple": "16",
"osd_recovery_priority": "5",
"osd_recovery_retry_interval": "30.000000",
"osd_recovery_sleep": "0.000000",
"osd_recovery_sleep_hdd": "0.000000",
"osd_recovery_sleep_hybrid": "0.025000",
"osd_recovery_sleep_ssd": "0.000000",
"osd_recovery_thread_suicide_timeout": "300",
"osd_recovery_thread_timeout": "30",
"osd_recovery_threads": "1",
"osd_scrub_during_recovery": "false",

加快Recovery的速度
// 集群中添加一个osd, ceph-deploy osd create  --bluestore node1 --data  /dev/sdg --block-db cache/db1 --block-wal cache/wal1

// 查看每个osd节点的参数，或者通过  ceph daemon osd.x config get osd_recovery_op_priority 查看单个osd的参数

[root@ceph-1 ~]# ceph daemon osd.0 config get osd_recovery_op_priority
{
"osd_recovery_op_priority": "3"
}

[root@ceph-1 ~]# ceph daemon osd.0 config show |egrep "osd_recovery_max_active|osd_recovery_op_priority|osd_max_backfills"
"osd_max_backfills": "10",
"osd_recovery_max_active": "15",
"osd_recovery_op_priority": "3",

//每个osd节点执行如下的参数调整或者通过
ceph daemon osd.2 config set osd_recovery_op_priority 1
[root@ceph-1 ~]# ceph daemon osd.0 config set osd_recovery_op_priority 1
{
"success": "osd_recovery_op_priority = '1' (not observed, change may require restart) "
}

全部osd参数设置为0：
[root@ceph-1 ~]# ceph tell osd.* injectargs --osd_recovery_op_priority=0
osd.0: osd_recovery_op_priority = '0' (not observed, change may require restart)
osd.1: osd_recovery_op_priority = '0' (not observed, change may require restart)
osd.2: osd_recovery_op_priority = '0' (not observed, change may require restart)
osd.3: osd_recovery_op_priority = '0' (not observed, change may require restart)
osd.4: osd_recovery_op_priority = '0' (not observed, change may require restart)
osd.5: osd_recovery_op_priority = '0' (not observed, change may require restart)

get osd参数值：
[root@ceph-1 ~]#  ceph daemon osd.0 config get osd_recovery_op_priority
{
"osd_recovery_op_priority": "0"
}

使用这种方式设置，不需要重启osd服务，直接生效：
来设置
ceph tell osd.* injectargs --osd_max_backfills=128
ceph tell osd.* injectargs --osd_recovery_op_priority=0
ceph tell osd.* injectargs --osd_recovery_max_active=64
ceph tell osd.* injectargs --osd_recovery_max_single_start=64
ceph tell osd.* injectargs --osd_recovery_sleep_hdd=0

核心影响恢复速度的参数osd_max_backfills这个参数默认值10. 由于一个osd承载了多个pg,所以一个osd中的pg很大可能需要做recovery.这个参数就是设置每个osd最多能让osd_max_backfills个pg进行同时做backfill.recovery做修复，通过pull或者push的backfills的操作数一般是分开的，所以一般会考虑设置这个值大一些，用于primary osd通过push修复replica osd或者primary osd 通过pull方式修复replica osdosd_recovery_op_priority默认值10. osd修复操作的优先级, 可小于该值;这个值越小，recovery优先级越高。高优先级会导致集群的性能降级直到recovery结束osd_recovery_max_active默认值15. 一个osd上可以承载多个pg, 可能好几个pg都需要recovery,这个值限定该osd最多同时有多少pg做recovery。osd_recovery_max_single_start默认值5.
这个值限定了每个pg可以启动recovery操作的最大数。
第一种情况，配置osd_recovery_max_single_start=1，osd_recovery_max_active=3，这代表每个osd在某个时间会为一个pg最多启动1个恢复操作，并且最多可以由3个恢复操作处于活跃状态。
第二种情况，配置osd_recovery_max_single_start=2，osd_recovery_max_active=3，这代表某个时间点osd会为一个pg启动2个恢复操作，并且最多能有3个恢复操作处于活跃状态。osd_recovery_sleep_hdd每个recovery操作之间的间隔时间，单位是ms

admin · 发表于 2022-8-11 09:15:46

Ceph在扩容或缩容期间会有数据rebalance。如何控制在rebalance时，尽量降低对client IO的影响？
本质上，用户数据写入ceph时，会被切分成大小相等的object，这些object由PG承载，分布到不同的OSD上（每个OSD一般会对应一块硬盘）。数据的迁移会以PG为单位进行，所以当PG发生变化时，就会有数据rebalance。
后端的数据均衡IO会对client的IO造成影响从而影响到集群的业务IO，所以我们需要对数据均衡IO进行控制，主要是业务优先和恢复优先。
那么在什么时候PG会变化呢？
从用户使用角度讲一般有如下几种场景：
1、osd暂时下线，然后又上线2、osd硬件故障下线,更换硬盘重新上线

无论哪种情况，osd上线后通常会发现，自己承载的pg有数据落后了，需要进入恢复模式，从其它osd上获取新的数据达到同步。这个过程就是recovery。
recovery分为两种：
log-based recovery: 是说osd故障时间不长，需要恢复的数据可以通过pg log回放找回来。backfill recovery: 是说无法通过pg log回放找全数据，只能通过全量回填(backfill)拷贝。

操作前记得查看下默认参数值，操作完后记得恢复到原先参数

业务优先：
ceph tell osd.* injectargs '--osd-max-backfills 1 --osd-recovery-max-active 1 --osd-recovery-max-single-start 1'ceph tell osd.* injectargs '--osd-recovery-sleep 1'

恢复优先：
ceph tell osd.* injectargs '--osd-max-backfills 5 --osd-recovery-max-active 5 --osd-recovery-max-single-start 5'ceph tell osd.* injectargs '--osd-recovery-sleep 0'

还原配置：
ceph tell osd.* injectargs '--osd-max-backfills 1 --osd-recovery-max-active 3 --osd-recovery-max-single-start 1'ceph tell osd.* injectargs '--osd-recovery-sleep 0'

场景三：完全保证client带宽
在极端情况下，如果网络带宽及磁盘性能有限，这个时候为了不影响用户体验，不得不在业务繁重时段关闭数据重建及迁移的I/O，来完全保证client的带宽，在业务空闲时段再打开数据重建及迁移，具体操作如下：

在业务繁忙时，完全关闭数据重建及迁移：
ceph osd set norebalanceceph osd set norecoverceph osd set nobackfill

在业务空闲时，打开数据重建及迁移：
ceph osd unset norebalanceceph osd unset norecoverceph osd unset nobackfill

以上前两种方案操作配置均为立即生效，且重启服务或者重启节点后失效，如果想长期有效，可以在进行以上操作立即生效后，修改所有ceph集群节点的配置文件。

注：查看现有recovery配置信息，这里的133为具体osd的id号

[url=]

[/url]
ceph --admin-daemon /var/run/ceph/ceph-osd.133.asok config show | grep -E "osd_max_backfills|osd_recovery_max_active|osd_recovery_max_single_start|osd_recovery_sleep" "osd_max_backfills": "1", "osd_recovery_max_active": "1", "osd_recovery_max_single_start": "1", "osd_recovery_sleep": "0.000000", "osd_recovery_sleep_hdd": "0.100000", "osd_recovery_sleep_hybrid": "0.025000", "osd_recovery_sleep_ssd": "0.000000",[url=]

[/url]

扩展：参数解析

osd_max_backfills : 一个osd上最多能有多少个pg同时做backfill。其中osd出去的最大backfill数量为osd_max_backfills ，osd进来的最大backfill数量也是osd_max_backfills ，所以每个osd最大的backfill数量为osd_max_backfills * 2；osd_recovery_sleep: 出队列后先Sleep一段时间，拉长两个Recovery的时间间隔；

以下二个参数，网上解释大多有误导，结合代码以及官方材料分析为：

osd_recovery_max_active: 每个OSD上同时进行的所有PG的恢复操作（active recovery）的最大数量；osd_recovery_max_single_start: OSD在某个时刻会为一个PG启动恢复操作数；

这两个参数需要结合在一起分析：

a.假设我们配置osd_recovery_max_single_start为1，osd_recovery_max_active为3，那么，这意味着OSD在某个时刻会为一个PG最多启动1个恢复操作，而且最多可以有3个恢复操作同时处于活动状态。b.假设我们配置osd_recovery_max_single_start为2，osd_recovery_max_active为3，那么，这意味着OSD在某个时刻会为一个PG最多启动2个恢复操作，而且最多可以有3个恢复操作同时处于活动状态。例如第一个pg启动2个恢复操作，第二个pg启动1个恢复操作，第三个pg等待前两个pg 恢复操作完进行新的恢复。

recovery相关参数

[url=]

[/url]
osd_max_backfills:默认值10. 一个osd上承载了多个pg。可能很多pg都需要做第二种recovery,即backfill。设定这个参数来指明在一个osd上最多能有多少个pg同时做backfill。osd_recovery_max_active：默认值15. 一个osd上可以承载多个pg, 可能好几个pg都需要recovery,这个值限定该osd最多同时有多少pg做recovery。osd_recovery_max_single_start：默认值5. 这个值限定了每个pg可以启动recovery操作的最大数。osd_recovery_max_chunk: 默认值8388608. 设置恢复数据块的大小，以防网络阻塞osd_recovery_op_priority: 默认值10. osd修复操作的优先级, 可小于该值osd_recovery_sleep: 默认值0. revocery的间隔[url=]

[/url]

默认配置参数：
"osd_max_backfills": "1","osd_recovery_sleep": "0","osd_recovery_max_active": "3","osd_recovery_max_single_start": "1",

推荐配置参数：
级别:
5%是业务优先，对业务影响最小；
100%恢复优先，对业务影响最大；
其他介于二者之间；

osd_min_pg_log_entries 正常情况下PGLog的记录的条数，
osd_max_pg_log_entries 异常情况下pglog记录的条数，达到该限制会进行trim操作

admin · 发表于 2022-8-11 09:21:52

部署一套可供生产环境使用的ceph集群，考虑的问题比较多，特别是配置文件的配置量参数。这里记录调试后的配置参数：

[global]

fsid = 1235bE62-8ae1-difg-893a-892a675757c6

mon_initial_members = ceph-node01,ceph-node02,ceph-node03

mon_host = 192.168.170.11,192.168.170.12,192.168.170.13

auth_cluster_required = cephx

auth_service_required = cephx

auth_client_required = cephx

public_network = 192.168.170.0/22 #管理网络

cluster_network = 192.168.180.0/22 #集群网络

mon_pg_warn_max_per_osd = 1000 #每个osd上pg数量警告值，这个可以根据具体规划来设定

osd_pool_default_size = 3 #默认副本数为3

osd_pool_default_min_size = 2 #最小副本数为2，也就是只能坏一个

mon_osd_full_ratio = .85 #存储使用率达到85%将不再提供数据存储

mon_osd_nearfull_ratio = .70 #存储使用率达到70%集群将会warn状态

osd_deep_scrub_randomize_ratio = 0.01 #随机深度清洗概率,值越大，随机深度清洗概率越高,太高会影响业务

[osd]

osd_max_write_size = 1024 #默认90M，一次写操作最小值

osd_recovery_op_priority = 1 #默认为10, 1-63 osd修复操作的优先级, 。值越小，优先级越低

osd_recovery_max_active = 1 #限定每个osd上同时有多少个pg可以同时进行recover

osd_recovery_max_single_start = 1 # 和osd_recovery_max_active一起使用，要理解其含义。假设我们配置osd_recovery_max_single_start为1，osd_recovery_max_active为3，那么，这意味着OSD在某个时刻会为一个PG启动一个恢复操作，而且最多可以有三个恢复操作同时处于活动状态。

osd_recovery_max_chunk = 1048576 #默认为8388608, 设置恢复数据块的大小，以防网络阻塞

osd_recovery_threads = 1 #恢复数据所需的线程数

osd_max_backfills = 1 #集群故障后,最大backfill数为1，太大会影响业务

osd_scrub_begin_hour = 22 #清洗开始时间为晚上22点

osd_scrub_end_hour = 7 #清洗结束时间为早上7点

osd_recovery_sleep = 0 #默认为0，recovery的时间间隔，会影响recovery时常，如果recovery导致业务不正常，可以调大该值，增加时间间隔

osd_crush_update_on_start = false # 新加的osd会up/in,但并不会更新crushmap，prepare+active期间不会导致数据迁移

admin · 发表于 2022-8-11 11:35:51

参数解析

osd_max_backfills : 一个osd上最多能有多少个pg同时做backfill。其中osd出去的最大backfill数量为osd_max_backfills ，osd进来的最大backfill数量也是osd_max_backfills ，所以每个osd最大的backfill数量为osd_max_backfills * 2；
osd_recovery_sleep: 出队列后先Sleep一段时间，拉长两个Recovery的时间间隔；

以下二个参数，网上解释大多有误导，结合代码以及官方材料分析为：

osd_recovery_max_active: 每个OSD上同时进行的所有PG的恢复操作（active recovery）的最大数量；
osd_recovery_max_single_start: OSD在某个时刻会为一个PG启动恢复操作数；

这两个参数需要结合在一起分析：

a.假设我们配置osd_recovery_max_single_start为1，osd_recovery_max_active为3，那么，这意味着OSD在某个时刻会为一个PG最多启动1个恢复操作，而且最多可以有3个恢复操作同时处于活动状态。
b.假设我们配置osd_recovery_max_single_start为2，osd_recovery_max_active为3，那么，这意味着OSD在某个时刻会为一个PG最多启动2个恢复操作，而且最多可以有3个恢复操作同时处于活动状态。例如第一个pg启动2个恢复操作，第二个pg启动1个恢复操作，第三个pg等待前两个pg 恢复操作完进行新的恢复。

recovery相关参数

复制代码
osd_max_backfills:默认值10. 一个osd上承载了多个pg。可能很多pg都需要做第二种recovery,即backfill。设定这个参数来指明在一个osd上最多能有多少个pg同时做backfill。
osd_recovery_max_active：默认值15. 一个osd上可以承载多个pg, 可能好几个pg都需要recovery,这个值限定该osd最多同时有多少pg做recovery。
osd_recovery_max_single_start：默认值5. 这个值限定了每个pg可以启动recovery操作的最大数。
osd_recovery_max_chunk: 默认值8388608. 设置恢复数据块的大小，以防网络阻塞
osd_recovery_op_priority: 默认值10. osd修复操作的优先级, 可小于该值
osd_recovery_sleep: 默认值0. revocery的间隔
复制代码

默认配置参数：
"osd_max_backfills": "1",
"osd_recovery_sleep": "0",
"osd_recovery_max_active": "3",
"osd_recovery_max_single_start": "1",

推荐配置参数：
级别:
5%是业务优先，对业务影响最小；
100%恢复优先，对业务影响最大；
其他介于二者之间；

osd_min_pg_log_entries 正常情况下PGLog的记录的条数，
osd_max_pg_log_entries 异常情况下pglog记录的条数，达到该限制会进行trim操作

admin · 发表于 2022-8-13 16:18:32

15.1 服务相关
systemctl status ceph*.service ceph*.target #查看所有服务
systemctl stop ceph*.service ceph*.target #关闭所有服务
systemctl start ceph.target #启动服务
systemctl stop ceph-osd*.service # 关闭所有osd服务
systemctl stop ceph-mon*.service #关闭所有mon服务
sudo systemctl start ceph-osd@{id} #启动单个osd服务
sudo systemctl start ceph-mon@{hostname} #启动单个mon服务
sudo systemctl start ceph-mds@{hostname} #启动单个mds服务
15.2 查看
ceph -help #查看命令帮助
ceph -s #查看状态
ceph osd pool set rbd pg_num 1024 # 修改pg_num数量
ceph osd pool set rbd pgp_num 1024 # 修改pgp_num数量
ceph osd tree #查看osd树列表
ceph osd pool ls #查看所有的osd池
ceph --admin-daemon /var/run/ceph/ceph-osd.0.asok config show # 查看指定的osd运行中的所有参数
rados df #查看储存池使用情况
rados -p rbd ls |sort
ceph osd pool get rbd pg_num
ceph osd pool get rbd pgp_num
ceph osd pool set rbd pg_num 1024
ceph osd pool set rbd pgp_num 1024
15.3 rbd相关
rbd create --size {megabytes} {pool-name}/{image-name}
rbd list
rbd info RBD_NAME
rbd feature disable RBD_NAME FEATURE1 FEATURE1 …
rbd map RBD_NAME #映射到系统内核
rbd showmapped #查看rbd映射条目
rbd unmap /dev/rbd0 # 取消内核映射
rbd resize --size 2048 RBD_NAME # to increase
rbd resize --size 2048 RBD_NAME --allow-shrink #to decrease
rbd du {RBD_NAME} -p rbd #查看某个或所有Image的容量,-p 指定pool名
rbd diff RBD_NAME | awk ‘{ SUM += $2 } END { print SUM/1024/1024/1024 " GB" }’ #查看rbd image当前占用大小
15.4 修改
ceph tell # 使用tell命令手动临时修改组件的配置
[例如:集群状态恢复涉及数据回填时,加速回填速度]

ceph tell ‘osd.*’ injectargs ‘–osd-max-backfills 20’ #默认为1
ceph tell ‘osd.*’ injectargs ‘–osd-recovery-max-active 10’ #默认为3

		自动登录	找回密码
密码			注册

ceph分布式存储 recovering速度控制

浏览过的版块