ceph 存储osd微调配置权重weight中数据均衡问题

admin · 发表于 2023-3-16 13:00:24

1、处理故障的pg
从ceph的状态中，可以看到，有一部分的pg处于stale/down/peering等状态，这部分异常的pg不能提供对外提供服务，影响了业务的可用性，通过ceph health detail找到这部分异常的pg，发现其中有一些pg的upset中都没有映射到osd，或者三副本只选出来2个osd，没有选出来第3个osd，下面是当时故障的pg的状态：

这个现象很有可能是权重不平衡导致的，关于权重在0.94.7版本的ceph中，有两个参数，一个是weight，一个是reweight，weight会参与crush算法，计算出要落位osd，然后reweight是在此基础上再去决定是否选择此osd，但是reweight不会参与crush算法，crush算法本质上是一个概率算法，因此当权重相差悬殊的时候，很有可能选不出来osd，客户环境中部分osd的reweight设置成了0.09，有将近一半的osd都将reweight设置成了小于1的值，这就有可能导致pg出现异常，从而选不出osd。因此尝试将故障pg对应的osd的reweight重置为1：

ceph health detail | grep stale
ceph pg <pgid> query
ceph osd reweight <id> 1
置为1之后，观察到该pg重新映射出了osd，并且消除了stale状态，恢复了服务。因为reweight的不确定性，我们调整权重，一般不调整reweight，让它始终保持为1，在L版之前的ceph中，需要通过调整weight值进行数据平衡，L版之后新增了weight-set功能，可以更有效的去平衡数据。

此时，可以将所有reweight不为1的osd重置为1:

for i in `cat reweight_osds.txt`; do setsid ceph osd reweight $i 1; done
重置为1之后，stale的pg全部恢复了正常，业务也恢复了正常。

2. 数据重平衡
后续需要做的操作就是继续平衡数据，但是要保持各个osd-domain的权重值大小一致，然后可以微调osd的weight值，将一个osd-domain中高使用率的调低，同时也要将另一个osd-domain中低使用率的调高，平衡数据，直到各个osd的使用率趋于均衡。

3. 恢复mon服务
等待数据平衡完成之后，压缩61 62的mon服务，然后启动，再将63加进集群。

至此故障处理完成，所以最终总结一下，引起该故障的本质原因，在于调整数据均衡的方式不对，权重调整的幅度过于大，不同osd之间的权重相差悬殊，导致pg出现了问题，进而引发了后续的一系列问题。因此，关于权重值需要关注以下几点：

保持各个bucket的故障域的权重是相等的，bucket里面的osd权重值可以不一致，但是osd上的权重值得保持相等，扩容/缩容，都需要考虑这个问题
weight不要设置过大与过小，需要跟它的实际容量保持一致
尽量不调整reweight值，即使调整，也是微调

		自动登录	找回密码
密码			注册

ceph 存储osd微调配置权重weight中数据均衡问题

浏览过的版块